Files

panda361 cacdc79ae2 LLMver_v1

2026-03-20 22:40:13 +08:00

31 KiB

Raw Permalink Blame History

大语言模型表征适配的相关理论与研究进展

本章围绕“大语言模型内部存在多层级结构异质性—均匀适配策略存在局限—需要结构感知表征适配框架与方法体系”的总体主线，综述支撑后续章节（模块级 HyCAM、维度级 RoSA/DyPAM、参数级 CASCADE/MESSA）所需的架构与表示机制背景、参数高效微调（PEFT）谱系、多任务适配问题、以及结构异质性相关的实证与方法进展。citeturn5search19turn5search1turn18view3

大语言模型架构基础与表示机制

（对应 2.1.1）Transformer 架构与核心计算流程
Transformer 以“残差流（residual stream）上的层叠变换”为基本组织方式：每层通常包含多头自注意力子层与前馈网络（FFN）子层，并通过残差连接与层归一化（LayerNorm）稳定训练与信息传递。citeturn18view3 自注意力的核心计算可概括为：对输入表示线性映射得到查询、键、值（Q/K/V），通过缩放点积得到注意力权重，再对值向量加权求和输出；多头机制将注意力在多个子空间并行计算并拼接，从而提升表达能力与可分解性。citeturn18view3 FFN 通常是两层线性变换加非线性激活（如 GELU/RELU）的逐位置（position-wise）映射，承担非线性特征变换与容量承载的重要角色。citeturn18view3

在大语言模型（LLM）中，更常见的实现是 decoder-only Transformer：以因果掩码（causal mask）约束自注意力仅访问历史 token，从而匹配自回归语言建模目标；这一范式在 GPT 系列及后续大量开源与闭源 LLM 中得到广泛采用。citeturn19search2turn8search0turn18view1
本节的关键落点是：Transformer 并非“单一均匀模块”的堆叠，而是由注意力、FFN、残差与归一化等组件协同完成表示的层间传播与重组，这为后续从“表示流调制（representation modulation）”视角讨论模块级角色差异提供了统一对象基础。citeturn18view3

image_group{"layout":"carousel","aspect_ratio":"16:9","query":["Transformer decoder-only architecture diagram causal self-attention","multi-head self-attention and feed-forward network diagram"],"num_per_query":1}

（对应 2.1.2）旋转位置编码与位置信息建模
位置编码（positional encoding/representation）用于将序列位置信息注入注意力计算或表示空间，使模型能够区分“相同 token 在不同位置/相对距离下”的结构差异。关于位置机制的系统性梳理可参考位置编码综述：绝对位置、相对位置、基于注意力偏置等方法各具归纳偏置与工程权衡。citeturn11search25

RoPE（Rotary Position Embedding）通过对 Q/K 的特征维度按二维成对方式施加旋转，将位置以“相位”（phase）形式编码进注意力的匹配关系中。其常见表述是：对第 (i) 个二维子空间，以与维度相关的角频率 (\theta_i)（对应不同波长/尺度）对 token 位置 (p) 进行旋转，从而使注意力得分天然携带相对位置信息。citeturn18view2 RoPE 的这一“频率分解”结构（不同维度对对应不同角频率）为后续在维度级讨论“位置信息并非均匀分布”的现象提供了机制背景。citeturn18view2

与 RoPE 相对，ALiBi 不在输入端加位置向量，而是在注意力 logits 中引入与距离线性相关的偏置（且可设定头相关斜率），强调对“近邻更重要”的长度外推归纳偏置。citeturn11search0 另有相对位置编码路线在注意力打分中显式建模相对距离，例如 Transformer-XL 为长序列依赖提出段级 recurrence 并配套相对位置方案。citeturn11search5
本节的关键落点是：本章此处仅交代 “位置机制是什么”。RoPE 的按维度对分配频率、以及由此引出的维度级/头级/输入条件化的非均匀性，将在后文“结构异质性”相关进展中再系统展开。citeturn18view2turn11search25

（对应 2.1.3）预训练范式与大语言模型的表示能力
预训练—微调（pretrain-then-adapt）范式已成为现代 NLP 与 LLM 的主流工程路径：通过海量无标注语料预训练获得通用语言表示与生成能力，再通过（全参或参数高效）微调在下游任务上实现能力对齐与迁移。早期生成式预训练工作已验证“先无监督预训练，再监督微调”能显著提升多类 NLU 任务表现。citeturn19search1 双向编码式预训练（如 BERT 的 MLM/NSP）则展示了预训练表示对广泛下游任务的可迁移性与强基线能力。citeturn19search0

随着规模扩展，decoder-only 语言模型在零样本/小样本（in-context）设置下表现显著增强，显示出“通用任务适配”的涌现趋势，但并不意味着“无需任何适配”。citeturn8search0 具体到开源生态，LLaMA 等工作强调在更可控的数据与算力预算下训练高性能基础模型，为下游适配提供了广泛可复用的底座。citeturn18view1 在中文与多语场景，Qwen2 技术报告系统发布多尺寸基础与对齐模型，并明确提供量化、微调、部署等资源渠道，体现“强底座 + 低成本适配”的生态导向。citeturn18view0

在对齐与指令遵循方面，RLHF/人类反馈微调等后训练（post-training）路线表明：即便不改变预训练目标，仍可通过后续适配显著改善“按用户意图生成”的能力与安全性。citeturn19search3
本节的关键落点是：预训练提供强通用表示，但这些能力能否在具体任务中被稳定、可控、预算友好地“调用出来”，仍高度依赖适配机制设计；因此“为何需要适配而不是重训”不仅是成本问题，更是能力组织与调用机制的问题。citeturn5search19turn19search3

（对应 2.1.4）模型内部的功能分化与结构异质性
大量分析工作显示，Transformer 内部并非“均匀黑箱”，而是在层、头、维度、子模块等层面呈现可定位的功能分化。

首先，在层级维度上，预训练模型在不同层往往呈现不同类型语言信息的可提取性：例如对 BERT 的 probing/edge probing 研究发现，POS、句法结构、语义角色、指代等信息在层间出现相对稳定的“阶段性分布”，呈现类似传统 NLP pipeline 的层级进展。citeturn8search2 其次，在注意力头层面，注意力头可呈现不同模式（关注分隔符、特定位置偏移、全局聚合等），且某些头能与句法/共指等语言关系高度对应。citeturn10search4 与此同时，也有研究指出大量注意力头在推理时可被移除而性能变化有限，暗示“并非所有头/层对任务同等关键”，从而体现结构重要性的不均匀。citeturn8search3

再次，在模块分工上，FFN 作为 Transformer 中参数占比很高的组件，其功能并非仅是“非线性变换”：有工作将 FFN 解释为可检索的 key-value 记忆结构，能够对应训练语料中的可解释模式并影响输出分布，强调 FFN 在知识承载与模式触发中的角色。citeturn8search1 进一步的机制可解释性研究提出以“电路”（circuits）视角刻画 Transformer 内部可组合算法结构，并在小模型中识别出与 in-context 学习相关的 induction heads 等可解释机制，强化了“内部存在可分解子结构与角色分工”的观点。citeturn10search1turn10search6

最后，在表示几何与维度层面，Transformer 表征常出现各向异性（anisotropy）与表示集中现象：例如对 BERT/ELMo/GPT-2 的几何分析指出各层表征并非近似各向同性分布，而倾向在向量空间中形成“窄锥/子空间集中”。citeturn9search0 面向句向量的研究也指出预训练模型诱导的表示空间可能呈现非平滑的各向异性，影响语义相似等任务。citeturn9search5 同时期及后续工作还观察到“outlier features/维度”等极端激活现象，会对量化与训练稳定性带来显著影响，并提示少量维度可能承担非均匀的缩放/偏置作用。citeturn10search7turn10search24turn10search3

综上，本章立刻服务全文 scientific claim 的落点是：既然 Transformer 内部在模块、头、维度乃至少量 outlier 子结构上存在系统性异质性，那么下游适配未必应默认“均匀更新或均匀调制”是最合理的设计；相反，更自然的问题是——如何用可操作的结构描述符刻画这种异质性，并据此构建结构感知的表征适配机制。citeturn8search2turn8search1turn10search7

参数高效微调方法

参数高效微调（PEFT）旨在在冻结大部分预训练权重的前提下，仅训练少量新增或重参数化参数来完成任务适配，从而降低存储与训练成本、提升多任务/多场景的部署可行性。近期综述通常将 PEFT 归纳为提示学习、适配器/附加模块、重参数化（如低秩）、以及选择式/稀疏更新等主要路线。citeturn5search19turn5search1turn5search12

（对应 2.2.1）低秩适配方法
LoRA 将权重更新 (\Delta W) 约束在低秩分解空间（如 (\Delta W = BA)），仅训练低秩矩阵而冻结原始权重，以极小的可训练参数量获得接近全参微调的效果，并且在推理时可融合回原权重以避免额外延迟。citeturn2search0 围绕 LoRA 的扩展主要集中在三个方向：
其一，改进参数化与训练稳定性，例如 DoRA 通过对权重进行分解并在此基础上进行低秩更新，以改善性能与优化特性。citeturn2search1
其二，自适应分配低秩预算，例如 AdaLoRA 通过动态调整不同层/矩阵的秩分配来提升参数利用效率，体现“预算分配”已成为 LoRA 路线的重要议题。citeturn2search2 相关工作也直接关注“将低秩预算在不同层之间进行更合理分配”，以减少统一秩配置带来的浪费。citeturn16search26
其三，进一步降低训练显存并扩大可用规模，例如 QLoRA 通过 4-bit 量化底座并在其上训练 LoRA，使大模型在更低显存条件下可被高质量微调。citeturn16search0

与此同时，也出现了更“轻量”的重参数化方式，例如 VeRA 使用向量与随机矩阵构造更新，从而进一步压缩可训练参数。citeturn2search3
本节的关键落点是：低秩适配显著降低了微调成本，但其最常见用法仍是在“选定的一组层与投影矩阵上近似一致地插入/更新”，容易隐含“不同结构位置近似同等重要”的设定；后续要进一步提升多任务、位置结构与预算受限场景下的效果，往往需要更显式地利用结构异质性而不仅是低秩约束本身。citeturn2search0turn2search2turn16search26

（对应 2.2.2）附加式与提示类适配方法
Adapter 路线在 Transformer 层间插入小型瓶颈模块，仅训练新增模块参数即可完成迁移，早期研究已展示其在多任务迁移中接近全参微调的效果与显著的参数节省。citeturn3search16 在 LLM 指令对齐中，也出现将“提示/适配模块”注入更高层并配合门控或零初始化注意力的设计，以在保持底座知识的同时注入任务指令信号。citeturn16search2

提示学习（prompt/prefix/p-tuning）则将可训练参数更多放在“输入侧或层内提示向量”上：Prefix-tuning 通过学习连续“前缀向量”并让后续 token 可注意到这些虚拟 token，从而在冻结模型参数的前提下适配生成任务。citeturn3search33 Prompt Tuning 强调通过学习软提示在大模型规模下逼近全参微调效果。citeturn3search18 P-tuning v2 将深层提示（在多层注入软提示）作为关键设计，使提示类方法在更多 NLU 任务与规模下更接近微调效果。citeturn3search23

此外，“激活调制”式的 PEFT 也值得强调，例如 (IA)(^3) 通过训练少量向量对注意力与 FFN 内部激活进行抑制/放大，从而实现极低参数规模的多任务适配。citeturn16search5 这类方法在形式上已更接近“对表示流进行乘性调制”的思想，为后续从结构角色出发的调制式框架提供了可对接的研究线索。citeturn16search5turn5search19
本节的关键落点是：无论是插入式 Adapter、提示类方法还是激活调制类方法，尽管在参数效率上各有优势，但多数仍围绕“统一插入位置/统一提示空间/统一门控形式”展开，对内部结构差异往往缺少显式刻画与可解释的角色绑定。citeturn3search16turn3search33turn16search5

（对应 2.2.3）选择式与稀疏微调方法
选择式/稀疏微调关注“哪些参数值得更新”。BitFit 通过仅微调偏置项（bias terms）即可在部分数据规模条件下取得与全参微调竞争的效果，提示预训练模型中大量能力可被少量参数变化“暴露/激活”。citeturn4search4 Movement Pruning 则从“在微调过程中学习稀疏结构”出发，提出更适应迁移学习的剪枝准则。citeturn4search5

在 LLM 微调语境下，LISA 通过观察到 LoRA 在不同层呈现权重范数等性质的偏斜（skewness），提出对层进行重要性采样并在训练中随机冻结大量中间层的策略，在接近 LoRA 的资源开销下取得更优或可比效果。citeturn4search2 另如 SHiRA 以“高度稀疏但高秩”的思想直接微调少量底座权重并强调快速切换与多适配器融合的工程收益，体现稀疏化与结构化更新在多适配器场景的价值。citeturn4search3
本节的关键落点是：选择式/稀疏方法已经触达“结构位置重要性不均匀”的核心问题，但多数工作仍以经验性指标或单任务目标驱动，尚缺少对结构角色、跨任务共享关系与统一预算约束下的系统刻画。citeturn4search2turn4search3

（对应 2.2.4）现有方法的均匀适配假设与局限
从方法形态看，主流 PEFT 往往在“参数化位置选择”上呈现某种均匀性：
（1）低秩方法常在预先指定的若干投影矩阵（如 Q/K/V/O 或 FFN 投影）上、跨层重复插入相同形式的低秩更新；（2）Adapter/Prefix/Prompt 常在固定的层或输入侧位置注入附加参数；（3）选择式方法虽强调稀疏，但在“结构角色描述符—优化目标—预算分配”的三者耦合上仍不充分。citeturn2search0turn3search33turn4search2turn5search1 近期工作（如 AdaLoRA、ALoRA、LISA）之所以有效，某种程度上正是因为它们开始将“预算/重要性”在层或矩阵间做非均匀分配或非均匀冻结，间接印证了均匀假设的局限。citeturn2search2turn16search26turn4search2

下表以“更新空间/插入位置/是否显式建模结构差异”为轴，对 PEFT 主流路线做面向后续章节的收束式归纳。

方法谱系（示例）	典型机制与更新对象	常见结构假设倾向	与后续章节的衔接点
低秩重参数化（LoRA/DoRA/AdaLoRA/ALoRA）	以低秩或变体形式参数化 (\Delta W)，在指定投影矩阵上训练	易在层/模块间采用一致插入与共享超参；改进方向转向“预算分配”	为“模块/维度/参数子空间”差异化更新提供基线与对照
附加模块（Adapter/LLaMA-Adapter）	在层间插入瓶颈模块或轻量注意力/门控	插入位置与模块大小常固定；结构角色绑定较弱	为模块级功能差异与动态路由提供接口灵感
提示学习（Prefix/Prompt/P-tuning v2）	学习输入侧或层内软提示向量	统一提示空间假设强；较少直接刻画内部结构异质性	与“表示流调制/位置结构调制”可对接，但需结构描述符
激活调制（(IA)(^3) 等）	以向量缩放方式调制注意力/FFN 关键激活	通常仍按层/位置统一注入缩放向量	与“乘性调制算子”天然相近，适合结构感知扩展
选择式/稀疏（BitFit/LISA/SHiRA/剪枝）	仅更新偏置/部分层/少量权重或学习稀疏结构	重要性准则多为经验或局部；跨任务共享与预算耦合不足	直接引出“容量分配”与“共享-特有”结构学习问题

表中方法与综述依据来自 PEFT 综述与代表性原始论文。citeturn5search1turn5search19turn2search0turn4search2turn16search5

本小节的关键落点是三点局限的自然引出：
其一，现有方法对 模块功能差异 的显式建模不足；其二，对 RoPE 等位置结构导致的维度级异质性 利用不足；其三，对 多尺度参数结构与容量分配 的统一刻画不足——这三点将分别在后续“多任务与模块级适配”“维度级位置结构适配”“参数空间多尺度/容量分配适配”中展开。citeturn4search2turn18view2turn5search1

多任务学习与模块级功能适配

多任务学习（MTL）旨在在共享表示的框架下同时优化多个任务，以提升样本效率与泛化，但面临“共享带来迁移、差异导致冲突”的经典张力。深度多任务学习综述通常将方法分为架构共享、优化方法、任务关系学习等类别，其中优化层面的梯度冲突是多任务训练不稳定与负迁移的重要原因。citeturn6search3turn6search7

（对应 2.3.1）多任务学习与梯度冲突问题
当不同任务梯度方向不一致甚至相互抵消时，共享参数的统一更新会导致个别任务性能下降或收敛变慢。PCGrad 通过“梯度手术”（project conflicting gradients）在检测到梯度冲突时将梯度投影到对方梯度的法平面，以缓解负迁移。citeturn6search0 CAGrad 则从多目标优化视角引入“冲突规避”的更新策略，在保证收敛性的同时兼顾各任务改进。citeturn6search1 GradNorm 通过动态调节各任务损失权重以平衡梯度幅度与训练速度，属于“优化过程中的自适应任务平衡”。citeturn6search2
本节的关键落点是：多任务场景下“均匀适配”更易放大冲突，因为不同任务可能期望调用不同子能力与不同内部结构；因此需要能在结构层面实现更细粒度的共享与分化机制。citeturn6search0turn6search1

（对应 2.3.2）混合专家模型与动态路由机制
MoE（Mixture-of-Experts）以条件计算（conditional computation）实现“参数规模大、单样本计算成本可控”的扩展路径：通过门控网络为每个样本选择少量专家子网络参与计算，从而实现输入依赖的知识调用。citeturn7search0 Switch Transformer 在简化路由并改进训练稳定性方面推动了大规模稀疏模型的实践化，凸显“动态路由 + 负载均衡”在大模型训练中的关键性。citeturn7search1 更近期的 DeepSeekMoE 进一步强调专家细粒度分段与共享专家/路由专家的协同，以促进专家专门化并减少冗余，体现“共享—专用”结构设计的重要性。citeturn7search2 相关综述也将路由机制、专家结构、训练策略与系统实现作为 MoE 的核心设计维度。citeturn7search3turn7search11
本节的关键落点是：动态路由为“输入依赖的能力选择”提供了强范式，但现有 MoE 更多从“专家网络”角度组织结构，而不是从 Transformer 内部模块功能角色出发定义“应路由/应调制的结构单元”。citeturn7search0turn7search2

（对应 2.3.3）多任务参数高效适配方法
在 PEFT 语境下，多任务方法常将“多个适配器/多个 LoRA”作为可组合模块，通过路由或共享策略减轻任务冲突并复用共享知识。例如 LoRAMoE 将多个 LoRA 作为专家并通过路由网络组合，旨在同时提升下游能力并缓解遗忘。citeturn17search7 MTLoRA 引入任务无关（task-agnostic）与任务特定（task-specific）的低秩模块，以在共享与专用之间做结构化分解。citeturn17search1 MoRE 等工作进一步将多任务 PEFT 表述为“低秩专家混合”，通过自适应选择合适的低秩专家提高多任务适配效率。citeturn17search6 也有研究尝试建立单 LoRA 与多 LoRA MoE 之间的联系，将“多 LoRA 路由”等价为某种秩/块级激活结构，以统一理解多适配器的组合机制。citeturn17search0
本节的关键落点是：现有多任务 PEFT 已引入共享/专用与动态路由思想，但大多仍停留在“任务粒度或专家粒度”的结构设计；如何将这种路由/共享与 Transformer 内部“注意力—FFN—层级”的功能角色差异结合，仍是值得系统化推进的方向。citeturn17search7turn8search1turn8search2

结构异质性感知与多层级适配方法

本节以“结构异质性”为关键词，综述与后续章节直接相关的三条研究线：维度级位置结构与表示非均匀性、频谱/频域多尺度视角、以及参数容量分配与结构学习。在叙述上强调：这些方向的共同点在于都把“适配”从均匀参数更新问题，转译为“结构差异—结构选择—结构调制”的建模问题。citeturn5search19turn10search7turn18view2

（对应 2.4.1）位置编码结构与维度级表示异质性
RoPE 将位置通过对 Q/K 的二维子空间旋转注入注意力，且不同维度对子空间对应不同角频率，从而在机制层面引入“多尺度相对位置建模”的可能性。citeturn18view2 这一结构在长上下文扩展研究中也得到强调：例如有工作指出 RoPE 的 base/频率设置会影响可获得的上下文长度能力，提示频率结构本身与长度泛化相关。citeturn11search22 与此不同，ALiBi 通过注意力偏置编码距离并展现长度外推特性，体现“位置—注意力耦合”可以采用不同归纳偏置。citeturn11search0

在“异质性观察”层面，已有证据表明：表示几何往往各向异性，且这种各向异性可能贯穿多层并影响语义空间性质。citeturn9search0turn9search5 关于各向异性成因与是否“内禀于 Transformer”的讨论仍在推进：有工作从自注意力分布形态出发给出“各向异性可能系统性出现”的证据，也有工作主张其并非 Transformer 必然属性，提示该现象与具体实现/训练动力学有关。citeturn9search2turn9search6 除几何各向异性外，outlier features/维度等极端激活现象在 Transformer 训练与压缩中具有重要影响，并被系统化研究为激活/权重/注意力等不同类型的 outlier，并揭示其与注意力 softmax 等机制的关系。citeturn10search7turn10search3 这些工作共同指向：维度并非等价，少量维度/特征可能承担不成比例的缩放或偏置作用，从而使“位置结构与表示分布”的非均匀性成为可被利用的结构信号。citeturn10search24turn10search7

进一步地，在头级与输入条件化层面，注意力头可呈现稳定的结构化模式与语言关系对应。citeturn10search4 机制可解释性研究还显示某些可解释头（如 induction heads）与 in-context 学习能力增长相关，提示“输入依赖的结构调用”可能是能力形成的重要机制。citeturn10search6
本节的关键落点是：现有研究已经表明位置结构在维度级、头级乃至输入条件下均可能呈现非均匀分布，但这些异质性特征仍未成为 PEFT 的“默认建模对象”；因此，为静态粗粒度（维度/频段选择）与动态细粒度（输入条件化调制）两类方法奠定了明确问题背景。citeturn18view2turn10search4turn4search2

（对应 2.4.2）多尺度频谱分析与频域适配方法
频谱视角在深度学习中有长期脉络：谱偏置（spectral bias）与频率原则（F-Principle）指出神经网络在训练中往往更偏向先拟合低频/平滑成分，高频成分学习速度更慢，这为“从频域理解学习与泛化”提供了基础理论与经验依据。citeturn14search0turn14search1 将这一思想迁移到模型适配，可以形成两类互补的研究路径：
其一是用频谱分析解释或诊断 LLM 的性能瓶颈，例如从频域角度分析性能障碍并通过谱调制改善表现的工作。citeturn12search9turn14search7
其二是直接在频域参数化或选择可训练更新，把 (\Delta W) 的学习转化为对少量频域系数的学习或对频段/位置的选择。

在第二条路径中，FourierFT 将权重更新矩阵视为“空间域信号”，仅学习少量频域系数并通过逆变换恢复 (\Delta W)，以进一步压缩可训练参数。citeturn13search1 由于 DFT 的复数与计算开销问题，也有工作转向 DCT：例如 sDCTFT（selective DCT fine-tuning）利用 DCT 的能量压缩特性，通过选择性系数更新实现参数高效微调。citeturn12search2turn12search6 LoCA 则进一步提出“位置感知”的余弦域（iDCT）适配：不仅学习系数，还学习哪些频率位置/分量最有信息，并给出频域近似与低秩近似表达力差异的理论比较。citeturn12search3turn12search7

在多尺度结构方面，小波（wavelet）提供天然的多分辨率分解，对应“粗到细”的尺度组织。围绕这一点，WaveFT 在权重残差的小波域学习高度稀疏更新，强调在极低参数预算下仍可获得有效适配。citeturn13search0turn13search4 WaveletFT 则将离散小波变换引入 PEFT 的权重更新建模，形成与 FourierFT 相似但多尺度更明确的变换域路线。citeturn13search3turn13search10 除微调外，WaveletGPT 等工作也尝试在预训练阶段引入小波思想以利用数据的多尺度结构，说明频域/小波结构不仅可用于后训练，也可能影响底座表征的形成方式。citeturn12search5turn12search28

本节的关键落点是：频域 PEFT 已初步证明“谱分解 + 稀疏系数学习/选择”能够提高参数效率，但多数方法仍采用相对单一的频域结构假设（固定频段、独立系数、缺少跨频段依赖建模），并且往往未显式刻画“粗到细”的级联更新组织；因此，多尺度异构更新与跨尺度依赖的联合建模成为自然的下一步问题。citeturn13search1turn12search3turn13search0

（对应 2.4.3）参数容量分配与结构学习
“容量分配”问题可被视为结构学习（structure learning）在大模型适配中的一个具体化形态：在固定预算下，如何在参数空间中选择/分配可更新容量，以实现最优的任务适配与多任务共享。

从更一般的结构学习脉络看，NAS 通过自动搜索结构以替代人工设计，代表了“结构可学习”的经典路线。citeturn15search0 模型压缩研究则长期关注剪枝、量化、编码等对结构与容量的重塑，例如 Deep Compression 以“剪枝—量化—编码” pipeline 证明了在保持精度的同时可以大幅减少有效参数与存储。citeturn15search1 Lottery Ticket Hypothesis 则提出“稀疏可训练子网络”可能在随机初始化的密集网络中天然存在，说明有效容量可能集中在某些子结构上。citeturn15search2 在 Transformer 迁移学习场景，movement pruning 等工作表明相较静态幅度剪枝，更“适配微调动力学”的稀疏学习准则能带来更好迁移表现。citeturn4search5

回到 PEFT，本质上它也是一种“预算约束下的结构化容量分配”。AdaLoRA、ALoRA 等通过在层/矩阵间非均匀分配 low-rank 预算，直接将“容量分配”显式化。citeturn2search2turn16search26 LISA 通过层重要性采样与大量层冻结，在不增加 LoRA 额外模块的前提下实现“跨层容量重分布”，也可被视为一种 budget-aware 的结构学习策略。citeturn4search2

在多任务共享方面，任务向量（task vectors）与任务算术（task arithmetic）提出在权重空间用“微调差分向量”表征任务能力，并通过向量加减实现能力组合与编辑，为“共享—特有”的参数分解提供了另一类视角。citeturn15search5 针对 PEFT 层，亦有工作将语言/任务算术与参数高效层结合，用以实现零样本能力组合与跨任务迁移。citeturn15search13 在分布式或多主体场景，也出现“统一任务向量 + 轻量调制器（mask/scale）”的框架以在共享底座上实现多任务/多客户端能力组织，体现容量共享与差异化调制的可行路径。citeturn15search37

本节的关键落点是：尽管已有研究开始关注参数选择、预算分配与结构学习，但在多任务条件下，如何在统一预算约束下实现“共享—任务特有”容量的联合分配、并将其与结构角色（模块/维度/频段）描述符耦合起来，仍缺少系统化框架；这恰好为后续在参数空间提出“多尺度更新组织”与“共享-特有容量分配”的方法设计提供了综述支点。citeturn16search26turn4search2turn15search13

本章小结

本章从架构与表示机制出发，综述了 Transformer/decoder-only 的核心计算结构、RoPE 等位置建模机制与比较路线、预训练—后训练范式下 LLM 的能力形成与适配需求，并进一步汇总了“模型内部并非均匀黑箱”的关键证据：层级功能分化、注意力头差异、FFN 的记忆化角色、表示几何各向异性与 outlier 现象等。citeturn18view3turn18view2turn8search1turn10search7

在方法谱系上，本章系统回顾了低秩重参数化、附加式/提示式方法、选择式/稀疏微调，并指出它们在实践中普遍或隐含地采用某种“均匀适配假设”，而近期更有效的改进方向正在转向非均匀预算分配、层/结构选择以及跨任务共享机制。citeturn2search2turn16search26turn4search2turn5search1

最后，本章按后续章节映射梳理了三条直接铺垫路径：多任务学习与动态路由为“模块级功能适配”提供背景；RoPE 频率结构与表示异质性研究为“维度级位置结构适配”提供机制起点；频域/小波域 PEFT 与结构学习文献为“参数空间的多尺度更新与容量分配”提供方法基础。由此，下一章将从模块级结构异质性切入，进入面向多任务场景的结构感知适配方法设计。citeturn7search0turn18view2turn13search1turn15search2

31 KiB Raw Permalink Blame History Unescape Escape