Files
Graduate/deepresearch/gpt_result.md
2026-03-20 22:40:13 +08:00

219 lines
58 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# **第二章 大语言模型表征适配的相关理论与研究进展**
本章旨在为大语言模型Large Language Models, LLMs的结构感知表征适配研究奠定坚实的理论与文献基础。首先本章将系统梳理大语言模型的架构基础与内部表示机制揭示 Transformer 架构内部普遍存在的功能分化与结构异质性,从而为“放弃均匀适配假设、转向结构感知调制”提供统一的理论与对象依据。其次,本章将对现有参数高效微调方法、多任务适配技术以及前沿的结构感知建模研究进行多维度的谱系梳理与深度剖析。通过对模块级、维度级以及参数级等不同粒度下的研究进展进行综述,本章旨在明确当前均匀适配策略的核心局限与瓶颈,进而在各节末尾自然引出本文后续章节在表示空间与参数空间中所展开的多层级结构感知适配方法设计。
## **2.1 大语言模型架构基础与表示机制**
### **2.1.1 Transformer 架构与核心计算流程**
当前主流的大语言模型无一例外地建立在 Transformer 架构之上1。从计算流程的角度来看Transformer 的表示形成过程是一个信息在多层级、多子模块之间进行复杂路由与非线性映射的级联过程。以最为普遍的仅解码器Decoder-only架构为例其核心由堆叠的 Transformer 块Block构成每个块内部主要包含两个核心计算组件掩码多头自注意力机制Masked Multi-Head Self-Attention, MHA和前馈神经网络Feed-Forward Neural Network, FFN1。
自注意力机制负责在序列维度上捕捉上下文依赖关系。对于给定的输入表示矩阵 $\\mathbf{X} \\in \\mathbb{R}^{L \\times d}$(其中 $L$ 为序列长度,$d$ 为隐藏层维度MHA 通过多组并行的线性投影将其映射为查询Query, $\\mathbf{Q}$、键Key, $\\mathbf{K}$和值Value, $\\mathbf{V}$)张量。在其核心计算中,注意力分数矩阵由 $\\mathbf{Q}$ 与 $\\mathbf{K}$ 的点积求得,并经过缩放与 Softmax 归一化后,作用于 $\\mathbf{V}$从而实现特征在不同词元Token间的全局聚合与信息路由1。此外为了保证自回归生成的因果性Decoder-only 模型引入了下三角因果掩码Causal Mask矩阵强制阻断当前词元对未来词元的注意力流动使得每个词元仅能观测到其前驱上下文1。
与自注意力机制跨词元的全局信息路由功能不同前馈神经网络FFN在 Transformer 中扮演着逐词元Token-wise独立非线性映射的角色1。FFN 通常由两层线性变换及其中间的非线性激活函数(如 ReLU、GELU 或 SwiGLU构成。尽管 FFN 对序列中的每个词元独立且相同地作用但其参数量通常占据了整个模型规模的三分之二。现有理论与实证研究认为FFN 本质上通过将低维注意力表示投影到极高维的隐层空间实现了对复杂特征模式的重组、记忆提取与非线性转换从而极大增强了模型拟合高维数据分布的能力2。
在 MHA 与 FFN 之外残差连接Residual Connections与层归一化Layer Normalization构成了信息在深层网络中稳定传播的基础骨架1。残差连接不仅有效缓解了深层网络训练中的梯度消失与梯度爆炸问题更重要的是它将 Transformer 的前向计算转化为一种表示状态的“迭代细化”Iterative Refinement过程——即每一层的 MHA 和 FFN 都可以被视为对中心残差流Residual Stream中隐藏状态的加性更新Additive Update4。层归一化则负责在每次加性更新前后对特征分布进行重整确保表示空间的几何稳定性。
Transformer 的表示形成过程由多个功能组件协同完成,而非单一均匀结构,这为后续从模块、维度与参数空间分析适配问题提供了结构基础。
### **2.1.2 旋转位置编码与位置信息建模**
在缺乏显式递归或卷积序列建模机制的 Transformer 架构中位置编码Position Encoding是注入词元相对与绝对位置信息的唯一手段。近年来旋转位置编码Rotary Position Embedding, RoPE凭借其优异的相对位置建模能力、理论上的优雅性与工程上的外推特性成为了 LLaMA、Qwen、Mistral 等绝大多数开源大语言模型的标配机制6。
RoPE 的数学原理建立在复数域的几何旋转群与李代数Lie Algebra理论之上。其核心思想是通过对高维空间中的特征向量施加与位置索引强相关的绝对正交旋转操作使得任意两个位置上的向量之间的内积即注意力分数的核心项自然地、仅依赖于它们的相对位置距离7。具体而言对于位置索引为 $t$ 的隐藏特征查询向量 $\\mathbf{q}\_t$ 或键向量 $\\mathbf{k}\_t$RoPE 将其特征维度划分为 $d/2$ 个二维子空间(即维度对),并对第 $i$ 个二维子空间独立应用旋转矩阵 $\\mathbf{R}\_{\\theta, t}$
$$\\begin{pmatrix} q\_{t, 2i} \\\\ q\_{t, 2i+1} \\end{pmatrix} \\leftarrow \\begin{pmatrix} \\cos(t\\theta\_i) & \-\\sin(t\\theta\_i) \\\\ \\sin(t\\theta\_i) & \\cos(t\\theta\_i) \\end{pmatrix} \\begin{pmatrix} q\_{t, 2i} \\\\ q\_{t, 2i+1} \\end{pmatrix}$$
其中,旋转频率 $\\theta\_i \= B^{-2i/d}$ 为预设的频率基数Base Frequency通常在基础模型中设定为 $B=10000$,在支持长文本的模型中可扩展至 $500000$ 乃至更大9。
这一机制最显著的特性在于其呈现出一种**频率分解结构Frequency Decomposition Structure**。随着特征维度索引 $i$ 的增加,旋转频率 $\\theta\_i$ 呈现出严格的几何级数衰减9。与 ALiBiAttention with Linear Biases这种直接在注意力分数矩阵上施加显式线性距离惩罚的机制不同RoPE 将位置信息深度耦合于表示维度内部。与早期的绝对可学习位置嵌入Learnable Position Embeddings相比RoPE 既保持了参数的无状态性Parameter-free又赋予了不同维度截然不同的位置表达属性11。由于引入了频域变换特性它使得大语言模型在处理任意距离的上下文关联时具备了极其丰富且异构的位置解析视角。
RoPE 的频率分解特性意味着位置信息在不同维度对上的编码方式天然不均匀,这为后续研究维度级位置结构异质性提供了理论起点。
### **2.1.3 预训练范式与大语言模型的表示能力**
大语言模型之所以能够在自然语言处理、代码生成、逻辑推理乃至跨模态任务等广泛领域展现出颠覆性的通用能力根本上得益于基于海量无标注数据的“预训练—微调”Pre-training and Fine-tuning范式1。通过在包含数万亿甚至数十万亿词元Tokens的庞大语料库上进行极大规模的自回归下一个词预测Next-token Prediction训练GPT系列、LLaMA 系列、Qwen 系列等代表性模型内部构建了对物理世界运行规则、人类语言复杂语法以及各垂直领域通用知识的深层参数化记忆8。
在漫长且算力极其密集的预训练阶段模型通过庞大的参数空间探索到了一个高度丰富且通用的流形表示Manifold Representation空间。相关实证研究表明预训练模型在其各层的中间表示中不仅捕获了浅层的词法与句法树结构还蕴含了深层的语义共现网络、常识推理事理甚至是高阶的逻辑因果链条15。这种强大的“世界模型”底座赋予了大语言模型在零样本Zero-shot和少样本Few-shot学习场景下的惊人泛化能力。
然而尽管大语言模型的通用表示能力极其强大这种“全知全能”的基座能力在面对特定下游任务如医疗诊断问答、严谨的数学推导或特定风格的对话指令往往面临着严重的分布偏移Distribution Shift与任务意图对齐Alignment瓶颈13。为了使模型适配特定应用场景的约束流形必须进行后续的微调干预。由于当前前沿大模型参数规模动辄达到百亿、千亿级别在具体下游任务中对所有参数进行全量微调Full Fine-Tuning, FFT不仅面临着极高的计算集群算力壁垒与显存开销限制更致命的是全量参数的高自由度更新极易破坏预训练阶段积累的通用知识结构导致严重的“灾难性遗忘”Catastrophic Forgetting与表征退化18。因此如何以极低的参数预算将庞大的预训练通用知识高效“唤醒”并“适配”Adapt到特定的条件分布下而非推翻重训成为了当前 AI 领域的核心议题。
预训练模型提供了强大的通用表示基础,但这些能力能否在具体任务中被有效调用,仍取决于合理的适配机制设计。
### **2.1.4 模型内部的功能分化与结构异质性**
在早期模型微调与优化的传统思维中,深度神经网络往往被粗略地视为一个层级同质、参数均匀的巨型黑箱。然而,近年来大量关于 Transformer 可解释性分析、网络解剖Network Dissection与逆向工程Reverse Engineering的前沿证据深刻表明大语言模型内部普遍存在着极其显著且多层级的功能分化与结构异质性Structural Heterogeneity9。
首先,**在模块级别**注意力机制MHA与前馈神经网络FFN存在明确且不可相互替代的职能边界。多项前沿研究证实5MHA 本质上是一个动态的“上下文路由器”它不直接存储显性的世界知识而是负责根据当前词元的语义查询在序列的历史节点中寻找最相关的信息并完成表示流的跨时间步转移相反FFN 则是 Transformer 内部庞大的“键值记忆库Key-Value Memories”14。Geva 等人的开创性工作解构了 FFN 的两层线性映射指出其第一层权重Keys作为模式匹配器负责识别输入残差流中的局部概念模式而第二层权重Values则作为知识分发器负责提取并向残差流中注入与该模式强相关的词汇概率或特征概念14。此外Bogoychev 等人的参数冻结与消融实验Ablation Study也证实在机器翻译等不同任务中冻结特定的网络结构单元如嵌入层、注意力层或 FFN 层会对模型最终性能造成完全不同程度的断崖式影响这从侧面有力证明了“并非所有参数生而平等Not all parameters are born equal”的结构假设19。不仅模块间存在差异在网络深度层面上Layer-wise浅层网络更倾向于处理基础词法和局部句法而深层网络则主导了复杂的语义组合与抽象推理9。
其次,**在维度级别**大语言模型表示空间中存在强烈的各向异性Anisotropy与极端激活Outliers现象15。高维隐层空间中的信息能量并非呈现完美的各向同性高斯分布而是高度集中于极少数表征幅度极大、方差极高的“离群维度”上15。这些离群维度不仅构成了表示向量在主成分空间中的聚类骨架同时对特定句法结构或控制指令极为敏感。此外即使在同一模块内部多头注意力Multi-Head Attention的各个 Head 也展现出显著的功能特化,部分 Head 专注于局部位置的注意力集中,而另一些则承担着捕获长距离共现的职责。
最后,由于网络参数更新的内蕴机制,**在参数子空间**层面大模型的权重组织呈现出多尺度的频域响应特征以及对应不同任务的异构容量分配需求整体网络绝非一个均匀更新的系统29。
上述研究表明,大语言模型内部普遍存在多层级的功能分化与结构异质性,因此下游适配未必应采取统一而均匀的更新方式,而应考虑结构角色差异。
## ---
**2.2 参数高效微调方法**
为了应对全量微调在资源开销上的不可行性同时避免表征灾难性遗忘参数高效微调Parameter-Efficient Fine-Tuning, PEFT方法作为一种替代范式获得了长足的发展。本节将系统梳理现有 PEFT 技术的发展脉络,归纳其主要技术分支,并重点剖析这些方法在面对模型结构异质性时所暴露的核心瓶颈。
### **2.2.1 低秩适配方法**
低秩适配Low-Rank Adaptation, LoRA及其衍生变体是当前大语言模型适配领域中应用最为广泛、生态最为成熟的技术范式3。LoRA 的提出建立在一个核心假设之上尽管预训练模型的整体参数矩阵极其庞大但模型在适应特定下游任务时其所需权重的实际更新量往往位于一个极低的“内在维度Intrinsic Dimension”流形之上3。基于这一洞察LoRA 在微调过程中完全冻结了原始的预训练权重矩阵 $\\mathbf{W}\_0 \\in \\mathbb{R}^{d\_{in} \\times d\_{out}}$并通过旁接Bypass两个小型的低秩矩阵 $\\mathbf{A} \\in \\mathbb{R}^{d\_{in} \\times r}$ 和 $\\mathbf{B} \\in \\mathbb{R}^{r \\times d\_{out}}$(其中秩大小 $r \\ll \\min(d\_{in}, d\_{out})$)的乘积,来参数化表示权重的增量 $\\Delta \\mathbf{W} \= \\mathbf{B}\\mathbf{A}$3。在推理阶段这种低秩增量可以直接被重新参数化合并回原矩阵中不引入任何额外的推理延迟。
沿着低秩结构重参数化的思路学术界提出了一系列增强方案。例如AdaLoRA 认识到不同层级的权重对于任务的敏感度存在差异因此引入了基于奇异值分解SVD的方法在训练过程中动态评估并分配各权重矩阵的奇异值重要性允许模型自动为重要的层级分配更高的秩从而在总参数预算固定的情况下实现了比传统固定秩 LoRA 更优的性能表现3。DoRAWeight-Decomposed Low-Rank Adaptation则从特征几何视角出发将庞大的预训练权重分解为幅度Magnitude和方向Direction两个独立的分量并仅对方向向量应用低秩更新使得模型能够更加细腻地解耦优化空间提升了低秩调整的表达能力3。此外VeRA 进一步固定了使用相同随机种子初始化的低秩投影矩阵仅通过极少量的可学习缩放向量来进行训练调制将微调参数量压缩至极致3。
低秩适配通过约束更新空间显著降低了微调成本,但其参数化方式大多仍默认不同结构位置具有近似一致的适配地位。
### **2.2.2 附加式与提示类适配方法**
除了在原有权重旁边并行进行低秩近似外引入全新网络结构参数的附加式模块Adapter与聚焦于输入表征空间的提示类微调Prompt/Prefix Tuning构成了 PEFT 领域的另一条重要技术谱系9。
Adapter 系列方法是参数高效微调的早期探索形式之一。其典型结构通过在每一层 Transformer 的原有组件(通常在 FFN 模块之后,或 MHA 和 FFN 模块之后同时串联或并联小型的瓶颈型多层感知机Bottleneck MLP来实现33。这种附加的适配器首先通过一个降维投影将高维表示压缩到低维瓶颈层经过非线性激活后再通过升维投影还原回原始维度。在微调期间主干大模型保持冻结仅有这些轻量级的瓶颈映射层被更新。这种设计有效地阻断了误差梯度向预训练底座的传导保护了原始知识。
提示类微调Prompt-based Tuning则提供了一种完全不同的视角它不再修改 Transformer 块内的计算算子而是将注意力集中于输入表征的构建上。Prefix-Tuning 通过在每一层自注意力机制的键Key和值Value特征序列的最前端强制拼接一段预设长度的可学习连续向量Soft Prompts34。这些前缀向量在注意力计算时充当了“虚拟历史上下文”从而隐式且深层地调制了模型对后续自然序列的注意力特征分布。P-Tuning 及其变种方法则将可学习的连续提示词元直接插入到最底层的 Embedding 序列中,并通过额外的 MLP 映射网络保证提示向量在连续流形空间中的语义平滑性。
无论是附加式模块还是提示类方法,尽管在参数效率上各有优势,但多数方法仍主要围绕统一插入位置或统一提示空间展开,缺乏对模型内部结构差异的显式建模。
### **2.2.3 选择式与稀疏微调方法**
相较于向模型注入新参数的加法逻辑选择式与稀疏微调Selective and Sparse Tuning技术则遵循一种更纯粹的原则直接在原有的百亿级参数海洋中寻找并仅更新那些对下游任务最敏感的极少数原生参数子集32。这类方法开始触及了模型内部容量分配的本质。
BitFit 作为早期的极端选择式方法证明了在大模型中仅仅解除对各类偏置项Biases的冻结而不更新任何权重矩阵就能在诸多分类或推理任务上达到令人惊讶的竞争性能。随后LISALayer-wise Importance Sampled Adaptation等方法将选择粒度从偏置项提升至了网络层级。LISA 基于简单的随机策略或基于梯度的层级重要性评分,提出在不同的训练迭代中仅选择性地解除模型中某几层 Transformer 的冻结状态。这种动态的层级激活极大地降低了反向传播时的显存峰值开销。
更为细粒度的是稀疏微调方法Sparse Fine-tuning。这类方法通常借助模型剪枝Pruning领域的经验通过计算参数的一阶梯度大小或利用泰勒展开的二阶海森矩阵Hessian Matrix迹来精确衡量模型中每一个独立权重的微调敏感度。随后构建出极高稀疏度的掩码矩阵如仅保留 0.1% 或更少的核心参数确保优化器仅在这些特定的稀疏位置上进行高自由度的权重更新32。
选择式与稀疏微调方法已经开始触及“哪些参数值得更新”的问题,但多数方法仍缺乏对结构角色、跨任务共享关系与统一预算分配的系统刻画。
### **2.2.4 现有方法的均匀适配假设与局限**
对上述三大类主流参数高效微调方法进行横向对比与归纳,可以清晰地识别出当前 PEFT 技术生态的共性瓶颈。下表对现有方法在不同结构维度上的刻画能力进行了总结:
| 方法大类 | 代表性技术 | 适配切入空间 | 均匀适配特征表现 |
| :---- | :---- | :---- | :---- |
| **低秩适配** | LoRA, DoRA, AdaLoRA | 参数空间(低秩流形) | 统一作用于注意力/FFN投影层缺乏内部频域与空间功能解耦 |
| **附加与提示** | Adapter, Prefix-Tuning | 表示空间(向量增量) | 等长统一分配连续提示或统一插入瓶颈模块,无视层级与维度异质性 |
| **选择与稀疏** | BitFit, Sparse Tuning | 参数空间(稀疏掩码) | 依赖局部标量启发式规则(如幅值),缺乏结构角色与多任务共享机制 |
如表所示,尽管这些方法在大幅削减计算与显存开销方面取得了巨大成功,但它们普遍隐含了一个强烈的**均匀适配假设Uniform Adaptation Assumption**9。无论是将低秩矩阵无差别地挂载到所有子模块的线性层上还是为所有层分配等长的前缀向量抑或是基于全局绝对阈值进行稀疏屏蔽现有框架大都将大语言模型简化为一个层级平齐、模块功能同质的系统9。
这种缺乏“结构感知Structure-Aware”的均匀设计直接导致了三类根本性局限 首先,**对模块功能差异关注不足**。如前文 2.1.4 节所述MHA 和 FFN 在知识调用与上下文逻辑路由中扮演着截然不同、不可混淆的角色9。均匀地在二者上分配适配预算或采用相同的低秩假设不可避免地导致冗余参数堆积于任务无关紧要的模块而真正需要表达复杂下游知识的局部瓶颈区域却面临容量匮乏9。 其次,**对位置结构与维度异质性利用不足**。现有的提示注入或权重低秩更新主要作用于表示变换的全局通道维度,完全忽视了由于 RoPE 等频率结构引入的维度级别极端异质性9。在处理长上下文或高度依赖序列位置关系的任务时这种对特定频带不敏感的盲目适配会破坏关键的相对位置编码机制引入严重的表征噪声9。 最后,**对多尺度参数结构与容量分配建模不足**。面对日益复杂的异构任务集合,现有的 PEFT 工具缺乏在全局频谱空间和多任务优化约束下的系统建模。它们无法从深层结构的层面去区分哪些参数成分应当被提炼为跨任务的共享共性知识哪些又必须被隔离以作为任务特化的能力储备40。
因此,现有参数高效微调方法的核心瓶颈之一,在于其普遍建立在相对均匀的适配假设之上,而未能充分利用模型内部在模块、维度和参数空间层面的结构异质性。这直接呼唤一种突破均匀假设、转向统一结构调制的全新适配范式。
## ---
**2.3 多任务学习与模块级功能适配**
随着大语言模型在现实世界部署场景的日益复杂模型不再仅仅满足于在单一孤立任务上进行适配而是往往需要同时面对包含代码生成、数学推理、开放域对话与垂直指令遵循在内的庞大异构下游任务簇42。在此类多任务Multi-Task环境下“均匀适配”所带来的结构瓶颈将被成倍放大。本节重点回顾多任务微调中的底层冲突机理及现有的专家化与模块化解决思路为后续第三章的模块级功能适配方法HyCAM提供直接的文献脉络支撑。
### **2.3.1 多任务学习与梯度冲突问题**
多任务学习Multi-Task Learning, MTL的核心哲学在于通过强迫模型在统一的参数共享空间内联合优化多个目标利用不同任务数据间潜在的潜在交叉信息与底层共性规律从而大幅提升模型的宏观泛化能力与数据样本的利用效率30。在理想的收敛状态下具有强语义关联的任务间能够发生“正迁移Positive Transfer彼此互为辅助监督信号。但在实际的复杂多任务预训练或微调中由于各任务在数据分布特性、损失函数拓扑以及最佳解流形空间上存在着根本性差异模型极易陷入灾难性的“负迁移Negative Transfer”困境。此时部分任务的性能相较于单任务独立训练发生严重倒退并且经常出现诸如提升任务 A 必然导致任务 B 性能下滑的跷跷板Seesaw现象30。
引发多任务优化灾难的核心机制被广泛归结为\*\*梯度冲突Gradient Conflict\*\*难题30。由于多个差异化任务的计算图共享着同一套 Transformer 底层物理参数体系,在进行反向传播更新时,任务 A 的损失函数可能强烈倾向于驱动某块权重参数向着高维空间中的区域 $\\theta\_A$ 更新;而与此同时,任务 B 为了最小化其特定分布的误差,可能产生一个方向几乎完全相反或高度发散的梯度向量,直指区域 $\\theta\_B$。若优化器仅仅机械地对所有任务的损失或梯度进行标量求和或求平均整体的参数更新方向将会被梯度绝对幅度最大往往是噪声最大或未收敛的劣势任务所强行主导或者在方向互相抵消下使得更新步长接近于零导致模型停滞在对所有任务均极为糟糕的次优鞍点30。
为了在理论上解构并缓解这一冲突文献中涌现了一系列梯度干预或梯度外科手术Gradient Surgery方法。以具有里程碑意义的 PCGradProjecting Conflicting Gradients为例该方法在每次更新步前会计算各任务梯度向量在高维空间中的夹角即余弦相似度。一旦监测到某两个任务的梯度向量夹角大于 90 度即存在负相关与破坏性冲突PCGrad 会强制将其中一个发生冲突的梯度正交投影到另一个梯度向量的法平面上通过剥离掉相互冲突的分量来消除破坏性干扰同时保留下有助于共同优化的协同分量30。沿着这一方向CAGradConflict-Averse Gradient Descent等进一步深入将多任务冲突化解转化为一个带约束的极小极大优化问题通过引入最坏情况下的局部性能提升作为优化目标在邻域搜索空间内寻找能够使得所有任务平均损失严格下降的最佳更新方向30。
多任务学习表明,任务间既存在共享规律,也存在显著差异,单纯依赖统一优化往往难以兼顾知识共享与任务特化。这要求大语言模型内部不仅需要优化的算法干预,更迫切需要在模型架构内部提供专门用于承载共享与独立知识的结构。
### **2.3.2 混合专家模型与动态路由机制**
为了从架构演进的根本层面缓解多任务特征融合与干扰冲突混合专家模型Mixture of Experts, MoE与条件动态路由机制Dynamic Routing成为了近年来大模型突破规模墙与多任务瓶颈的核心解法41。不同于传统标准的 Transformer 架构采用单一的、巨大的稠密前馈网络Dense FFN去平等地处理进入的所有序列词元MoE 架构深刻贯彻了分而治之的模块化思想。它将极其庞大的 FFN 参数空间物理拆解并隔离为多个并行的、容量相对较小的独立“专家Experts”子网络。在当前诸如 Switch Transformer 或是 DeepSeek-MoE 的前沿架构中专家数量往往从数十个扩展到上百个不等41。
支撑 MoE 架构高效运转的精髓在于其高度依赖输入语义特征的动态门控网络Gating Mechanism或路由网络Router。对于每一个流经网络的数据词元路由网络会通过一个轻量级的线性分类器计算出该词元与各专家的亲和度概率分布。随后通过 Top-$k$ 选择策略(在实际部署中通常 $k$ 仅设为 $1$ 或 $2$模型将计算图的激活路径硬性约束在那几个具有最高响应概率的专家之上。这种稀疏激活Sparse Activation机制使得大语言模型在成倍扩大系统整体参数容量、捕获海量异构数据模式的同时依然能够维持单个词元前向推理计算量的相对恒定。同时不同专家网络在物理参数上的严格隔离特性天然赋予了模型强大的抗干扰壁垒显著降低了处理不同分布、不同领域任务数据时的特征重叠与污染41。
动态路由机制为输入依赖的知识调用提供了有效思路,但现有研究更多关注专家选择本身,而较少将其与模型内部模块功能差异显式关联起来。
### **2.3.3 多任务参数高效适配方法**
将多任务学习的需求、混合专家模型的隔离思想与参数高效微调PEFT技术三者有机结合催生了当前极具潜力的前沿子方向多任务参数高效适配Multi-Task PEFT42。这方面研究的核心目的是在极受限的参数预算下探索出能够实现多任务系统鲁棒泛化与解耦的微调架构。
该方向的典型代表作如 MoELoRA 和 LoRAMoE 等框架。它们摒弃了在模型中挂载单一巨型 LoRA 的粗放做法,转而将多个极其轻量级的 LoRA 模块并联设计为一个微型的“专家组”。这些 LoRA 专家组被嵌入到 Transformer 的注意力映射层或前馈网络层中,完全替代了原本的单一适配器。在微调前向传播时,框架通过额外引入的门控网络对输入特征进行动态评估,将计算权重自适应地分配给不同的 LoRA 专家最后再线性融合它们各自生成的低秩表征增量42。这种混合专家低秩适配的方法以微小的参数增加为代价极大地提升了 PEFT 在复杂多任务流形上的高维表达能力。
然而,随着对多任务冲突机理挖掘的深入,部分研究发现了单纯“堆叠并联 LoRA”的缺陷。例如MTLoRAMulti-Task LoRA等工作尖锐地指出如果继续沿用传统思路将 LoRA 独立且无关联地分别应用到注意力机制极细粒度的组件上(如独立作用于 $\\mathbf{W}\_q$、$\\mathbf{W}\_k$ 或 $\\mathbf{W}\_v$ 投影层这种做法反而会酿成灾难。由于缺少更高层级的表征协同细粒度组件各自生成的适配方向会在反向传播时互相背离从而严重放大了不同任务之间的内在梯度冲突46。基于这一深刻的观察MTLoRA 提倡应该放弃组件级的散乱更新转向使用更大感受野的块级Block-level适配结构即在整个 Transformer 块(或完整的 MHA / FFN 宏观级别上设计统一的适配模块。在块级视角下统一调节跨任务共享特征与任务特定特征的路由与融合不仅显著削减了模块间冲突还在同等性能下大幅缩减了近一半的可训练参数46。
现有多任务参数高效适配方法虽然引入了共享与专用结构以及动态路由思想,但其设计通常仍停留在任务粒度或专家粒度,尚未充分结合 Transformer 内部不同模块的功能角色差异进行系统建模。
## ---
**2.4 结构异质性感知与多层级适配方法**
前文的论述系统揭示了模型组件在多任务微调中所暴露出的结构与容量盲区。然而大语言模型的复杂性远不止于此。除了宏观模块级MHA 对比 FFN的功能分工外深层隐式表示在特征维度层面以及物理权重在多尺度频域层面同样展现出不容忽视的结构异质性。本节将深入梳理在更细粒度视角下的结构感知现象与多层级适配相关的最新技术进展从而为本文第四、五、六章将要提出的 RoSA、DyPAM、CASCADE 及 MESSA 等框架提供直接且严密的理论与方法论铺垫。
### **2.4.1 位置编码结构与维度级表示异质性**
在 2.1.2 节所引入的基于李代数旋转群的 RoPE 机制之上,近年来的深入实证分析与几何拓扑研究进一步揭示了由这一位置编码所直接诱导出的极其特殊的\*\*维度级表示异质性Dimension-level Representation Heterogeneity\*\*现象8。研究清晰地表明并非所有注意力维度都在均等地参与上下文计算。相反由于 RoPE 的复数旋转频率在各个维度对上呈严格的几何级数分布导致注意力机制的特征维度对序列距离的敏感度和注意力能量聚集度呈现出高度不均匀的“频带Frequency Band”结构8。
一方面系统中的低频高索引维度承担着跨越巨大跨度的长程语义获取重任。由于这些维度对应的旋转周期极长、角度变化缓慢它们在深层网络的自注意力计算中往往能够保留长序列的宏观语境信息。实证研究发现正是这些低频维度在网络深层表现出更加密集和绝对幅值极高的激活反应即大量产生了主导后续前向传播的极端激活现象或称为“Outliers”11。这些离群激活在维持大语言模型面对长文本时的整体逻辑和事实连贯性中起着不可替代的决定性作用。
另一方面系统中的高频低索引维度则由于剧烈的角度旋转极易陷入局部的近距离词元强交互中。虽然它们在捕捉短程语法结构时极为敏感但当面对数百乃至数万词元的长文本推断时这些高频维度往往会出现严重的位置信息衰减和周期“混叠Aliasing”现象反而干扰了长程依赖的判断9。有研究者通过强制干预实验发现如果在推理或生成阶段强行抹去或屏蔽Masking部分极高频维度特征将它们转化为非位置编码NoPE状态大语言模型的整体困惑度Perplexity几乎不受任何负面影响甚至在长序列外推上有所提升但一旦改动或破坏了主导宏观语境的关键低频维度则会直接引发模型性能的彻底崩溃8。
不仅如此这种维度级别能量的不均匀分布还会受到输入条件Input-dependent的强烈动态调制。同一特定频率的特征维度在面对不同类型指令Prompt、不同领域分布或者带有极强局部情感语义的输入段落时其在各层注意力头Attention Heads中的激活波峰、频率响应以及各向异性程度均会产生剧烈且不可预测的波动12。然而当前的微调手段大多仍然依赖于对全部维度特征进行简单的逐维缩放或均匀的矩阵乘法投影未能有效地提取或捕获这一底层静态的频带分布规律及上层动态的输入依赖特征。
现有研究已经表明,位置结构在维度级、头级乃至输入条件下均可能呈现非均匀分布,但这些异质性特征尚未被系统纳入参数高效适配机制之中。
### **2.4.2 多尺度频谱分析与频域适配方法**
从表示空间的维度异质性过渡到物理参数空间的结构分析多尺度频谱分析Multi-scale Spectrum Analysis正为大语言模型的权重更新机制提供一个突破传统欧氏几何的全新解析视角29。传统的神经网络微调方法无一例外地完全在空域Spatial Domain即权重的原始标量数值空间内进行高维优化。然而在函数逼近论的框架下大规模神经网络的参数矩阵实际上可以被视为由多种不同频率、不同波长的正交成分复合而成的复杂信号系统51。
深度学习优化理论中著名的“频谱偏置Spectral Bias”现象指出以梯度下降为核心的深度神经网络在训练和拟合数据流形时总是表现出一种本能的偏好优先学习并快速逼近目标函数中频率较低的部分这部分通常对应于样本中平滑的、全局的宏观拓扑结构、基础语义或主导分类面的大尺度特征随后在训练的后期才逐渐且极其缓慢地去适应目标函数中的高频部分这部分通常对应于剧烈变化的边界、局部特异性的细粒度特征或噪声偏置51。
受到这一物理特性的深刻启发,前沿研究人员开始尝试跨越空域的局限,将经典的数字信号处理与频率变换工具(如离散余弦变换 DCT、小波变换 Wavelet Transform 以及快速傅里叶变换 Fourier Transform创新性地引入到大模型的高效微调PEFT机制中29。在这一系列的频域适配方法中以 FourierFT 和 Selective DCTsDCTFT为代表的模型架构通过将巨大的参数或权重增量矩阵转换映射到频率域巧妙利用了频域信号天然的能量集中特性。它们通过设计特定的频域滤波器或掩码仅仅选择那些能量占比最大、对应模型宏观表征的最关键频段通常是绝对低频成分进行更新微调。由于舍弃了海量的高频冗余参数更新这种方法在极大压缩了可训练参数量和优化空间维度的前提下依然卓越地保持了模型在主干下游任务上的泛化能力29。
然而事物往往具有两面性。多尺度频谱不仅仅包含低频的宏观基础规律其高频细节同样对微小领域的极速适应、罕见事实知识的注入以及细粒度推理边界的微调起着不可替代的修饰作用。如果简单粗暴地采用单一频段的截断或平滑更新策略往往会导致模型不可避免地丢失那些对于特定任务至关重要的非平稳信号和突变信息52。
现有频域适配方法已经初步证明频谱视角对参数更新建模的有效性,但多数方法仍采用单一频域结构假设,缺乏对跨频段依赖关系和多尺度异构更新模式的联合建模。
### **2.4.3 参数容量分配与结构学习**
与频谱层面的多尺度异质性紧密并行并相互交织的是大规模预训练模型在面对多任务和复杂适配场景时所不可避免暴露出的参数容量分配不均及结构冗余问题40。传统的微调方法无论是全量微调还是简单的 LoRA 注入都高度依赖于人类专家预先设定且全局固定的容量结构配置。然而在面对实际部署中计算资源、显存或存储空间受到严苛约束的边界条件Budgeted Adaptation这种僵化、硬编码的参数配额往往导致极其宝贵的计算资源流向了冗余模块造成了深度的浪费与次优的泛化40。
在更广泛、底层的神经网络结构学习Structure Learning与拓扑优化学术文献中神经架构搜索Neural Architecture Search, NAS的兴起以及“彩票假说Lottery Ticket Hypothesis”的提出已经从严谨的理论和海量实验中无可辩驳地证实在即使是表现极其平庸的庞大密集网络中也往往隐秘地嵌套着一组极其稀疏、具有极佳连通性与权重的子网络结构。如果在训练初期就能发现并提取这些子网络其最终优化收敛的效果和速度足以媲美甚至大幅超越原始的全量稠密网络参数58。
在将这一深刻理念引申至当下的 LLM 多任务适配与对齐领域时立刻激发了关于跨任务“共享Shared”容量与特定任务“特有Specific”容量进行动态分解和分配的迫切需求40。例如在多模态理解融合或跨域知识迁移研究中研究者们常常构建 Shared-Specific 特征解耦模型。他们通过多任务辅助损失或对抗学习策略,显式且强制地切分网络层:决定哪些神经元、投影矩阵或具体的 LoRA 适配器应当专门用于吸收提取所有任务的底层共性表达而哪些又必须被绝对隔离专用于捕捉个别维度的特殊数据偏差与分布特征40。
然而,针对当前大语言模型这种具有极端且庞大过参数化属性、内部注意力交互错综复杂的非线性系统,要想在严格限定的全局总体参数预算或稀疏度限制下,对其所有层、所有模块和维度进行全局最优的联合容量分配,本质上构成了一个算力开销极大的 NP-hard 组合优化问题。目前业界依然极度缺乏一种行之有效、计算轻量的基础机制,能够从模型底层的低秩表示特性和稀疏矩阵分解的数学本质出发,将这种原本复杂的结构容量异质性,优雅地转化、映射为一种高效可微的结构寻优和预算规划过程。
尽管已有研究开始关注参数选择与结构学习问题,但在多任务条件下,如何在统一预算约束下实现共享与任务特有参数的联合分配,仍缺乏系统化的方法框架。
## ---
**2.5 本章小结**
本章从大语言模型的架构基础机制出发系统并层层递进地综述了参数高效适配方法PEFT的主流范式、多任务学习的困境与专家路由策略以及前沿的结构异质性感知与频域/空域适配研究。通过细致剖析 Transformer 内在的注意力与前馈神经网络的宏观功能分工、由旋转位置编码RoPE引入并放大的维度频带分化与离群激活特性以及预训练网络权重自身蕴含的多尺度频谱偏置与容量冗余等特征我们从物理与数学层面理清了大语言模型内部结构的异构本质。同时对现有的低秩如 LoRA、附加式、稀疏等微调技术的全景式梳理深刻表明单纯通过降低参数规模或压缩秩空间来提升微调效率的发展路线已经开始触及理论和性能的玻璃天花板而复杂多任务场景下的严重梯度冲突和表征负迁移则进一步放大了这一挑战。
贯穿上述庞杂文献与各项微调技术分析的交汇点,深刻揭示了一个不可忽视的核心事实:大语言模型内部绝非一个等价的参数黑箱。从信息路由的维度看,不同模块在知识承载与逻辑传递上各司其职;从空间表征的维度看,不同隐层维度在位置感应与远近上下文捕捉中具有显著的频带偏移;从参数组织的维度看,不同权重簇在多尺度频域空间与多任务学习机制中,需要极度不均匀、甚至是对立的更新模式与容量配额。然而,目前的参数高效微调方法普遍陷入并在很大程度上固守着一种“结构盲目”的均匀适配假设。这种缺乏细粒度感知能力的静态分配,从根本上阻碍了模型在极低且受限资源预算下,去最大化激活和释放预训练参数中潜藏的效能与灵活性。
因此,彻底放弃“一把抓”的均匀适配旧有范式,转而构建一套能够精确诊断、捕捉并利用上述各层级异质性差异的**结构感知Structure-Aware适配统一框架**,已成为突破大语言模型高效迁移瓶颈、推动下一代大语言模型落地的必由之路。
为奠定后续章节展开的统一方法论基础,本文基于前述归纳的四类结构异质性现象,抽象并定义了统一的结构感知调制算子:
$$\\tilde{\\mathbf{Z}}^{(\\ell)}=\\mathcal{M}\_{\\theta}\\big(\\mathbf{Z}^{(\\ell)};\\mathbf{X},\\mathcal{R}\\big)$$
其中,$\\mathbf{Z}^{(\\ell)}$ 为第 $\\ell$ 层的中间表示向量或参数矩阵,$\\mathbf{X}$ 为输入样本,$\\mathcal{M}\_{\\theta}$ 为结构感知调制模块,而 $\\mathcal{R}$ 则是表征特定结构角色差异的描述符。全文围绕这一算子框架,在表示空间与参数空间的二分主线下,设计了下表所示的由宏观粗粒度走向微观细粒度、由静态走向动态的多层级递进式适配方法体系:
| 结构异质性类型 | 描述符 | 调制形式 | 适配空间 | 方法 | 章节 |
| :---- | :---- | :---- | :---- | :---- | :---- |
| **模块级功能异质性** | $\\mathcal{R}\_{mod}$ | 乘性调制 | 表示空间 | HyCAM | 第三章 |
| **维度级位置结构异质性** | $\\mathcal{R}\_{dim}$ | 乘性调制 | 表示空间 | RoSA | 第四章 |
| **维度级位置结构异质性** | $\\mathcal{R}\_{dim}$ | 乘性调制 | 表示空间 | DyPAM | 第五章 |
| **频谱级多尺度异质性** | $\\mathcal{R}\_{spec}$ | 组合式调制 | 参数空间 | CASCADE | 第六章 |
| **参数级容量分配异质性** | $\\mathcal{R}\_{param}$ | 结构分解调制 | 参数空间 | MESSA | 第六章 |
如表所示,该体系将沿着“**表示空间**:模块级 $\\rightarrow$ 维度级”以及“**参数空间**:频谱结构 $\\rightarrow$ 容量分配”的双螺旋路径深入展开。在表示空间的维度级适配中RoSA 被设计为面向静态、粗粒度的位置结构感知适配;而 DyPAM 则进一步深化聚焦于动态、细粒度的位置结构感知调制。基于本章梳理的上述理论体系与统一映射框架本文将正式进入逐层的方法设计。下一章第三章将首先从最外层的模块级功能分化入手探讨如何通过上下文注意力调制框架HyCAM来彻底解决多任务复杂条件下的宏观功能角色感知与特征融合适配难题。
#### **引用的著作**
1. LLM Interview Series(3): Transformers Explained — Attention Is All You Need \- DEV \- Dev.to, 访问时间为 三月 19, 2026 [https://dev.to/jackm\_345442a09fb53b/llm-interview-series3-transformers-explained-attention-is-all-you-need-523o](https://dev.to/jackm_345442a09fb53b/llm-interview-series3-transformers-explained-attention-is-all-you-need-523o)
2. LLM's Simplified — Feed Forward Network (FFN) | by Sampath Kumaran Ganesan | Medium, 访问时间为 三月 19, 2026 [https://sampathkumaran.medium.com/llms-simplified-feed-forward-network-ffn-24ec761e664a](https://sampathkumaran.medium.com/llms-simplified-feed-forward-network-ffn-24ec761e664a)
3. PEFT Techniques- LoRA, AdaLoRA, QLoRA, DoRA, DyLoRA | by Ayushi Gupta | Medium, 访问时间为 三月 19, 2026 [https://medium.com/@ayushigupta9723/peft-techniques-lora-adalora-qlora-dora-61fbb375f338](https://medium.com/@ayushigupta9723/peft-techniques-lora-adalora-qlora-dora-61fbb375f338)
4. Layerwise Importance Analysis of Feed-Forward Networks in Transformer-based Language Models \- arXiv, 访问时间为 三月 19, 2026 [https://arxiv.org/html/2508.17734v1](https://arxiv.org/html/2508.17734v1)
5. Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space | Request PDF \- ResearchGate, 访问时间为 三月 19, 2026 [https://www.researchgate.net/publication/372924802\_Transformer\_Feed-Forward\_Layers\_Build\_Predictions\_by\_Promoting\_Concepts\_in\_the\_Vocabulary\_Space](https://www.researchgate.net/publication/372924802_Transformer_Feed-Forward_Layers_Build_Predictions_by_Promoting_Concepts_in_the_Vocabulary_Space)
6. Simple Guide to RoPE Scaling in Large Language Models \- Floating Bytes, 访问时间为 三月 19, 2026 [https://saraswatmks.github.io/2025/12/rope-scaling-llms.html](https://saraswatmks.github.io/2025/12/rope-scaling-llms.html)
7. Rethinking RoPE: A Mathematical Blueprint for N-dimensional Rotary Positional Embedding, 访问时间为 三月 19, 2026 [https://arxiv.org/html/2504.06308v2](https://arxiv.org/html/2504.06308v2)
8. BASE FREQUENCY AND CONTEXT LENGTH SHAPE THE INTERPOLATIONEXTRAPOLATION TRADE-OFF \- OpenReview, 访问时间为 三月 19, 2026 [https://openreview.net/pdf/4dd46cea98fadb375d28fcf897debdf638db365b.pdf](https://openreview.net/pdf/4dd46cea98fadb375d28fcf897debdf638db365b.pdf)
9. RoSA: Enhancing Parameter-Efficient Fine-Tuning via RoPE-aware Selective Adaptation in Large Language Models \- arXiv, 访问时间为 三月 19, 2026 [https://arxiv.org/html/2511.21733v1](https://arxiv.org/html/2511.21733v1)
10. RoPE (Rotary Position Embeddings): A Detailed Example \- Towards AI, 访问时间为 三月 19, 2026 [https://towardsai.net/p/machine-learning/rope-rotary-position-embeddings-a-detailed-example](https://towardsai.net/p/machine-learning/rope-rotary-position-embeddings-a-detailed-example)
11. The Dark Side of RoPE: The Hidden Cost of Rotating Space | by Cengizhan Bayram, 访问时间为 三月 19, 2026 [https://medium.com/@cenghanbayram35/the-dark-side-of-rope-the-hidden-cost-of-rotating-space-47d1173b5c8e](https://medium.com/@cenghanbayram35/the-dark-side-of-rope-the-hidden-cost-of-rotating-space-47d1173b5c8e)
12. The Heterogeneous Feature of RoPE-based Attention in Long-Context LLMs, 访问时间为 三月 19, 2026 [https://huggingface.co/blog/SII-xrliu/heterogeneous-features](https://huggingface.co/blog/SII-xrliu/heterogeneous-features)
13. Contextual Attention Modulation: Towards Efficient Multi-Task Adaptation in Large Language Models \- arXiv.org, 访问时间为 三月 19, 2026 [https://arxiv.org/html/2510.17705v1](https://arxiv.org/html/2510.17705v1)
14. (PDF) Transformer Feed-Forward Layers Are Key-Value Memories \- ResearchGate, 访问时间为 三月 19, 2026 [https://www.researchgate.net/publication/348079179\_Transformer\_Feed-Forward\_Layers\_Are\_Key-Value\_Memories](https://www.researchgate.net/publication/348079179_Transformer_Feed-Forward_Layers_Are_Key-Value_Memories)
15. Stable Anisotropic Regularization \- OpenReview, 访问时间为 三月 19, 2026 [https://openreview.net/forum?id=dbQH9AOVd5](https://openreview.net/forum?id=dbQH9AOVd5)
16. \[Replication\] "Transformer Feed-Forward Layers Are Key-Value Memories" · Issue \#5 · EleutherAI/project-menu \- GitHub, 访问时间为 三月 19, 2026 [https://github.com/EleutherAI/project-menu/issues/5](https://github.com/EleutherAI/project-menu/issues/5)
17. A Framework for Domain-Specific Dataset Creation and Adaptation of Large Language Models \- MDPI, 访问时间为 三月 19, 2026 [https://www.mdpi.com/2073-431X/14/5/172](https://www.mdpi.com/2073-431X/14/5/172)
18. (PDF) Contextual Attention Modulation: Towards Efficient Multi-Task Adaptation in Large Language Models \- ResearchGate, 访问时间为 三月 19, 2026 [https://www.researchgate.net/publication/396716478\_Contextual\_Attention\_Modulation\_Towards\_Efficient\_Multi-Task\_Adaptation\_in\_Large\_Language\_Models](https://www.researchgate.net/publication/396716478_Contextual_Attention_Modulation_Towards_Efficient_Multi-Task_Adaptation_in_Large_Language_Models)
19. Not all parameters are born equal: Attention is mostly what you need \- ACL Anthology, 访问时间为 三月 19, 2026 [https://aclanthology.org/2021.blackboxnlp-1.28/](https://aclanthology.org/2021.blackboxnlp-1.28/)
20. Heterogeneity in Entity Matching: A Survey and Experimental Analysis \- arXiv.org, 访问时间为 三月 19, 2026 [https://arxiv.org/html/2508.08076v1](https://arxiv.org/html/2508.08076v1)
21. A Pure Transformer Pretraining Framework on Text-attributed Graphs \- PMC, 访问时间为 三月 19, 2026 [https://pmc.ncbi.nlm.nih.gov/articles/PMC12416796/](https://pmc.ncbi.nlm.nih.gov/articles/PMC12416796/)
22. Transformer Feed-Forward Layers Are Key-Value Memories \- ACL Anthology, 访问时间为 三月 19, 2026 [https://aclanthology.org/2021.emnlp-main.446.pdf](https://aclanthology.org/2021.emnlp-main.446.pdf)
23. \[2012.14913\] Transformer Feed-Forward Layers Are Key-Value Memories \- arXiv, 访问时间为 三月 19, 2026 [https://arxiv.org/abs/2012.14913](https://arxiv.org/abs/2012.14913)
24. Not all parameters are born equal: Attention is mostly what you need \- Semantic Scholar, 访问时间为 三月 19, 2026 [https://www.semanticscholar.org/paper/Not-all-parameters-are-born-equal%3A-Attention-is-you-Bogoychev/947bec3b6ccb112aea56da230560207ac800ee2b](https://www.semanticscholar.org/paper/Not-all-parameters-are-born-equal%3A-Attention-is-you-Bogoychev/947bec3b6ccb112aea56da230560207ac800ee2b)
25. Not all parameters are born equal: Attention is mostly what you need \- ACL Anthology, 访问时间为 三月 19, 2026 [https://aclanthology.org/2021.blackboxnlp-1.28.pdf](https://aclanthology.org/2021.blackboxnlp-1.28.pdf)
26. Exploring Anisotropy and Outliers in Multilingual \- Scribd, 访问时间为 三月 19, 2026 [https://www.scribd.com/document/892260775/Exploring-Anisotropy-and-Outliers-in-Multilingual](https://www.scribd.com/document/892260775/Exploring-Anisotropy-and-Outliers-in-Multilingual)
27. Disentangling Geometry, Performance, and Training in Language Models \- ResearchGate, 访问时间为 三月 19, 2026 [https://www.researchgate.net/publication/401188613\_Disentangling\_Geometry\_Performance\_and\_Training\_in\_Language\_Models](https://www.researchgate.net/publication/401188613_Disentangling_Geometry_Performance_and_Training_in_Language_Models)
28. \[2305.19358\] Stable Anisotropic Regularization \- arXiv, 访问时间为 三月 19, 2026 [https://arxiv.org/abs/2305.19358](https://arxiv.org/abs/2305.19358)
29. Parameter-Efficient Fine-Tuning via Selective Discrete Cosine Transform \- arXiv, 访问时间为 三月 19, 2026 [https://arxiv.org/html/2410.09103v1](https://arxiv.org/html/2410.09103v1)
30. Conflict-Averse Gradient Descent for Multi-task Learning \- NeurIPS, 访问时间为 三月 19, 2026 [https://proceedings.neurips.cc/paper/2021/file/9d27fdf2477ffbff837d73ef7ae23db9-Paper.pdf](https://proceedings.neurips.cc/paper/2021/file/9d27fdf2477ffbff837d73ef7ae23db9-Paper.pdf)
31. RoSA: Enhancing Parameter-Efficient Fine-Tuning via ... \- BIGSCity, 访问时间为 三月 19, 2026 [https://www.bigscity.com/app/download/12941806112/RoSA-+Enhancing+Parameter-Efficient+Fine-Tuning+via+RoPE-aware+Selective+Adaptation+in+Large+Language+Models.pdf?t=1764733647](https://www.bigscity.com/app/download/12941806112/RoSA-+Enhancing+Parameter-Efficient+Fine-Tuning+via+RoPE-aware+Selective+Adaptation+in+Large+Language+Models.pdf?t=1764733647)
32. RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation \- arXiv, 访问时间为 三月 19, 2026 [https://arxiv.org/html/2401.04679v4](https://arxiv.org/html/2401.04679v4)
33. LoRaDA: Low-Rank Direct Attention Adaptation for Efficient LLM Fine-tuning, 访问时间为 三月 19, 2026 [https://aclanthology.org/2025.findings-emnlp.676/](https://aclanthology.org/2025.findings-emnlp.676/)
34. PEML: Parameter-efficient Multi-Task Learning with Optimized Continuous Prompts, 访问时间为 三月 19, 2026 [https://openreview.net/forum?id=lnH5YFPcxZ](https://openreview.net/forum?id=lnH5YFPcxZ)
35. \[2511.21733\] RoSA: Enhancing Parameter-Efficient Fine-Tuning via RoPE-aware Selective Adaptation in Large Language Models \- arXiv.org, 访问时间为 三月 19, 2026 [https://arxiv.org/abs/2511.21733](https://arxiv.org/abs/2511.21733)
36. Entropy Reveals Block Importance in Masked Self-Supervised Vision Transformers \- arXiv, 访问时间为 三月 19, 2026 [https://arxiv.org/html/2602.03918v1](https://arxiv.org/html/2602.03918v1)
37. Efficient Fine-Tuning via Behavior-Guided Spectral Alignment | OpenReview, 访问时间为 三月 19, 2026 [https://openreview.net/forum?id=edgZd6BVzx](https://openreview.net/forum?id=edgZd6BVzx)
38. Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models \- arXiv, 访问时间为 三月 19, 2026 [https://arxiv.org/html/2601.14004v2](https://arxiv.org/html/2601.14004v2)
39. Frequency Bands in RoPE: Base Frequency and Context Length Shape the InterpolationExtrapolation Trade-off | OpenReview, 访问时间为 三月 19, 2026 [https://openreview.net/forum?id=PR1PPxvG9Q](https://openreview.net/forum?id=PR1PPxvG9Q)
40. Multi-modal Learning with Missing Modality via Shared-Specific Feature Modelling | CVF Open Access, 访问时间为 三月 19, 2026 [https://openaccess.thecvf.com/content/CVPR2023/papers/Wang\_Multi-Modal\_Learning\_With\_Missing\_Modality\_via\_Shared-Specific\_Feature\_Modelling\_CVPR\_2023\_paper.pdf](https://openaccess.thecvf.com/content/CVPR2023/papers/Wang_Multi-Modal_Learning_With_Missing_Modality_via_Shared-Specific_Feature_Modelling_CVPR_2023_paper.pdf)
41. HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou \- arXiv, 访问时间为 三月 19, 2026 [https://arxiv.org/html/2408.05430v1](https://arxiv.org/html/2408.05430v1)
42. Disentangling Task Conflicts in Multi-Task LoRA via Orthogonal Gradient Projection \- arXiv, 访问时间为 三月 19, 2026 [https://arxiv.org/html/2601.09684v1](https://arxiv.org/html/2601.09684v1)
43. \[2110.14048\] Conflict-Averse Gradient Descent for Multi-task Learning \- arXiv, 访问时间为 三月 19, 2026 [https://arxiv.org/abs/2110.14048](https://arxiv.org/abs/2110.14048)
44. Implement PCGrad (Projecting Conflicting Gradients) for Multi-Task Optimization · Issue \#51 · 0-5788719150923125/praxis \- GitHub, 访问时间为 三月 19, 2026 [https://github.com/0-5788719150923125/praxis/issues/51](https://github.com/0-5788719150923125/praxis/issues/51)
45. Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval, 访问时间为 三月 19, 2026 [https://sigir-2024.github.io/proceedings.html](https://sigir-2024.github.io/proceedings.html)
46. Multi-Task Low-Rank Model Adaptation | OpenReview, 访问时间为 三月 19, 2026 [https://openreview.net/forum?id=L3RSb9yTlL](https://openreview.net/forum?id=L3RSb9yTlL)
47. Scalable Multi-Task Low-Rank Model Adaptation \- arXiv.org, 访问时间为 三月 19, 2026 [https://arxiv.org/html/2603.01526v1](https://arxiv.org/html/2603.01526v1)
48. CVPR Poster MTLoRA: Low-Rank Adaptation Approach for Efficient Multi-Task Learning, 访问时间为 三月 19, 2026 [https://cvpr.thecvf.com/virtual/2024/poster/31243](https://cvpr.thecvf.com/virtual/2024/poster/31243)
49. Rethinking RoPE Scaling in Quantized LLM: Theory, Outlier, and Channel-Band Analysis with Weight Rescaling \- arXiv.org, 访问时间为 三月 19, 2026 [https://arxiv.org/html/2510.00028v1](https://arxiv.org/html/2510.00028v1)
50. Adaptive multi-scale phase-aware fusion network for EEG seizure recognition \- PMC, 访问时间为 三月 19, 2026 [https://pmc.ncbi.nlm.nih.gov/articles/PMC12340438/](https://pmc.ncbi.nlm.nih.gov/articles/PMC12340438/)
51. On the Spectral Bias of Neural Networks \- Proceedings of Machine Learning Research, 访问时间为 三月 19, 2026 [http://proceedings.mlr.press/v97/rahaman19a/rahaman19a.pdf](http://proceedings.mlr.press/v97/rahaman19a/rahaman19a.pdf)
52. Training Behavior of Deep Neural Network in Frequency Domain \- ResearchGate, 访问时间为 三月 19, 2026 [https://www.researchgate.net/publication/337922791\_Training\_Behavior\_of\_Deep\_Neural\_Network\_in\_Frequency\_Domain](https://www.researchgate.net/publication/337922791_Training_Behavior_of_Deep_Neural_Network_in_Frequency_Domain)
53. Deep Learning in Practice, 访问时间为 三月 19, 2026 [https://www.lri.fr/\~gcharpia/deeppractice/chap\_2.html](https://www.lri.fr/~gcharpia/deeppractice/chap_2.html)
54. FreqLLM: Frequency-Aware Large Language Models for Time Series Forecasting \- IJCAI, 访问时间为 三月 19, 2026 [https://www.ijcai.org/proceedings/2025/0377.pdf](https://www.ijcai.org/proceedings/2025/0377.pdf)
55. Wavelet Enhanced Adaptive Frequency Filter for Sequential Recommendation \- arXiv, 访问时间为 三月 19, 2026 [https://arxiv.org/html/2511.07028v2](https://arxiv.org/html/2511.07028v2)
56. Semantic Agreement Enables Efficient Open-Ended LLM Cascades \- arXiv, 访问时间为 三月 19, 2026 [https://arxiv.org/html/2509.21837v1](https://arxiv.org/html/2509.21837v1)
57. Open-source LLMs for text annotation: a practical guide for model setting and fine-tuning \- ZORA, 访问时间为 三月 19, 2026 [https://www.zora.uzh.ch/server/api/core/bitstreams/e4a2251b-12d0-4445-9371-6643b205176f/content](https://www.zora.uzh.ch/server/api/core/bitstreams/e4a2251b-12d0-4445-9371-6643b205176f/content)
58. Main Track \- AAAI.org, 访问时间为 三月 19, 2026 [https://aaai.org/wp-content/uploads/2023/12/Main-Track.pdf](https://aaai.org/wp-content/uploads/2023/12/Main-Track.pdf)
59. Scaling Low-Resource MT via Synthetic Data Generation with LLMs \- ACL Anthology, 访问时间为 三月 19, 2026 [https://aclanthology.org/2025.emnlp-main.1408.pdf](https://aclanthology.org/2025.emnlp-main.1408.pdf)
60. LLM-Driven Transient Stability Assessment: From Automated Simulation to Neural Architecture Design \- ResearchGate, 访问时间为 三月 19, 2026 [https://www.researchgate.net/publication/397984217\_LLM-Driven\_Transient\_Stability\_Assessment\_From\_Automated\_Simulation\_to\_Neural\_Architecture\_Design](https://www.researchgate.net/publication/397984217_LLM-Driven_Transient_Stability_Assessment_From_Automated_Simulation_to_Neural_Architecture_Design)