219 lines
58 KiB
Markdown
219 lines
58 KiB
Markdown
# **第二章 大语言模型表征适配的相关理论与研究进展**
|
||
|
||
本章旨在为大语言模型(Large Language Models, LLMs)的结构感知表征适配研究奠定坚实的理论与文献基础。首先,本章将系统梳理大语言模型的架构基础与内部表示机制,揭示 Transformer 架构内部普遍存在的功能分化与结构异质性,从而为“放弃均匀适配假设、转向结构感知调制”提供统一的理论与对象依据。其次,本章将对现有参数高效微调方法、多任务适配技术以及前沿的结构感知建模研究进行多维度的谱系梳理与深度剖析。通过对模块级、维度级以及参数级等不同粒度下的研究进展进行综述,本章旨在明确当前均匀适配策略的核心局限与瓶颈,进而在各节末尾自然引出本文后续章节在表示空间与参数空间中所展开的多层级结构感知适配方法设计。
|
||
|
||
## **2.1 大语言模型架构基础与表示机制**
|
||
|
||
### **2.1.1 Transformer 架构与核心计算流程**
|
||
|
||
当前主流的大语言模型无一例外地建立在 Transformer 架构之上1。从计算流程的角度来看,Transformer 的表示形成过程是一个信息在多层级、多子模块之间进行复杂路由与非线性映射的级联过程。以最为普遍的仅解码器(Decoder-only)架构为例,其核心由堆叠的 Transformer 块(Block)构成,每个块内部主要包含两个核心计算组件:掩码多头自注意力机制(Masked Multi-Head Self-Attention, MHA)和前馈神经网络(Feed-Forward Neural Network, FFN)1。
|
||
自注意力机制负责在序列维度上捕捉上下文依赖关系。对于给定的输入表示矩阵 $\\mathbf{X} \\in \\mathbb{R}^{L \\times d}$(其中 $L$ 为序列长度,$d$ 为隐藏层维度),MHA 通过多组并行的线性投影将其映射为查询(Query, $\\mathbf{Q}$)、键(Key, $\\mathbf{K}$)和值(Value, $\\mathbf{V}$)张量。在其核心计算中,注意力分数矩阵由 $\\mathbf{Q}$ 与 $\\mathbf{K}$ 的点积求得,并经过缩放与 Softmax 归一化后,作用于 $\\mathbf{V}$,从而实现特征在不同词元(Token)间的全局聚合与信息路由1。此外,为了保证自回归生成的因果性,Decoder-only 模型引入了下三角因果掩码(Causal Mask)矩阵,强制阻断当前词元对未来词元的注意力流动,使得每个词元仅能观测到其前驱上下文1。
|
||
与自注意力机制跨词元的全局信息路由功能不同,前馈神经网络(FFN)在 Transformer 中扮演着逐词元(Token-wise)独立非线性映射的角色1。FFN 通常由两层线性变换及其中间的非线性激活函数(如 ReLU、GELU 或 SwiGLU)构成。尽管 FFN 对序列中的每个词元独立且相同地作用,但其参数量通常占据了整个模型规模的三分之二。现有理论与实证研究认为,FFN 本质上通过将低维注意力表示投影到极高维的隐层空间,实现了对复杂特征模式的重组、记忆提取与非线性转换,从而极大增强了模型拟合高维数据分布的能力2。
|
||
在 MHA 与 FFN 之外,残差连接(Residual Connections)与层归一化(Layer Normalization)构成了信息在深层网络中稳定传播的基础骨架1。残差连接不仅有效缓解了深层网络训练中的梯度消失与梯度爆炸问题,更重要的是,它将 Transformer 的前向计算转化为一种表示状态的“迭代细化”(Iterative Refinement)过程——即每一层的 MHA 和 FFN 都可以被视为对中心残差流(Residual Stream)中隐藏状态的加性更新(Additive Update)4。层归一化则负责在每次加性更新前后对特征分布进行重整,确保表示空间的几何稳定性。
|
||
Transformer 的表示形成过程由多个功能组件协同完成,而非单一均匀结构,这为后续从模块、维度与参数空间分析适配问题提供了结构基础。
|
||
|
||
### **2.1.2 旋转位置编码与位置信息建模**
|
||
|
||
在缺乏显式递归或卷积序列建模机制的 Transformer 架构中,位置编码(Position Encoding)是注入词元相对与绝对位置信息的唯一手段。近年来,旋转位置编码(Rotary Position Embedding, RoPE)凭借其优异的相对位置建模能力、理论上的优雅性与工程上的外推特性,成为了 LLaMA、Qwen、Mistral 等绝大多数开源大语言模型的标配机制6。
|
||
RoPE 的数学原理建立在复数域的几何旋转群与李代数(Lie Algebra)理论之上。其核心思想是:通过对高维空间中的特征向量施加与位置索引强相关的绝对正交旋转操作,使得任意两个位置上的向量之间的内积(即注意力分数的核心项)自然地、仅依赖于它们的相对位置距离7。具体而言,对于位置索引为 $t$ 的隐藏特征查询向量 $\\mathbf{q}\_t$ 或键向量 $\\mathbf{k}\_t$,RoPE 将其特征维度划分为 $d/2$ 个二维子空间(即维度对),并对第 $i$ 个二维子空间独立应用旋转矩阵 $\\mathbf{R}\_{\\theta, t}$:
|
||
|
||
$$\\begin{pmatrix} q\_{t, 2i} \\\\ q\_{t, 2i+1} \\end{pmatrix} \\leftarrow \\begin{pmatrix} \\cos(t\\theta\_i) & \-\\sin(t\\theta\_i) \\\\ \\sin(t\\theta\_i) & \\cos(t\\theta\_i) \\end{pmatrix} \\begin{pmatrix} q\_{t, 2i} \\\\ q\_{t, 2i+1} \\end{pmatrix}$$
|
||
其中,旋转频率 $\\theta\_i \= B^{-2i/d}$ 为预设的频率基数(Base Frequency,通常在基础模型中设定为 $B=10000$,在支持长文本的模型中可扩展至 $500000$ 乃至更大)9。
|
||
这一机制最显著的特性在于其呈现出一种**频率分解结构(Frequency Decomposition Structure)**。随着特征维度索引 $i$ 的增加,旋转频率 $\\theta\_i$ 呈现出严格的几何级数衰减9。与 ALiBi(Attention with Linear Biases)这种直接在注意力分数矩阵上施加显式线性距离惩罚的机制不同,RoPE 将位置信息深度耦合于表示维度内部。与早期的绝对可学习位置嵌入(Learnable Position Embeddings)相比,RoPE 既保持了参数的无状态性(Parameter-free),又赋予了不同维度截然不同的位置表达属性11。由于引入了频域变换特性,它使得大语言模型在处理任意距离的上下文关联时,具备了极其丰富且异构的位置解析视角。
|
||
RoPE 的频率分解特性意味着位置信息在不同维度对上的编码方式天然不均匀,这为后续研究维度级位置结构异质性提供了理论起点。
|
||
|
||
### **2.1.3 预训练范式与大语言模型的表示能力**
|
||
|
||
大语言模型之所以能够在自然语言处理、代码生成、逻辑推理乃至跨模态任务等广泛领域展现出颠覆性的通用能力,根本上得益于基于海量无标注数据的“预训练—微调”(Pre-training and Fine-tuning)范式1。通过在包含数万亿甚至数十万亿词元(Tokens)的庞大语料库上进行极大规模的自回归下一个词预测(Next-token Prediction)训练,GPT系列、LLaMA 系列、Qwen 系列等代表性模型内部构建了对物理世界运行规则、人类语言复杂语法以及各垂直领域通用知识的深层参数化记忆8。
|
||
在漫长且算力极其密集的预训练阶段,模型通过庞大的参数空间探索到了一个高度丰富且通用的流形表示(Manifold Representation)空间。相关实证研究表明,预训练模型在其各层的中间表示中,不仅捕获了浅层的词法与句法树结构,还蕴含了深层的语义共现网络、常识推理事理甚至是高阶的逻辑因果链条15。这种强大的“世界模型”底座赋予了大语言模型在零样本(Zero-shot)和少样本(Few-shot)学习场景下的惊人泛化能力。
|
||
然而,尽管大语言模型的通用表示能力极其强大,这种“全知全能”的基座能力在面对特定下游任务(如医疗诊断问答、严谨的数学推导或特定风格的对话指令)时,往往面临着严重的分布偏移(Distribution Shift)与任务意图对齐(Alignment)瓶颈13。为了使模型适配特定应用场景的约束流形,必须进行后续的微调干预。由于当前前沿大模型参数规模动辄达到百亿、千亿级别,在具体下游任务中对所有参数进行全量微调(Full Fine-Tuning, FFT)不仅面临着极高的计算集群算力壁垒与显存开销限制,更致命的是,全量参数的高自由度更新极易破坏预训练阶段积累的通用知识结构,导致严重的“灾难性遗忘”(Catastrophic Forgetting)与表征退化18。因此,如何以极低的参数预算,将庞大的预训练通用知识高效“唤醒”并“适配”(Adapt)到特定的条件分布下,而非推翻重训,成为了当前 AI 领域的核心议题。
|
||
预训练模型提供了强大的通用表示基础,但这些能力能否在具体任务中被有效调用,仍取决于合理的适配机制设计。
|
||
|
||
### **2.1.4 模型内部的功能分化与结构异质性**
|
||
|
||
在早期模型微调与优化的传统思维中,深度神经网络往往被粗略地视为一个层级同质、参数均匀的巨型黑箱。然而,近年来大量关于 Transformer 可解释性分析、网络解剖(Network Dissection)与逆向工程(Reverse Engineering)的前沿证据深刻表明,大语言模型内部普遍存在着极其显著且多层级的功能分化与结构异质性(Structural Heterogeneity)9。
|
||
首先,**在模块级别**,注意力机制(MHA)与前馈神经网络(FFN)存在明确且不可相互替代的职能边界。多项前沿研究证实5,MHA 本质上是一个动态的“上下文路由器”,它不直接存储显性的世界知识,而是负责根据当前词元的语义查询,在序列的历史节点中寻找最相关的信息,并完成表示流的跨时间步转移;相反,FFN 则是 Transformer 内部庞大的“键值记忆库(Key-Value Memories)”14。Geva 等人的开创性工作解构了 FFN 的两层线性映射,指出其第一层权重(Keys)作为模式匹配器负责识别输入残差流中的局部概念模式,而第二层权重(Values)则作为知识分发器,负责提取并向残差流中注入与该模式强相关的词汇概率或特征概念14。此外,Bogoychev 等人的参数冻结与消融实验(Ablation Study)也证实,在机器翻译等不同任务中,冻结特定的网络结构单元(如嵌入层、注意力层或 FFN 层)会对模型最终性能造成完全不同程度的断崖式影响,这从侧面有力证明了“并非所有参数生而平等(Not all parameters are born equal)”的结构假设19。不仅模块间存在差异,在网络深度层面上(Layer-wise),浅层网络更倾向于处理基础词法和局部句法,而深层网络则主导了复杂的语义组合与抽象推理9。
|
||
其次,**在维度级别**,大语言模型表示空间中存在强烈的各向异性(Anisotropy)与极端激活(Outliers)现象15。高维隐层空间中的信息能量并非呈现完美的各向同性高斯分布,而是高度集中于极少数表征幅度极大、方差极高的“离群维度”上15。这些离群维度不仅构成了表示向量在主成分空间中的聚类骨架,同时对特定句法结构或控制指令极为敏感。此外,即使在同一模块内部,多头注意力(Multi-Head Attention)的各个 Head 也展现出显著的功能特化,部分 Head 专注于局部位置的注意力集中,而另一些则承担着捕获长距离共现的职责。
|
||
最后,由于网络参数更新的内蕴机制,**在参数子空间**层面,大模型的权重组织呈现出多尺度的频域响应特征以及对应不同任务的异构容量分配需求,整体网络绝非一个均匀更新的系统29。
|
||
上述研究表明,大语言模型内部普遍存在多层级的功能分化与结构异质性,因此下游适配未必应采取统一而均匀的更新方式,而应考虑结构角色差异。
|
||
|
||
## ---
|
||
|
||
**2.2 参数高效微调方法**
|
||
|
||
为了应对全量微调在资源开销上的不可行性,同时避免表征灾难性遗忘,参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法作为一种替代范式获得了长足的发展。本节将系统梳理现有 PEFT 技术的发展脉络,归纳其主要技术分支,并重点剖析这些方法在面对模型结构异质性时所暴露的核心瓶颈。
|
||
|
||
### **2.2.1 低秩适配方法**
|
||
|
||
低秩适配(Low-Rank Adaptation, LoRA)及其衍生变体是当前大语言模型适配领域中应用最为广泛、生态最为成熟的技术范式3。LoRA 的提出建立在一个核心假设之上:尽管预训练模型的整体参数矩阵极其庞大,但模型在适应特定下游任务时,其所需权重的实际更新量往往位于一个极低的“内在维度(Intrinsic Dimension)”流形之上3。基于这一洞察,LoRA 在微调过程中完全冻结了原始的预训练权重矩阵 $\\mathbf{W}\_0 \\in \\mathbb{R}^{d\_{in} \\times d\_{out}}$,并通过旁接(Bypass)两个小型的低秩矩阵 $\\mathbf{A} \\in \\mathbb{R}^{d\_{in} \\times r}$ 和 $\\mathbf{B} \\in \\mathbb{R}^{r \\times d\_{out}}$(其中秩大小 $r \\ll \\min(d\_{in}, d\_{out})$)的乘积,来参数化表示权重的增量 $\\Delta \\mathbf{W} \= \\mathbf{B}\\mathbf{A}$3。在推理阶段,这种低秩增量可以直接被重新参数化合并回原矩阵中,不引入任何额外的推理延迟。
|
||
沿着低秩结构重参数化的思路,学术界提出了一系列增强方案。例如,AdaLoRA 认识到不同层级的权重对于任务的敏感度存在差异,因此引入了基于奇异值分解(SVD)的方法,在训练过程中动态评估并分配各权重矩阵的奇异值重要性,允许模型自动为重要的层级分配更高的秩,从而在总参数预算固定的情况下实现了比传统固定秩 LoRA 更优的性能表现3。DoRA(Weight-Decomposed Low-Rank Adaptation)则从特征几何视角出发,将庞大的预训练权重分解为幅度(Magnitude)和方向(Direction)两个独立的分量,并仅对方向向量应用低秩更新,使得模型能够更加细腻地解耦优化空间,提升了低秩调整的表达能力3。此外,VeRA 进一步固定了使用相同随机种子初始化的低秩投影矩阵,仅通过极少量的可学习缩放向量来进行训练调制,将微调参数量压缩至极致3。
|
||
低秩适配通过约束更新空间显著降低了微调成本,但其参数化方式大多仍默认不同结构位置具有近似一致的适配地位。
|
||
|
||
### **2.2.2 附加式与提示类适配方法**
|
||
|
||
除了在原有权重旁边并行进行低秩近似外,引入全新网络结构参数的附加式模块(Adapter)与聚焦于输入表征空间的提示类微调(Prompt/Prefix Tuning),构成了 PEFT 领域的另一条重要技术谱系9。
|
||
Adapter 系列方法是参数高效微调的早期探索形式之一。其典型结构通过在每一层 Transformer 的原有组件(通常在 FFN 模块之后,或 MHA 和 FFN 模块之后同时)串联或并联小型的瓶颈型多层感知机(Bottleneck MLP)来实现33。这种附加的适配器首先通过一个降维投影将高维表示压缩到低维瓶颈层,经过非线性激活后,再通过升维投影还原回原始维度。在微调期间,主干大模型保持冻结,仅有这些轻量级的瓶颈映射层被更新。这种设计有效地阻断了误差梯度向预训练底座的传导,保护了原始知识。
|
||
提示类微调(Prompt-based Tuning)则提供了一种完全不同的视角,它不再修改 Transformer 块内的计算算子,而是将注意力集中于输入表征的构建上。Prefix-Tuning 通过在每一层自注意力机制的键(Key)和值(Value)特征序列的最前端,强制拼接一段预设长度的可学习连续向量(Soft Prompts)34。这些前缀向量在注意力计算时充当了“虚拟历史上下文”,从而隐式且深层地调制了模型对后续自然序列的注意力特征分布。P-Tuning 及其变种方法则将可学习的连续提示词元直接插入到最底层的 Embedding 序列中,并通过额外的 MLP 映射网络保证提示向量在连续流形空间中的语义平滑性。
|
||
无论是附加式模块还是提示类方法,尽管在参数效率上各有优势,但多数方法仍主要围绕统一插入位置或统一提示空间展开,缺乏对模型内部结构差异的显式建模。
|
||
|
||
### **2.2.3 选择式与稀疏微调方法**
|
||
|
||
相较于向模型注入新参数的加法逻辑,选择式与稀疏微调(Selective and Sparse Tuning)技术则遵循一种更纯粹的原则:直接在原有的百亿级参数海洋中,寻找并仅更新那些对下游任务最敏感的极少数原生参数子集32。这类方法开始触及了模型内部容量分配的本质。
|
||
BitFit 作为早期的极端选择式方法,证明了在大模型中仅仅解除对各类偏置项(Biases)的冻结,而不更新任何权重矩阵,就能在诸多分类或推理任务上达到令人惊讶的竞争性能。随后,LISA(Layer-wise Importance Sampled Adaptation)等方法将选择粒度从偏置项提升至了网络层级。LISA 基于简单的随机策略或基于梯度的层级重要性评分,提出在不同的训练迭代中仅选择性地解除模型中某几层 Transformer 的冻结状态。这种动态的层级激活极大地降低了反向传播时的显存峰值开销。
|
||
更为细粒度的是稀疏微调方法(Sparse Fine-tuning)。这类方法通常借助模型剪枝(Pruning)领域的经验,通过计算参数的一阶梯度大小或利用泰勒展开的二阶海森矩阵(Hessian Matrix)迹来精确衡量模型中每一个独立权重的微调敏感度。随后,构建出极高稀疏度的掩码矩阵(如仅保留 0.1% 或更少的核心参数),确保优化器仅在这些特定的稀疏位置上进行高自由度的权重更新32。
|
||
选择式与稀疏微调方法已经开始触及“哪些参数值得更新”的问题,但多数方法仍缺乏对结构角色、跨任务共享关系与统一预算分配的系统刻画。
|
||
|
||
### **2.2.4 现有方法的均匀适配假设与局限**
|
||
|
||
对上述三大类主流参数高效微调方法进行横向对比与归纳,可以清晰地识别出当前 PEFT 技术生态的共性瓶颈。下表对现有方法在不同结构维度上的刻画能力进行了总结:
|
||
|
||
| 方法大类 | 代表性技术 | 适配切入空间 | 均匀适配特征表现 |
|
||
| :---- | :---- | :---- | :---- |
|
||
| **低秩适配** | LoRA, DoRA, AdaLoRA | 参数空间(低秩流形) | 统一作用于注意力/FFN投影层,缺乏内部频域与空间功能解耦 |
|
||
| **附加与提示** | Adapter, Prefix-Tuning | 表示空间(向量增量) | 等长统一分配连续提示或统一插入瓶颈模块,无视层级与维度异质性 |
|
||
| **选择与稀疏** | BitFit, Sparse Tuning | 参数空间(稀疏掩码) | 依赖局部标量启发式规则(如幅值),缺乏结构角色与多任务共享机制 |
|
||
|
||
如表所示,尽管这些方法在大幅削减计算与显存开销方面取得了巨大成功,但它们普遍隐含了一个强烈的**均匀适配假设(Uniform Adaptation Assumption)**9。无论是将低秩矩阵无差别地挂载到所有子模块的线性层上,还是为所有层分配等长的前缀向量,抑或是基于全局绝对阈值进行稀疏屏蔽,现有框架大都将大语言模型简化为一个层级平齐、模块功能同质的系统9。
|
||
这种缺乏“结构感知(Structure-Aware)”的均匀设计,直接导致了三类根本性局限: 首先,**对模块功能差异关注不足**。如前文 2.1.4 节所述,MHA 和 FFN 在知识调用与上下文逻辑路由中扮演着截然不同、不可混淆的角色9。均匀地在二者上分配适配预算或采用相同的低秩假设,不可避免地导致冗余参数堆积于任务无关紧要的模块,而真正需要表达复杂下游知识的局部瓶颈区域却面临容量匮乏9。 其次,**对位置结构与维度异质性利用不足**。现有的提示注入或权重低秩更新主要作用于表示变换的全局通道维度,完全忽视了由于 RoPE 等频率结构引入的维度级别极端异质性9。在处理长上下文或高度依赖序列位置关系的任务时,这种对特定频带不敏感的盲目适配会破坏关键的相对位置编码机制,引入严重的表征噪声9。 最后,**对多尺度参数结构与容量分配建模不足**。面对日益复杂的异构任务集合,现有的 PEFT 工具缺乏在全局频谱空间和多任务优化约束下的系统建模。它们无法从深层结构的层面去区分哪些参数成分应当被提炼为跨任务的共享共性知识,哪些又必须被隔离以作为任务特化的能力储备40。
|
||
因此,现有参数高效微调方法的核心瓶颈之一,在于其普遍建立在相对均匀的适配假设之上,而未能充分利用模型内部在模块、维度和参数空间层面的结构异质性。这直接呼唤一种突破均匀假设、转向统一结构调制的全新适配范式。
|
||
|
||
## ---
|
||
|
||
**2.3 多任务学习与模块级功能适配**
|
||
|
||
随着大语言模型在现实世界部署场景的日益复杂,模型不再仅仅满足于在单一孤立任务上进行适配,而是往往需要同时面对包含代码生成、数学推理、开放域对话与垂直指令遵循在内的庞大异构下游任务簇42。在此类多任务(Multi-Task)环境下,“均匀适配”所带来的结构瓶颈将被成倍放大。本节重点回顾多任务微调中的底层冲突机理及现有的专家化与模块化解决思路,为后续第三章的模块级功能适配方法(HyCAM)提供直接的文献脉络支撑。
|
||
|
||
### **2.3.1 多任务学习与梯度冲突问题**
|
||
|
||
多任务学习(Multi-Task Learning, MTL)的核心哲学在于,通过强迫模型在统一的参数共享空间内联合优化多个目标,利用不同任务数据间潜在的潜在交叉信息与底层共性规律,从而大幅提升模型的宏观泛化能力与数据样本的利用效率30。在理想的收敛状态下,具有强语义关联的任务间能够发生“正迁移(Positive Transfer)”,彼此互为辅助监督信号。但在实际的复杂多任务预训练或微调中,由于各任务在数据分布特性、损失函数拓扑以及最佳解流形空间上存在着根本性差异,模型极易陷入灾难性的“负迁移(Negative Transfer)”困境。此时,部分任务的性能相较于单任务独立训练发生严重倒退,并且经常出现诸如提升任务 A 必然导致任务 B 性能下滑的跷跷板(Seesaw)现象30。
|
||
引发多任务优化灾难的核心机制被广泛归结为\*\*梯度冲突(Gradient Conflict)\*\*难题30。由于多个差异化任务的计算图共享着同一套 Transformer 底层物理参数体系,在进行反向传播更新时,任务 A 的损失函数可能强烈倾向于驱动某块权重参数向着高维空间中的区域 $\\theta\_A$ 更新;而与此同时,任务 B 为了最小化其特定分布的误差,可能产生一个方向几乎完全相反或高度发散的梯度向量,直指区域 $\\theta\_B$。若优化器仅仅机械地对所有任务的损失或梯度进行标量求和或求平均,整体的参数更新方向将会被梯度绝对幅度最大(往往是噪声最大或未收敛)的劣势任务所强行主导,或者在方向互相抵消下使得更新步长接近于零,导致模型停滞在对所有任务均极为糟糕的次优鞍点30。
|
||
为了在理论上解构并缓解这一冲突,文献中涌现了一系列梯度干预或梯度外科手术(Gradient Surgery)方法。以具有里程碑意义的 PCGrad(Projecting Conflicting Gradients)为例,该方法在每次更新步前,会计算各任务梯度向量在高维空间中的夹角(即余弦相似度)。一旦监测到某两个任务的梯度向量夹角大于 90 度(即存在负相关与破坏性冲突)时,PCGrad 会强制将其中一个发生冲突的梯度正交投影到另一个梯度向量的法平面上,通过剥离掉相互冲突的分量来消除破坏性干扰,同时保留下有助于共同优化的协同分量30。沿着这一方向,CAGrad(Conflict-Averse Gradient Descent)等进一步深入,将多任务冲突化解转化为一个带约束的极小极大优化问题,通过引入最坏情况下的局部性能提升作为优化目标,在邻域搜索空间内寻找能够使得所有任务平均损失严格下降的最佳更新方向30。
|
||
多任务学习表明,任务间既存在共享规律,也存在显著差异,单纯依赖统一优化往往难以兼顾知识共享与任务特化。这要求大语言模型内部不仅需要优化的算法干预,更迫切需要在模型架构内部提供专门用于承载共享与独立知识的结构。
|
||
|
||
### **2.3.2 混合专家模型与动态路由机制**
|
||
|
||
为了从架构演进的根本层面缓解多任务特征融合与干扰冲突,混合专家模型(Mixture of Experts, MoE)与条件动态路由机制(Dynamic Routing)成为了近年来大模型突破规模墙与多任务瓶颈的核心解法41。不同于传统标准的 Transformer 架构采用单一的、巨大的稠密前馈网络(Dense FFN)去平等地处理进入的所有序列词元,MoE 架构深刻贯彻了分而治之的模块化思想。它将极其庞大的 FFN 参数空间物理拆解并隔离为多个并行的、容量相对较小的独立“专家(Experts)”子网络。在当前诸如 Switch Transformer 或是 DeepSeek-MoE 的前沿架构中,专家数量往往从数十个扩展到上百个不等41。
|
||
支撑 MoE 架构高效运转的精髓在于其高度依赖输入语义特征的动态门控网络(Gating Mechanism)或路由网络(Router)。对于每一个流经网络的数据词元,路由网络会通过一个轻量级的线性分类器计算出该词元与各专家的亲和度概率分布。随后,通过 Top-$k$ 选择策略(在实际部署中通常 $k$ 仅设为 $1$ 或 $2$),模型将计算图的激活路径硬性约束在那几个具有最高响应概率的专家之上。这种稀疏激活(Sparse Activation)机制使得大语言模型在成倍扩大系统整体参数容量、捕获海量异构数据模式的同时,依然能够维持单个词元前向推理计算量的相对恒定。同时,不同专家网络在物理参数上的严格隔离特性,天然赋予了模型强大的抗干扰壁垒,显著降低了处理不同分布、不同领域任务数据时的特征重叠与污染41。
|
||
动态路由机制为输入依赖的知识调用提供了有效思路,但现有研究更多关注专家选择本身,而较少将其与模型内部模块功能差异显式关联起来。
|
||
|
||
### **2.3.3 多任务参数高效适配方法**
|
||
|
||
将多任务学习的需求、混合专家模型的隔离思想与参数高效微调(PEFT)技术三者有机结合,催生了当前极具潜力的前沿子方向:多任务参数高效适配(Multi-Task PEFT)42。这方面研究的核心目的是在极受限的参数预算下,探索出能够实现多任务系统鲁棒泛化与解耦的微调架构。
|
||
该方向的典型代表作如 MoELoRA 和 LoRAMoE 等框架。它们摒弃了在模型中挂载单一巨型 LoRA 的粗放做法,转而将多个极其轻量级的 LoRA 模块并联设计为一个微型的“专家组”。这些 LoRA 专家组被嵌入到 Transformer 的注意力映射层或前馈网络层中,完全替代了原本的单一适配器。在微调前向传播时,框架通过额外引入的门控网络对输入特征进行动态评估,将计算权重自适应地分配给不同的 LoRA 专家,最后再线性融合它们各自生成的低秩表征增量42。这种混合专家低秩适配的方法,以微小的参数增加为代价,极大地提升了 PEFT 在复杂多任务流形上的高维表达能力。
|
||
然而,随着对多任务冲突机理挖掘的深入,部分研究发现了单纯“堆叠并联 LoRA”的缺陷。例如,MTLoRA(Multi-Task LoRA)等工作尖锐地指出,如果继续沿用传统思路,将 LoRA 独立且无关联地分别应用到注意力机制极细粒度的组件上(如独立作用于 $\\mathbf{W}\_q$、$\\mathbf{W}\_k$ 或 $\\mathbf{W}\_v$ 投影层),这种做法反而会酿成灾难。由于缺少更高层级的表征协同,细粒度组件各自生成的适配方向会在反向传播时互相背离,从而严重放大了不同任务之间的内在梯度冲突46。基于这一深刻的观察,MTLoRA 提倡应该放弃组件级的散乱更新,转向使用更大感受野的块级(Block-level)适配结构,即在整个 Transformer 块(或完整的 MHA / FFN 宏观级别)上设计统一的适配模块。在块级视角下统一调节跨任务共享特征与任务特定特征的路由与融合,不仅显著削减了模块间冲突,还在同等性能下大幅缩减了近一半的可训练参数46。
|
||
现有多任务参数高效适配方法虽然引入了共享与专用结构以及动态路由思想,但其设计通常仍停留在任务粒度或专家粒度,尚未充分结合 Transformer 内部不同模块的功能角色差异进行系统建模。
|
||
|
||
## ---
|
||
|
||
**2.4 结构异质性感知与多层级适配方法**
|
||
|
||
前文的论述系统揭示了模型组件在多任务微调中所暴露出的结构与容量盲区。然而,大语言模型的复杂性远不止于此。除了宏观模块级(MHA 对比 FFN)的功能分工外,深层隐式表示在特征维度层面,以及物理权重在多尺度频域层面,同样展现出不容忽视的结构异质性。本节将深入梳理在更细粒度视角下的结构感知现象与多层级适配相关的最新技术进展,从而为本文第四、五、六章将要提出的 RoSA、DyPAM、CASCADE 及 MESSA 等框架提供直接且严密的理论与方法论铺垫。
|
||
|
||
### **2.4.1 位置编码结构与维度级表示异质性**
|
||
|
||
在 2.1.2 节所引入的基于李代数旋转群的 RoPE 机制之上,近年来的深入实证分析与几何拓扑研究进一步揭示了由这一位置编码所直接诱导出的极其特殊的\*\*维度级表示异质性(Dimension-level Representation Heterogeneity)\*\*现象8。研究清晰地表明,并非所有注意力维度都在均等地参与上下文计算。相反,由于 RoPE 的复数旋转频率在各个维度对上呈严格的几何级数分布,导致注意力机制的特征维度对序列距离的敏感度和注意力能量聚集度,呈现出高度不均匀的“频带(Frequency Band)”结构8。
|
||
一方面,系统中的低频(高索引)维度承担着跨越巨大跨度的长程语义获取重任。由于这些维度对应的旋转周期极长、角度变化缓慢,它们在深层网络的自注意力计算中往往能够保留长序列的宏观语境信息。实证研究发现,正是这些低频维度在网络深层表现出更加密集和绝对幅值极高的激活反应(即大量产生了主导后续前向传播的极端激活现象,或称为“Outliers”)11。这些离群激活在维持大语言模型面对长文本时的整体逻辑和事实连贯性中,起着不可替代的决定性作用。
|
||
另一方面,系统中的高频(低索引)维度则由于剧烈的角度旋转,极易陷入局部的近距离词元强交互中。虽然它们在捕捉短程语法结构时极为敏感,但当面对数百乃至数万词元的长文本推断时,这些高频维度往往会出现严重的位置信息衰减和周期“混叠(Aliasing)”现象,反而干扰了长程依赖的判断9。有研究者通过强制干预实验发现,如果在推理或生成阶段强行抹去或屏蔽(Masking)部分极高频维度特征,将它们转化为非位置编码(NoPE)状态,大语言模型的整体困惑度(Perplexity)几乎不受任何负面影响,甚至在长序列外推上有所提升;但一旦改动或破坏了主导宏观语境的关键低频维度,则会直接引发模型性能的彻底崩溃8。
|
||
不仅如此,这种维度级别能量的不均匀分布还会受到输入条件(Input-dependent)的强烈动态调制。同一特定频率的特征维度,在面对不同类型指令(Prompt)、不同领域分布或者带有极强局部情感语义的输入段落时,其在各层注意力头(Attention Heads)中的激活波峰、频率响应以及各向异性程度均会产生剧烈且不可预测的波动12。然而,当前的微调手段大多仍然依赖于对全部维度特征进行简单的逐维缩放或均匀的矩阵乘法投影,未能有效地提取或捕获这一底层静态的频带分布规律及上层动态的输入依赖特征。
|
||
现有研究已经表明,位置结构在维度级、头级乃至输入条件下均可能呈现非均匀分布,但这些异质性特征尚未被系统纳入参数高效适配机制之中。
|
||
|
||
### **2.4.2 多尺度频谱分析与频域适配方法**
|
||
|
||
从表示空间的维度异质性过渡到物理参数空间的结构分析,多尺度频谱分析(Multi-scale Spectrum Analysis)正为大语言模型的权重更新机制提供一个突破传统欧氏几何的全新解析视角29。传统的神经网络微调方法无一例外地完全在空域(Spatial Domain)即权重的原始标量数值空间内进行高维优化。然而,在函数逼近论的框架下,大规模神经网络的参数矩阵实际上可以被视为由多种不同频率、不同波长的正交成分复合而成的复杂信号系统51。
|
||
深度学习优化理论中著名的“频谱偏置(Spectral Bias)”现象指出,以梯度下降为核心的深度神经网络在训练和拟合数据流形时,总是表现出一种本能的偏好:优先学习并快速逼近目标函数中频率较低的部分(这部分通常对应于样本中平滑的、全局的宏观拓扑结构、基础语义或主导分类面的大尺度特征),随后在训练的后期,才逐渐且极其缓慢地去适应目标函数中的高频部分(这部分通常对应于剧烈变化的边界、局部特异性的细粒度特征或噪声偏置)51。
|
||
受到这一物理特性的深刻启发,前沿研究人员开始尝试跨越空域的局限,将经典的数字信号处理与频率变换工具(如离散余弦变换 DCT、小波变换 Wavelet Transform 以及快速傅里叶变换 Fourier Transform)创新性地引入到大模型的高效微调(PEFT)机制中29。在这一系列的频域适配方法中,以 FourierFT 和 Selective DCT(sDCTFT)为代表的模型架构,通过将巨大的参数或权重增量矩阵转换映射到频率域,巧妙利用了频域信号天然的能量集中特性。它们通过设计特定的频域滤波器或掩码,仅仅选择那些能量占比最大、对应模型宏观表征的最关键频段(通常是绝对低频成分)进行更新微调。由于舍弃了海量的高频冗余参数更新,这种方法在极大压缩了可训练参数量和优化空间维度的前提下,依然卓越地保持了模型在主干下游任务上的泛化能力29。
|
||
然而,事物往往具有两面性。多尺度频谱不仅仅包含低频的宏观基础规律,其高频细节同样对微小领域的极速适应、罕见事实知识的注入以及细粒度推理边界的微调起着不可替代的修饰作用。如果简单粗暴地采用单一频段的截断或平滑更新策略,往往会导致模型不可避免地丢失那些对于特定任务至关重要的非平稳信号和突变信息52。
|
||
现有频域适配方法已经初步证明频谱视角对参数更新建模的有效性,但多数方法仍采用单一频域结构假设,缺乏对跨频段依赖关系和多尺度异构更新模式的联合建模。
|
||
|
||
### **2.4.3 参数容量分配与结构学习**
|
||
|
||
与频谱层面的多尺度异质性紧密并行并相互交织的,是大规模预训练模型在面对多任务和复杂适配场景时,所不可避免暴露出的参数容量分配不均及结构冗余问题40。传统的微调方法无论是全量微调还是简单的 LoRA 注入,都高度依赖于人类专家预先设定且全局固定的容量结构配置。然而,在面对实际部署中计算资源、显存或存储空间受到严苛约束的边界条件(Budgeted Adaptation)时,这种僵化、硬编码的参数配额往往导致极其宝贵的计算资源流向了冗余模块,造成了深度的浪费与次优的泛化40。
|
||
在更广泛、底层的神经网络结构学习(Structure Learning)与拓扑优化学术文献中,神经架构搜索(Neural Architecture Search, NAS)的兴起以及“彩票假说(Lottery Ticket Hypothesis)”的提出,已经从严谨的理论和海量实验中无可辩驳地证实:在即使是表现极其平庸的庞大密集网络中,也往往隐秘地嵌套着一组极其稀疏、具有极佳连通性与权重的子网络结构。如果在训练初期就能发现并提取这些子网络,其最终优化收敛的效果和速度足以媲美甚至大幅超越原始的全量稠密网络参数58。
|
||
在将这一深刻理念引申至当下的 LLM 多任务适配与对齐领域时,立刻激发了关于跨任务“共享(Shared)”容量与特定任务“特有(Specific)”容量进行动态分解和分配的迫切需求40。例如,在多模态理解融合或跨域知识迁移研究中,研究者们常常构建 Shared-Specific 特征解耦模型。他们通过多任务辅助损失或对抗学习策略,显式且强制地切分网络层:决定哪些神经元、投影矩阵或具体的 LoRA 适配器应当专门用于吸收提取所有任务的底层共性表达,而哪些又必须被绝对隔离,专用于捕捉个别维度的特殊数据偏差与分布特征40。
|
||
然而,针对当前大语言模型这种具有极端且庞大过参数化属性、内部注意力交互错综复杂的非线性系统,要想在严格限定的全局总体参数预算或稀疏度限制下,对其所有层、所有模块和维度进行全局最优的联合容量分配,本质上构成了一个算力开销极大的 NP-hard 组合优化问题。目前业界依然极度缺乏一种行之有效、计算轻量的基础机制,能够从模型底层的低秩表示特性和稀疏矩阵分解的数学本质出发,将这种原本复杂的结构容量异质性,优雅地转化、映射为一种高效可微的结构寻优和预算规划过程。
|
||
尽管已有研究开始关注参数选择与结构学习问题,但在多任务条件下,如何在统一预算约束下实现共享与任务特有参数的联合分配,仍缺乏系统化的方法框架。
|
||
|
||
## ---
|
||
|
||
**2.5 本章小结**
|
||
|
||
本章从大语言模型的架构基础机制出发,系统并层层递进地综述了参数高效适配方法(PEFT)的主流范式、多任务学习的困境与专家路由策略,以及前沿的结构异质性感知与频域/空域适配研究。通过细致剖析 Transformer 内在的注意力与前馈神经网络的宏观功能分工、由旋转位置编码(RoPE)引入并放大的维度频带分化与离群激活特性,以及预训练网络权重自身蕴含的多尺度频谱偏置与容量冗余等特征,我们从物理与数学层面理清了大语言模型内部结构的异构本质。同时,对现有的低秩(如 LoRA)、附加式、稀疏等微调技术的全景式梳理深刻表明,单纯通过降低参数规模或压缩秩空间来提升微调效率的发展路线已经开始触及理论和性能的玻璃天花板,而复杂多任务场景下的严重梯度冲突和表征负迁移,则进一步放大了这一挑战。
|
||
贯穿上述庞杂文献与各项微调技术分析的交汇点,深刻揭示了一个不可忽视的核心事实:大语言模型内部绝非一个等价的参数黑箱。从信息路由的维度看,不同模块在知识承载与逻辑传递上各司其职;从空间表征的维度看,不同隐层维度在位置感应与远近上下文捕捉中具有显著的频带偏移;从参数组织的维度看,不同权重簇在多尺度频域空间与多任务学习机制中,需要极度不均匀、甚至是对立的更新模式与容量配额。然而,目前的参数高效微调方法普遍陷入并在很大程度上固守着一种“结构盲目”的均匀适配假设。这种缺乏细粒度感知能力的静态分配,从根本上阻碍了模型在极低且受限资源预算下,去最大化激活和释放预训练参数中潜藏的效能与灵活性。
|
||
因此,彻底放弃“一把抓”的均匀适配旧有范式,转而构建一套能够精确诊断、捕捉并利用上述各层级异质性差异的**结构感知(Structure-Aware)适配统一框架**,已成为突破大语言模型高效迁移瓶颈、推动下一代大语言模型落地的必由之路。
|
||
为奠定后续章节展开的统一方法论基础,本文基于前述归纳的四类结构异质性现象,抽象并定义了统一的结构感知调制算子:
|
||
|
||
$$\\tilde{\\mathbf{Z}}^{(\\ell)}=\\mathcal{M}\_{\\theta}\\big(\\mathbf{Z}^{(\\ell)};\\mathbf{X},\\mathcal{R}\\big)$$
|
||
其中,$\\mathbf{Z}^{(\\ell)}$ 为第 $\\ell$ 层的中间表示向量或参数矩阵,$\\mathbf{X}$ 为输入样本,$\\mathcal{M}\_{\\theta}$ 为结构感知调制模块,而 $\\mathcal{R}$ 则是表征特定结构角色差异的描述符。全文围绕这一算子框架,在表示空间与参数空间的二分主线下,设计了下表所示的由宏观粗粒度走向微观细粒度、由静态走向动态的多层级递进式适配方法体系:
|
||
|
||
| 结构异质性类型 | 描述符 | 调制形式 | 适配空间 | 方法 | 章节 |
|
||
| :---- | :---- | :---- | :---- | :---- | :---- |
|
||
| **模块级功能异质性** | $\\mathcal{R}\_{mod}$ | 乘性调制 | 表示空间 | HyCAM | 第三章 |
|
||
| **维度级位置结构异质性** | $\\mathcal{R}\_{dim}$ | 乘性调制 | 表示空间 | RoSA | 第四章 |
|
||
| **维度级位置结构异质性** | $\\mathcal{R}\_{dim}$ | 乘性调制 | 表示空间 | DyPAM | 第五章 |
|
||
| **频谱级多尺度异质性** | $\\mathcal{R}\_{spec}$ | 组合式调制 | 参数空间 | CASCADE | 第六章 |
|
||
| **参数级容量分配异质性** | $\\mathcal{R}\_{param}$ | 结构分解调制 | 参数空间 | MESSA | 第六章 |
|
||
|
||
如表所示,该体系将沿着“**表示空间**:模块级 $\\rightarrow$ 维度级”以及“**参数空间**:频谱结构 $\\rightarrow$ 容量分配”的双螺旋路径深入展开。在表示空间的维度级适配中,RoSA 被设计为面向静态、粗粒度的位置结构感知适配;而 DyPAM 则进一步深化,聚焦于动态、细粒度的位置结构感知调制。基于本章梳理的上述理论体系与统一映射框架,本文将正式进入逐层的方法设计。下一章(第三章)将首先从最外层的模块级功能分化入手,探讨如何通过上下文注意力调制框架(HyCAM),来彻底解决多任务复杂条件下的宏观功能角色感知与特征融合适配难题。
|
||
|
||
#### **引用的著作**
|
||
|
||
1. LLM Interview Series(3): Transformers Explained — Attention Is All You Need \- DEV \- Dev.to, 访问时间为 三月 19, 2026, [https://dev.to/jackm\_345442a09fb53b/llm-interview-series3-transformers-explained-attention-is-all-you-need-523o](https://dev.to/jackm_345442a09fb53b/llm-interview-series3-transformers-explained-attention-is-all-you-need-523o)
|
||
2. LLM's Simplified — Feed Forward Network (FFN) | by Sampath Kumaran Ganesan | Medium, 访问时间为 三月 19, 2026, [https://sampathkumaran.medium.com/llms-simplified-feed-forward-network-ffn-24ec761e664a](https://sampathkumaran.medium.com/llms-simplified-feed-forward-network-ffn-24ec761e664a)
|
||
3. PEFT Techniques- LoRA, AdaLoRA, QLoRA, DoRA, DyLoRA | by Ayushi Gupta | Medium, 访问时间为 三月 19, 2026, [https://medium.com/@ayushigupta9723/peft-techniques-lora-adalora-qlora-dora-61fbb375f338](https://medium.com/@ayushigupta9723/peft-techniques-lora-adalora-qlora-dora-61fbb375f338)
|
||
4. Layerwise Importance Analysis of Feed-Forward Networks in Transformer-based Language Models \- arXiv, 访问时间为 三月 19, 2026, [https://arxiv.org/html/2508.17734v1](https://arxiv.org/html/2508.17734v1)
|
||
5. Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space | Request PDF \- ResearchGate, 访问时间为 三月 19, 2026, [https://www.researchgate.net/publication/372924802\_Transformer\_Feed-Forward\_Layers\_Build\_Predictions\_by\_Promoting\_Concepts\_in\_the\_Vocabulary\_Space](https://www.researchgate.net/publication/372924802_Transformer_Feed-Forward_Layers_Build_Predictions_by_Promoting_Concepts_in_the_Vocabulary_Space)
|
||
6. Simple Guide to RoPE Scaling in Large Language Models \- Floating Bytes, 访问时间为 三月 19, 2026, [https://saraswatmks.github.io/2025/12/rope-scaling-llms.html](https://saraswatmks.github.io/2025/12/rope-scaling-llms.html)
|
||
7. Rethinking RoPE: A Mathematical Blueprint for N-dimensional Rotary Positional Embedding, 访问时间为 三月 19, 2026, [https://arxiv.org/html/2504.06308v2](https://arxiv.org/html/2504.06308v2)
|
||
8. BASE FREQUENCY AND CONTEXT LENGTH SHAPE THE INTERPOLATION–EXTRAPOLATION TRADE-OFF \- OpenReview, 访问时间为 三月 19, 2026, [https://openreview.net/pdf/4dd46cea98fadb375d28fcf897debdf638db365b.pdf](https://openreview.net/pdf/4dd46cea98fadb375d28fcf897debdf638db365b.pdf)
|
||
9. RoSA: Enhancing Parameter-Efficient Fine-Tuning via RoPE-aware Selective Adaptation in Large Language Models \- arXiv, 访问时间为 三月 19, 2026, [https://arxiv.org/html/2511.21733v1](https://arxiv.org/html/2511.21733v1)
|
||
10. RoPE (Rotary Position Embeddings): A Detailed Example \- Towards AI, 访问时间为 三月 19, 2026, [https://towardsai.net/p/machine-learning/rope-rotary-position-embeddings-a-detailed-example](https://towardsai.net/p/machine-learning/rope-rotary-position-embeddings-a-detailed-example)
|
||
11. The Dark Side of RoPE: The Hidden Cost of Rotating Space | by Cengizhan Bayram, 访问时间为 三月 19, 2026, [https://medium.com/@cenghanbayram35/the-dark-side-of-rope-the-hidden-cost-of-rotating-space-47d1173b5c8e](https://medium.com/@cenghanbayram35/the-dark-side-of-rope-the-hidden-cost-of-rotating-space-47d1173b5c8e)
|
||
12. The Heterogeneous Feature of RoPE-based Attention in Long-Context LLMs, 访问时间为 三月 19, 2026, [https://huggingface.co/blog/SII-xrliu/heterogeneous-features](https://huggingface.co/blog/SII-xrliu/heterogeneous-features)
|
||
13. Contextual Attention Modulation: Towards Efficient Multi-Task Adaptation in Large Language Models \- arXiv.org, 访问时间为 三月 19, 2026, [https://arxiv.org/html/2510.17705v1](https://arxiv.org/html/2510.17705v1)
|
||
14. (PDF) Transformer Feed-Forward Layers Are Key-Value Memories \- ResearchGate, 访问时间为 三月 19, 2026, [https://www.researchgate.net/publication/348079179\_Transformer\_Feed-Forward\_Layers\_Are\_Key-Value\_Memories](https://www.researchgate.net/publication/348079179_Transformer_Feed-Forward_Layers_Are_Key-Value_Memories)
|
||
15. Stable Anisotropic Regularization \- OpenReview, 访问时间为 三月 19, 2026, [https://openreview.net/forum?id=dbQH9AOVd5](https://openreview.net/forum?id=dbQH9AOVd5)
|
||
16. \[Replication\] "Transformer Feed-Forward Layers Are Key-Value Memories" · Issue \#5 · EleutherAI/project-menu \- GitHub, 访问时间为 三月 19, 2026, [https://github.com/EleutherAI/project-menu/issues/5](https://github.com/EleutherAI/project-menu/issues/5)
|
||
17. A Framework for Domain-Specific Dataset Creation and Adaptation of Large Language Models \- MDPI, 访问时间为 三月 19, 2026, [https://www.mdpi.com/2073-431X/14/5/172](https://www.mdpi.com/2073-431X/14/5/172)
|
||
18. (PDF) Contextual Attention Modulation: Towards Efficient Multi-Task Adaptation in Large Language Models \- ResearchGate, 访问时间为 三月 19, 2026, [https://www.researchgate.net/publication/396716478\_Contextual\_Attention\_Modulation\_Towards\_Efficient\_Multi-Task\_Adaptation\_in\_Large\_Language\_Models](https://www.researchgate.net/publication/396716478_Contextual_Attention_Modulation_Towards_Efficient_Multi-Task_Adaptation_in_Large_Language_Models)
|
||
19. Not all parameters are born equal: Attention is mostly what you need \- ACL Anthology, 访问时间为 三月 19, 2026, [https://aclanthology.org/2021.blackboxnlp-1.28/](https://aclanthology.org/2021.blackboxnlp-1.28/)
|
||
20. Heterogeneity in Entity Matching: A Survey and Experimental Analysis \- arXiv.org, 访问时间为 三月 19, 2026, [https://arxiv.org/html/2508.08076v1](https://arxiv.org/html/2508.08076v1)
|
||
21. A Pure Transformer Pretraining Framework on Text-attributed Graphs \- PMC, 访问时间为 三月 19, 2026, [https://pmc.ncbi.nlm.nih.gov/articles/PMC12416796/](https://pmc.ncbi.nlm.nih.gov/articles/PMC12416796/)
|
||
22. Transformer Feed-Forward Layers Are Key-Value Memories \- ACL Anthology, 访问时间为 三月 19, 2026, [https://aclanthology.org/2021.emnlp-main.446.pdf](https://aclanthology.org/2021.emnlp-main.446.pdf)
|
||
23. \[2012.14913\] Transformer Feed-Forward Layers Are Key-Value Memories \- arXiv, 访问时间为 三月 19, 2026, [https://arxiv.org/abs/2012.14913](https://arxiv.org/abs/2012.14913)
|
||
24. Not all parameters are born equal: Attention is mostly what you need \- Semantic Scholar, 访问时间为 三月 19, 2026, [https://www.semanticscholar.org/paper/Not-all-parameters-are-born-equal%3A-Attention-is-you-Bogoychev/947bec3b6ccb112aea56da230560207ac800ee2b](https://www.semanticscholar.org/paper/Not-all-parameters-are-born-equal%3A-Attention-is-you-Bogoychev/947bec3b6ccb112aea56da230560207ac800ee2b)
|
||
25. Not all parameters are born equal: Attention is mostly what you need \- ACL Anthology, 访问时间为 三月 19, 2026, [https://aclanthology.org/2021.blackboxnlp-1.28.pdf](https://aclanthology.org/2021.blackboxnlp-1.28.pdf)
|
||
26. Exploring Anisotropy and Outliers in Multilingual \- Scribd, 访问时间为 三月 19, 2026, [https://www.scribd.com/document/892260775/Exploring-Anisotropy-and-Outliers-in-Multilingual](https://www.scribd.com/document/892260775/Exploring-Anisotropy-and-Outliers-in-Multilingual)
|
||
27. Disentangling Geometry, Performance, and Training in Language Models \- ResearchGate, 访问时间为 三月 19, 2026, [https://www.researchgate.net/publication/401188613\_Disentangling\_Geometry\_Performance\_and\_Training\_in\_Language\_Models](https://www.researchgate.net/publication/401188613_Disentangling_Geometry_Performance_and_Training_in_Language_Models)
|
||
28. \[2305.19358\] Stable Anisotropic Regularization \- arXiv, 访问时间为 三月 19, 2026, [https://arxiv.org/abs/2305.19358](https://arxiv.org/abs/2305.19358)
|
||
29. Parameter-Efficient Fine-Tuning via Selective Discrete Cosine Transform \- arXiv, 访问时间为 三月 19, 2026, [https://arxiv.org/html/2410.09103v1](https://arxiv.org/html/2410.09103v1)
|
||
30. Conflict-Averse Gradient Descent for Multi-task Learning \- NeurIPS, 访问时间为 三月 19, 2026, [https://proceedings.neurips.cc/paper/2021/file/9d27fdf2477ffbff837d73ef7ae23db9-Paper.pdf](https://proceedings.neurips.cc/paper/2021/file/9d27fdf2477ffbff837d73ef7ae23db9-Paper.pdf)
|
||
31. RoSA: Enhancing Parameter-Efficient Fine-Tuning via ... \- BIGSCity, 访问时间为 三月 19, 2026, [https://www.bigscity.com/app/download/12941806112/RoSA-+Enhancing+Parameter-Efficient+Fine-Tuning+via+RoPE-aware+Selective+Adaptation+in+Large+Language+Models.pdf?t=1764733647](https://www.bigscity.com/app/download/12941806112/RoSA-+Enhancing+Parameter-Efficient+Fine-Tuning+via+RoPE-aware+Selective+Adaptation+in+Large+Language+Models.pdf?t=1764733647)
|
||
32. RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation \- arXiv, 访问时间为 三月 19, 2026, [https://arxiv.org/html/2401.04679v4](https://arxiv.org/html/2401.04679v4)
|
||
33. LoRaDA: Low-Rank Direct Attention Adaptation for Efficient LLM Fine-tuning, 访问时间为 三月 19, 2026, [https://aclanthology.org/2025.findings-emnlp.676/](https://aclanthology.org/2025.findings-emnlp.676/)
|
||
34. PEML: Parameter-efficient Multi-Task Learning with Optimized Continuous Prompts, 访问时间为 三月 19, 2026, [https://openreview.net/forum?id=lnH5YFPcxZ](https://openreview.net/forum?id=lnH5YFPcxZ)
|
||
35. \[2511.21733\] RoSA: Enhancing Parameter-Efficient Fine-Tuning via RoPE-aware Selective Adaptation in Large Language Models \- arXiv.org, 访问时间为 三月 19, 2026, [https://arxiv.org/abs/2511.21733](https://arxiv.org/abs/2511.21733)
|
||
36. Entropy Reveals Block Importance in Masked Self-Supervised Vision Transformers \- arXiv, 访问时间为 三月 19, 2026, [https://arxiv.org/html/2602.03918v1](https://arxiv.org/html/2602.03918v1)
|
||
37. Efficient Fine-Tuning via Behavior-Guided Spectral Alignment | OpenReview, 访问时间为 三月 19, 2026, [https://openreview.net/forum?id=edgZd6BVzx](https://openreview.net/forum?id=edgZd6BVzx)
|
||
38. Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models \- arXiv, 访问时间为 三月 19, 2026, [https://arxiv.org/html/2601.14004v2](https://arxiv.org/html/2601.14004v2)
|
||
39. Frequency Bands in RoPE: Base Frequency and Context Length Shape the Interpolation–Extrapolation Trade-off | OpenReview, 访问时间为 三月 19, 2026, [https://openreview.net/forum?id=PR1PPxvG9Q](https://openreview.net/forum?id=PR1PPxvG9Q)
|
||
40. Multi-modal Learning with Missing Modality via Shared-Specific Feature Modelling | CVF Open Access, 访问时间为 三月 19, 2026, [https://openaccess.thecvf.com/content/CVPR2023/papers/Wang\_Multi-Modal\_Learning\_With\_Missing\_Modality\_via\_Shared-Specific\_Feature\_Modelling\_CVPR\_2023\_paper.pdf](https://openaccess.thecvf.com/content/CVPR2023/papers/Wang_Multi-Modal_Learning_With_Missing_Modality_via_Shared-Specific_Feature_Modelling_CVPR_2023_paper.pdf)
|
||
41. HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou \- arXiv, 访问时间为 三月 19, 2026, [https://arxiv.org/html/2408.05430v1](https://arxiv.org/html/2408.05430v1)
|
||
42. Disentangling Task Conflicts in Multi-Task LoRA via Orthogonal Gradient Projection \- arXiv, 访问时间为 三月 19, 2026, [https://arxiv.org/html/2601.09684v1](https://arxiv.org/html/2601.09684v1)
|
||
43. \[2110.14048\] Conflict-Averse Gradient Descent for Multi-task Learning \- arXiv, 访问时间为 三月 19, 2026, [https://arxiv.org/abs/2110.14048](https://arxiv.org/abs/2110.14048)
|
||
44. Implement PCGrad (Projecting Conflicting Gradients) for Multi-Task Optimization · Issue \#51 · 0-5788719150923125/praxis \- GitHub, 访问时间为 三月 19, 2026, [https://github.com/0-5788719150923125/praxis/issues/51](https://github.com/0-5788719150923125/praxis/issues/51)
|
||
45. Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval, 访问时间为 三月 19, 2026, [https://sigir-2024.github.io/proceedings.html](https://sigir-2024.github.io/proceedings.html)
|
||
46. Multi-Task Low-Rank Model Adaptation | OpenReview, 访问时间为 三月 19, 2026, [https://openreview.net/forum?id=L3RSb9yTlL](https://openreview.net/forum?id=L3RSb9yTlL)
|
||
47. Scalable Multi-Task Low-Rank Model Adaptation \- arXiv.org, 访问时间为 三月 19, 2026, [https://arxiv.org/html/2603.01526v1](https://arxiv.org/html/2603.01526v1)
|
||
48. CVPR Poster MTLoRA: Low-Rank Adaptation Approach for Efficient Multi-Task Learning, 访问时间为 三月 19, 2026, [https://cvpr.thecvf.com/virtual/2024/poster/31243](https://cvpr.thecvf.com/virtual/2024/poster/31243)
|
||
49. Rethinking RoPE Scaling in Quantized LLM: Theory, Outlier, and Channel-Band Analysis with Weight Rescaling \- arXiv.org, 访问时间为 三月 19, 2026, [https://arxiv.org/html/2510.00028v1](https://arxiv.org/html/2510.00028v1)
|
||
50. Adaptive multi-scale phase-aware fusion network for EEG seizure recognition \- PMC, 访问时间为 三月 19, 2026, [https://pmc.ncbi.nlm.nih.gov/articles/PMC12340438/](https://pmc.ncbi.nlm.nih.gov/articles/PMC12340438/)
|
||
51. On the Spectral Bias of Neural Networks \- Proceedings of Machine Learning Research, 访问时间为 三月 19, 2026, [http://proceedings.mlr.press/v97/rahaman19a/rahaman19a.pdf](http://proceedings.mlr.press/v97/rahaman19a/rahaman19a.pdf)
|
||
52. Training Behavior of Deep Neural Network in Frequency Domain \- ResearchGate, 访问时间为 三月 19, 2026, [https://www.researchgate.net/publication/337922791\_Training\_Behavior\_of\_Deep\_Neural\_Network\_in\_Frequency\_Domain](https://www.researchgate.net/publication/337922791_Training_Behavior_of_Deep_Neural_Network_in_Frequency_Domain)
|
||
53. Deep Learning in Practice, 访问时间为 三月 19, 2026, [https://www.lri.fr/\~gcharpia/deeppractice/chap\_2.html](https://www.lri.fr/~gcharpia/deeppractice/chap_2.html)
|
||
54. FreqLLM: Frequency-Aware Large Language Models for Time Series Forecasting \- IJCAI, 访问时间为 三月 19, 2026, [https://www.ijcai.org/proceedings/2025/0377.pdf](https://www.ijcai.org/proceedings/2025/0377.pdf)
|
||
55. Wavelet Enhanced Adaptive Frequency Filter for Sequential Recommendation \- arXiv, 访问时间为 三月 19, 2026, [https://arxiv.org/html/2511.07028v2](https://arxiv.org/html/2511.07028v2)
|
||
56. Semantic Agreement Enables Efficient Open-Ended LLM Cascades \- arXiv, 访问时间为 三月 19, 2026, [https://arxiv.org/html/2509.21837v1](https://arxiv.org/html/2509.21837v1)
|
||
57. Open-source LLMs for text annotation: a practical guide for model setting and fine-tuning \- ZORA, 访问时间为 三月 19, 2026, [https://www.zora.uzh.ch/server/api/core/bitstreams/e4a2251b-12d0-4445-9371-6643b205176f/content](https://www.zora.uzh.ch/server/api/core/bitstreams/e4a2251b-12d0-4445-9371-6643b205176f/content)
|
||
58. Main Track \- AAAI.org, 访问时间为 三月 19, 2026, [https://aaai.org/wp-content/uploads/2023/12/Main-Track.pdf](https://aaai.org/wp-content/uploads/2023/12/Main-Track.pdf)
|
||
59. Scaling Low-Resource MT via Synthetic Data Generation with LLMs \- ACL Anthology, 访问时间为 三月 19, 2026, [https://aclanthology.org/2025.emnlp-main.1408.pdf](https://aclanthology.org/2025.emnlp-main.1408.pdf)
|
||
60. LLM-Driven Transient Stability Assessment: From Automated Simulation to Neural Architecture Design \- ResearchGate, 访问时间为 三月 19, 2026, [https://www.researchgate.net/publication/397984217\_LLM-Driven\_Transient\_Stability\_Assessment\_From\_Automated\_Simulation\_to\_Neural\_Architecture\_Design](https://www.researchgate.net/publication/397984217_LLM-Driven_Transient_Stability_Assessment_From_Automated_Simulation_to_Neural_Architecture_Design) |