342 lines
46 KiB
TeX
342 lines
46 KiB
TeX
% !TeX root = main.tex
|
||
% 第二章 大语言模型表征适配的相关理论与研究进展
|
||
\chapter{大语言模型表征适配的相关理论与研究进展}
|
||
\label{chap:related_work}
|
||
|
||
本章围绕大语言模型的架构基础、参数高效适配方法、多任务学习机制以及结构异质性感知建模四个方面,对相关领域的研究进展进行系统梳理。第~\ref{sec:rw_llm_arch}~节介绍 Transformer 架构、旋转位置编码、预训练范式以及模型内部功能分化的研究基础;第~\ref{sec:rw_peft}~节综述参数高效微调方法的主要类别及其均匀适配局限;第~\ref{sec:rw_multitask}~节梳理多任务学习与模块级功能适配的相关工作;第~\ref{sec:rw_structure_aware}~节回顾围绕维度级异质性、频谱结构与参数容量分配的结构感知适配研究。上述梳理为第~\ref{sec:unified_framework}~节提出的统一分析框架以及后续各章方法设计提供文献基础与问题定位。
|
||
|
||
|
||
%======================================================================
|
||
\section{大语言模型架构基础与表示机制}
|
||
\label{sec:rw_llm_arch}
|
||
|
||
本节从架构、位置编码、预训练范式与模型内部功能分化四个方面,介绍大语言模型的表示学习基础,为后续方法章节提供统一的技术背景。
|
||
|
||
%----------------------------------------------------------------------
|
||
\subsection{Transformer 架构与核心计算流程}
|
||
\label{subsec:rw_transformer_arch}
|
||
|
||
Transformer 架构通过引入自注意力机制,实现了对序列内部全局依赖关系的并行建模,已成为当前大语言模型的基础架构\cite{vaswani2017attention}。现代大语言模型(如 LLaMA\cite{touvron2023llama}、Qwen\cite{bai2023qwen})普遍采用仅解码器(decoder-only)架构,由 $L$ 层 Transformer 块堆叠而成。每一层包含多头自注意力(Multi-Head Self-Attention, MHSA)模块与前馈网络(Feed-Forward Network, FFN)模块,并采用预归一化(Pre-LN)结构与残差连接。为保证自回归生成的因果性,模型引入下三角因果掩码(causal mask),使每个 token 仅能观测到其前驱上下文。
|
||
|
||
给定第 $\ell$ 层的输入隐藏表示 $\mathbf{H}^{(\ell-1)} \in \mathbb{R}^{T \times d}$(其中 $T$ 为序列长度,$d$ 为隐藏维度),该层的计算过程可概括为:
|
||
\begin{equation}
|
||
\bar{\mathbf{H}}^{(\ell)} = \mathrm{LayerNorm}(\mathbf{H}^{(\ell-1)}),
|
||
\end{equation}
|
||
\begin{equation}
|
||
\mathbf{H}_{att}^{(\ell)} = \mathrm{MHSA}(\bar{\mathbf{H}}^{(\ell)}) + \mathbf{H}^{(\ell-1)},
|
||
\end{equation}
|
||
\begin{equation}
|
||
\mathbf{H}^{(\ell)} = \mathrm{FFN}(\mathrm{LayerNorm}(\mathbf{H}_{att}^{(\ell)})) + \mathbf{H}_{att}^{(\ell)}.
|
||
\end{equation}
|
||
|
||
在多头自注意力模块中,输入表示经线性投影生成 Query、Key、Value 矩阵,并按注意力头数 $H$ 分割为 $d_h = d/H$ 维的子空间。第 $h$ 个注意力头的计算为:
|
||
\begin{equation}
|
||
\mathrm{Attention}^{(h)}(\mathbf{Q}^{(h)}, \mathbf{K}^{(h)}, \mathbf{V}^{(h)}) = \mathrm{softmax}\!\left(\frac{\mathbf{Q}^{(h)} \mathbf{K}^{(h)\top}}{\sqrt{d_h}}\right) \mathbf{V}^{(h)}.
|
||
\label{eq:ch2_attention}
|
||
\end{equation}
|
||
各头输出拼接后经线性投影得到 MHSA 最终输出。现代大语言模型还广泛采用分组查询注意力(Grouped Query Attention, GQA)以在保持模型容量的同时降低推理开销\cite{ainslie2023gqa}。
|
||
|
||
前馈网络模块通常采用门控线性单元(Gated Linear Unit)结构,以 SwiGLU 为典型代表:
|
||
\begin{equation}
|
||
\mathrm{FFN}(\mathbf{x}) = (\mathrm{SiLU}(\mathbf{x}\mathbf{W}_1) \odot \mathbf{x}\mathbf{W}_3) \mathbf{W}_2,
|
||
\end{equation}
|
||
其中 $\mathbf{W}_1, \mathbf{W}_2, \mathbf{W}_3$ 为可学习参数矩阵。FFN 在参数规模上通常占据 Transformer 块的三分之二以上,在模型表示能力中发挥重要作用。
|
||
|
||
从信息流动角度看,残差连接不仅缓解了深层网络的梯度消失问题,更重要的是将 Transformer 的前向计算转化为对中心残差流(residual stream)的迭代细化过程——每一层的 MHSA 与 FFN 都可以被理解为对残差流中隐藏状态的加性更新。层归一化则负责在每次更新前后对特征分布进行重整,确保表示空间的统计稳定性。因此,Transformer 的表示形成过程由注意力、前馈、残差与归一化等多个功能组件协同完成,而非单一均匀结构,这为后续从模块、维度与参数空间分析适配问题提供了结构基础。
|
||
|
||
\begin{figure}[htbp]
|
||
\centering
|
||
% 占位:待替换为外部绘制的 2_transformer_block.pdf
|
||
% \includegraphics[width=0.75\textwidth]{assets/2_transformer_block.pdf}
|
||
\caption[基于Pre-LN结构的Transformer解码器块示意图]{基于Pre-LN结构的Transformer解码器块示意图。该图展示单个Transformer层的完整计算流程:
|
||
输入隐藏状态$\mathbf{H}^{(\ell-1)}$首先经LayerNorm归一化,进入多头自注意力(MHSA)模块,其中Query/Key经RoPE旋转后计算带因果掩码的缩放点积注意力,Value不经旋转直接参与加权聚合;MHSA输出经残差连接后再经LayerNorm,进入采用SwiGLU结构的前馈网络(FFN)模块,最终经残差连接输出$\mathbf{H}^{(\ell)}$。
|
||
图中应标注以下结构异质性关注点:(1)MHSA与FFN之间的功能分工(上下文路由 vs 知识存储)标注为$\mathcal{R}_{mod}$;(2)MHSA内部不同维度对的RoPE频率差异标注为$\mathcal{R}_{dim}$;(3)权重矩阵$\mathbf{W}$上的参数更新结构标注为$\mathcal{R}_{spec}$/$\mathcal{R}_{param}$。}
|
||
\label{fig:ch2_transformer_block}
|
||
\end{figure}
|
||
|
||
%----------------------------------------------------------------------
|
||
\subsection{旋转位置编码与位置信息建模}
|
||
\label{subsec:rw_rope}
|
||
|
||
自注意力机制本身具有置换不变性,不编码任何序列顺序信息,因此需要外部机制将位置信息注入注意力计算。早期工作采用绝对位置嵌入或基于正弦函数的固定编码\cite{vaswani2017attention},但这些方法在长序列外推方面存在局限。旋转位置编码(Rotary Position Embedding, RoPE)通过对 Query 和 Key 向量施加位置相关的旋转变换来编码相对位置关系,已被 LLaMA、Qwen、Mistral 等主流大语言模型广泛采用\cite{su2024roformer}。
|
||
|
||
具体而言,RoPE 将每个注意力头向量 $\mathbf{z} \in \mathbb{R}^{d_h}$($d_h$ 为偶数)的维度两两配对,将每对 $(z_{2i}, z_{2i+1})$ 视为复数分量,施加依赖于位置 $t$ 和维度索引 $i$ 的二维旋转:
|
||
\begin{equation}
|
||
\mathrm{RoPE}(z_{2i}, z_{2i+1}; t) =
|
||
\begin{bmatrix}
|
||
\cos \theta_i t & -\sin \theta_i t \\
|
||
\sin \theta_i t & \cos \theta_i t
|
||
\end{bmatrix}
|
||
\begin{bmatrix}
|
||
z_{2i} \\
|
||
z_{2i+1}
|
||
\end{bmatrix},
|
||
\label{eq:ch2_rope}
|
||
\end{equation}
|
||
其中旋转频率 $\theta_i = \omega^{-2i/d_h}$,$\omega$ 为基础频率常数(通常取 $10000$,在支持长文本的模型中可扩展至更大值)。该设计使不同维度对的旋转频率按几何级数递减:低索引维度对对应高频旋转,编码局部位置差异;高索引维度对对应低频旋转,编码全局上下文依赖。
|
||
|
||
RoPE 最显著的特性在于其呈现出一种频率分解结构(frequency decomposition structure)。经旋转后两个位置 $t_1$ 与 $t_2$ 之间的注意力得分仅依赖于它们的相对位置差 $t_1 - t_2$,且不同维度对在注意力得分中的贡献随相对距离呈现截然不同的衰减模式:低频维度对即使在较长距离上仍能维持较高的注意力得分,而高频维度对的注意力随距离迅速衰减\cite{barbero2024round}。近年的进一步分析还从频谱视角指出,RoPE 的位置—内容耦合实质上对应一种相位调制过程,使其不仅是"给序列加位置",而是在表示空间中塑造了具有频率结构的几何变换。这种多尺度的位置响应特性使同一表示向量中不同维度对在位置信息编码中承担不同功能角色,构成了维度级位置结构异质性的直接来源。
|
||
|
||
除 RoPE 之外,ALiBi\cite{press2021train} 通过在注意力分数上施加线性距离偏移实现位置建模,不直接修改表示向量,在长度外推方面具有特定优势。可学习绝对位置嵌入则依赖训练长度范围内的位置索引,通常在外推性上不如相对位置方法。由于 RoPE 在当前主流大语言模型中的广泛应用及其对模型内部表示结构的深刻影响,本文后续第四、五章的方法均以 RoPE 机制为基础展开设计。
|
||
|
||
\begin{figure}[htbp]
|
||
\centering
|
||
% 占位:待替换为外部绘制的 2_rope_frequency.pdf
|
||
% \includegraphics[width=0.85\textwidth]{assets/2_rope_frequency.pdf}
|
||
\caption[RoPE旋转位置编码的频率分解结构示意图]{RoPE旋转位置编码的频率分解结构示意图。该图分为三个子图:
|
||
\textbf{(a)维度对旋转频率}:横轴为维度对索引$i$,纵轴为旋转频率$\theta_i = \omega^{-2i/d_h}$(对数刻度),展示频率随维度索引几何递减的趋势,标注低索引=高频(局部位置敏感)与高索引=低频(全局依赖)两个区域。
|
||
\textbf{(b)位置响应衰减曲线}:横轴为相对位置距离$|t_1 - t_2|$,纵轴为注意力得分贡献,绘制3--4条代表性维度对的衰减曲线(高频对快速衰减、低频对缓慢衰减),直观展示不同维度对的多尺度位置感知特性。
|
||
\textbf{(c)维度对旋转示意}:选取一个高频维度对和一个低频维度对,在复平面上展示位置$t$从$0$到$T$时向量旋转轨迹的差异——高频对旋转多圈、低频对仅旋转小角度。}
|
||
\label{fig:ch2_rope_frequency}
|
||
\end{figure}
|
||
|
||
%----------------------------------------------------------------------
|
||
\subsection{预训练范式与大语言模型的表示能力}
|
||
\label{subsec:rw_pretrain_paradigm}
|
||
|
||
现代大语言模型遵循"海量预训练—任务适配/对齐"的基本范式。通过在包含数万亿词元的大规模语料上进行自回归下一词预测训练,模型在统一的参数体系中构建具有较强表达能力的通用表示空间。BERT 通过掩码语言建模构建双向语境表示\cite{devlin2018bert};% 注:需补充到ref.bib: devlin2019bert (Devlin et al., BERT, NAACL 2019)
|
||
GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-context learning 能力\cite{brown2020language}。随着模型规模的持续扩展,以 LLaMA\cite{touvron2023llama}、Qwen\cite{bai2023qwen} 和 Gemma\cite{gemma_2025} 为代表的开源大语言模型在语言理解、知识表达、多步推理与代码生成方面展现出显著能力。
|
||
|
||
大规模预训练使模型在表示空间中形成了高度抽象的通用知识结构,各层中间表示不仅捕获了浅层的词法与句法信息,还蕴含了深层的语义共现、常识推理乃至高阶逻辑关系\cite{bommasani2021opportunities}。然而,预训练能力强并不意味着可以直接替代任务适配:预训练目标与下游任务目标并不完全一致,面向特定领域、特定格式或特定推理模式的能力往往需要通过监督信号或偏好信号进行再组织;更重要的是,当模型规模达到百亿级别时,全参数微调不仅面临极高的计算与存储开销,还极易破坏预训练阶段积累的通用知识结构,导致灾难性遗忘(catastrophic forgetting)与表征退化。
|
||
|
||
因此,预训练模型提供的是强大的通用表示底座,而非自动完成任务特化的终点。真正决定这些预训练能力能否被有效调用的,仍然是适配机制如何作用于模型内部表示与参数结构。如何以极低的参数预算在保持通用知识的前提下实现高效任务特化,成为当前研究的核心课题。
|
||
|
||
%----------------------------------------------------------------------
|
||
\subsection{模型内部的功能分化与结构异质性}
|
||
\label{subsec:rw_functional_differentiation}
|
||
|
||
越来越多的研究表明,Transformer 并非功能均匀的整体,其内部不同组件在信息处理中承担着差异化的角色。这些发现构成了理解模型结构异质性的重要基础。
|
||
|
||
\textbf{模块间的功能分化。}Geva 等人的开创性工作将前馈网络的两层线性映射解构为键值记忆结构:第一层权重(keys)负责识别输入残差流中的局部概念模式,第二层权重(values)则负责提取并注入与该模式相关的特征\cite{geva2021transformer}。Dong 等人从注意力与前馈网络的协同角度出发,揭示了二者在上下文信息路由与知识存储方面的互补关系\cite{dong2025attention}。Bogoychev 等人的参数冻结与消融实验进一步证实,冻结不同网络结构单元(嵌入层、注意力层或 FFN 层)会对模型性能造成完全不同程度的影响,从侧面说明"并非所有参数对任务贡献均等"\cite{bogoychev2021not}。% 注:需补充到ref.bib: bogoychev2021not (Bogoychev, Not All Parameters Are Born Equal: Attention Is Mostly What You Need, BlackboxNLP 2021)
|
||
这些发现表明,自注意力模块主要承担上下文关系的动态组织与信息路由功能,而前馈网络更多承担参数化知识表达与非线性映射功能。
|
||
|
||
\textbf{层间的角色梯度。}Belinkov 等人通过探针(probing)实验表明,浅层表示更多编码词汇与句法层面的局部信息,深层表示则更多反映语义与推理层面的全局关系,呈现出类似传统 NLP 流水线的层级进展\cite{belinkov2018evaluating}。这种层级功能梯度意味着不同深度的层对参数更新的需求强度与方式可能存在系统性差异——浅层可能更多需要局部模式的校准,深层可能更多需要语义关系的重组。
|
||
|
||
\textbf{头间的功能差异。}在多头注意力层面,Voita 等人发现不同注意力头在功能上存在明确分工,包括位置敏感头、语法关系头与稀有词汇头等不同类型\cite{voita2019bottom};Michel 等人的剪枝实验进一步表明,大量注意力头在推理阶段可被移除而不显著影响模型性能,暗示头之间存在功能冗余与角色差异\cite{michel2019sixteen}。在更深入的机制可解释性(mechanistic interpretability)研究中,Olsson 等人识别出与 in-context learning 能力增长密切相关的 induction heads,表明部分注意力头可被归纳为具有明确算法功能的"电路"(circuits)组件\cite{olsson2022context}。% 注:需补充到ref.bib: olsson2022context (Olsson et al., In-context Learning and Induction Heads, Anthropic 2022)
|
||
这些发现强化了"模型内部存在可分解子结构与角色分工"的认识。
|
||
|
||
\textbf{维度间的非均匀分布。}Jin 等人发现的"极端激活值"(Massive Activations)现象表明,少数特定维度在模型前向计算中产生远超其他维度的激活幅值,且这些维度承担着上下文信息编码的关键功能\cite{jin2025massive}。这些极端激活并非简单的数值异常,而是与注意力集中、量化稳定性乃至预测行为存在因果关联。结合第~\ref{subsec:rw_rope}~节所述 RoPE 位置编码引入的频率结构,模型表示在维度空间中呈现出系统性的结构分化。
|
||
|
||
\textbf{参数更新的频谱结构。}从训练动态角度看,深度网络在训练过程中存在频谱偏置(spectral bias),即优先拟合低频分量,对高频细节的学习相对缓慢\cite{rahaman2019spectral}。% 注:需补充到ref.bib: rahaman2019spectral (Rahaman et al., On the Spectral Bias of Neural Networks, ICML 2019)
|
||
这意味着权重更新矩阵在频域中具有非均匀的能量分布,不同频率分量承载着不同尺度的适配信息。
|
||
|
||
上述发现从模块、层、头、维度与参数更新等多个角度揭示了大语言模型内部的结构复杂性。这些实证证据表明,模型自身并非均匀结构,因此下游适配也不宜默认所有结构位置具有近似一致的更新价值,而应考虑不同结构角色的差异化作用。这一认识为第~\ref{sec:unified_framework}~节构建的结构感知适配统一分析框架提供了实证依据。
|
||
|
||
|
||
%======================================================================
|
||
\section{参数高效微调方法}
|
||
\label{sec:rw_peft}
|
||
|
||
随着大语言模型参数规模的持续增长,全参数微调所带来的计算与存储开销逐渐成为制约模型应用的瓶颈。参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法通过引入少量可训练参数 $\Theta_a$,在保持预训练参数 $\Theta_0$ 基本不变的前提下实现任务特定适配,使适配后模型参数可表示为 $\Theta = \Theta_0 + \Delta\Theta(\Theta_a)$\cite{ding2023parameter,han2024parameter}。根据参数化方式的不同,现有 PEFT 方法大致可划分为低秩适配、附加式与提示类适配、选择式与稀疏微调三类。
|
||
|
||
%----------------------------------------------------------------------
|
||
\subsection{低秩适配方法}
|
||
\label{subsec:rw_lora_family}
|
||
|
||
低秩适配方法基于"权重更新矩阵具有低内在维度(intrinsic dimension)"的假设:尽管预训练模型的整体参数空间极其庞大,但模型在适应特定下游任务时,所需权重的实际更新往往位于一个低维流形之上。LoRA 在此基础上将目标权重矩阵 $\mathbf{W}_0 \in \mathbb{R}^{d_{out} \times d_{in}}$ 的更新分解为两个低秩矩阵的乘积\cite{hu2021lora}:
|
||
\begin{equation}
|
||
\Delta\mathbf{W} = \mathbf{B}\mathbf{A}, \quad \mathbf{A} \in \mathbb{R}^{r \times d_{in}},\, \mathbf{B} \in \mathbb{R}^{d_{out} \times r},\, r \ll \min(d_{in}, d_{out}),
|
||
\label{eq:ch2_lora}
|
||
\end{equation}
|
||
其中 $\mathbf{A}$ 采用随机高斯初始化,$\mathbf{B}$ 采用零初始化以保证训练起始时不改变预训练行为。在推理阶段,低秩增量可以直接被重新参数化合并回原始权重矩阵,不引入任何额外推理延迟。
|
||
|
||
在 LoRA 基础上,后续工作沿多个方向展开改进。在参数化与训练特性改进方面,DoRA 将权重更新进一步分解为方向(direction)与幅度(magnitude)两个分量,分别进行优化,以更好地模拟全参数微调的学习行为\cite{liu2024dora}。在预算分配方面,AdaLoRA 引入基于奇异值分解的重要性评估机制,在训练过程中动态分配各权重矩阵的秩,使模型自动为重要层级分配更高秩预算\cite{zhang2023adalora}。在参数规模进一步压缩方面,VeRA 通过在不同模块间共享冻结的随机矩阵,仅学习逐层的缩放向量,将微调参数量压缩至极致\cite{kopiczko2023vera};QLoRA 则通过4-bit量化底座权重并在其上训练 LoRA,使大模型在更低显存条件下可被高质量微调\cite{dettmers2023qlora}。% 注:需补充到ref.bib: dettmers2023qlora (Dettmers et al., QLoRA, NeurIPS 2023)
|
||
|
||
低秩适配方法在参数效率方面表现优异,已成为当前最广泛使用的 PEFT 技术路径。然而,其标准实践通常在所有目标层的投影矩阵上施加相同秩约束,隐含假设模型不同层与不同模块在适配中的角色近似。即使 AdaLoRA 开始引入预算再分配,其建模对象也主要是矩阵重要性,而非更一般的结构角色异质性。因此,低秩适配在成本控制上极具优势,却仍保留了相对均匀的适配假设。
|
||
|
||
%----------------------------------------------------------------------
|
||
\subsection{附加式与提示类适配方法}
|
||
\label{subsec:rw_additive_prompt}
|
||
|
||
附加式方法通过在模型内部插入轻量结构引入任务信息,而不修改原有权重。Adapter 在 Transformer 层间插入小型瓶颈网络,通过降维—非线性激活—升维结构实现表示调整\cite{houlsby2019parameter}。这种设计有效地阻断了误差梯度向预训练底座的传导,在多任务环境中按任务维护独立参数块。Compacter 进一步采用超复数乘法实现跨层参数共享,在降低参数量的同时保持表达能力\cite{karimi2021compacter}。
|
||
|
||
提示类方法则通过在输入或中间表示层引入额外可学习信号,引导模型调用已有知识结构。前缀微调(Prefix-tuning)在每层注意力计算的 Key 和 Value 前追加可学习的连续向量,使其充当"虚拟历史上下文",从而隐式地调制模型对后续序列的注意力分布\cite{li2021prefix};提示微调(Prompt-tuning)在嵌入层面引入可训练软提示向量\cite{lester2021power};P-Tuning v2 将可学习提示扩展到多层并系统改进优化策略,使提示类方法在更广泛的模型规模与任务类型上接近全参数微调效果\cite{liu2022p}。% 注:需补充到ref.bib: liu2022ptuningv2 (Liu et al., P-Tuning v2, ACL 2022)
|
||
|
||
此外,激活调制类方法提供了另一种视角。(IA)$^3$ 通过训练少量缩放向量对注意力与 FFN 内部的关键激活进行抑制或放大,以极低参数量实现多任务适配\cite{liu2022few}。这类方法在形式上已更接近"对表示流进行乘性调制"的思想,为后续结构角色驱动的调制式框架提供了研究线索。
|
||
|
||
无论是附加式模块、提示类方法还是激活调制,尽管在参数效率与任务适配上各有优势,但多数方法仍主要围绕统一插入位置或统一提示空间展开,对内部结构差异的显式建模较弱。
|
||
|
||
%----------------------------------------------------------------------
|
||
\subsection{选择式与稀疏微调方法}
|
||
\label{subsec:rw_selective_sparse}
|
||
|
||
相较于向模型注入新参数,选择式与稀疏微调方法遵循更直接的原则:在原有参数中寻找并仅更新对下游任务最敏感的参数子集。这类方法开始触及模型内部容量分配的本质。
|
||
|
||
选择式方法通过限定可更新参数的范围实现参数高效适配。BitFit 仅更新网络中的偏置项参数,证明在大模型中仅解除偏置冻结就能在诸多任务上达到竞争性能\cite{zaken2021bitfit}。LISA 根据层间权重范数的偏斜分布,在不同训练迭代中选择性地解除部分层的冻结状态,表明并非所有层都需要持续参与更新\cite{pan2024lisa}。
|
||
|
||
稀疏微调方法从更细粒度出发,在训练过程中学习参数更新的稀疏结构。运动剪枝(Movement Pruning)利用权重变化趋势而非静态幅值来决定参数保留方向——相较于传统按权重绝对值排序的幅度剪枝(magnitude pruning),运动剪枝更适应微调动力学,在迁移学习场景中表现更优\cite{sanh2020movement}。SHiRA 提出以高秩稀疏更新替代低秩稠密更新,指出在相同参数预算下,稀疏更新模式可能比低秩假设更好地匹配权重更新的真实结构\cite{shiracite}。稀疏缩放微调进一步将稀疏性与缩放策略相结合,实现面向特定任务的结构化稀疏\cite{ansell2024scaling}。
|
||
|
||
选择式与稀疏微调方法已经明显触及"哪些参数值得更新"的问题,但多数方法仍将选择依据建立在局部重要性评分或简单统计指标之上,对更高层次的结构角色、跨任务共享关系以及全局预算如何在共享与专用子空间间联合分配,尚缺乏系统化刻画。
|
||
|
||
%----------------------------------------------------------------------
|
||
\subsection{现有方法的均匀适配假设与局限}
|
||
\label{subsec:rw_uniform_limitation}
|
||
|
||
综合上述三类方法,可以从适配机制、结构假设以及与后续章节的衔接关系等维度对现有适配方法进行系统比较,如表~\ref{tab:ch2_method_comparison}~所示。
|
||
|
||
\begin{figure}[htbp]
|
||
\centering
|
||
% 占位:待替换为外部绘制的 2_peft_taxonomy.pdf
|
||
% \includegraphics[width=0.88\textwidth]{assets/2_peft_taxonomy.pdf}
|
||
\caption[参数高效适配方法的谱系结构与本文方法定位]{参数高效适配方法的谱系结构与本文方法定位。该图采用树形或层级分类布局:
|
||
\textbf{第一层}按适配对象分为三大类——"参数更新结构"(低秩、稀疏)、"附加模块"(Adapter、前缀/提示)、"表示调制"(激活缩放、门控调制)。
|
||
\textbf{第二层}在每个大类下列出代表性方法:低秩类(LoRA、DoRA、AdaLoRA)、稀疏类(BitFit、SHiRA、运动剪枝)、附加类(Adapter、Prefix-Tuning、Prompt Tuning)、调制类((IA)$^3$)。
|
||
\textbf{第三层}用虚线框或高亮标注本文五个方法(HyCAM、RoSA、DyPAM、CASCADE、MESSA)的定位,并用箭头标注其相对于现有方法的创新方向——从"均匀适配"指向"结构感知适配"。
|
||
右侧用渐变色条标注"结构感知程度"从弱到强的演进趋势。}
|
||
\label{fig:ch2_peft_taxonomy}
|
||
\end{figure}
|
||
|
||
\begin{table}[htbp]
|
||
\centering
|
||
\caption[现有参数高效适配方法的谱系比较与后续章节衔接]{现有参数高效适配方法的谱系比较与后续章节衔接}
|
||
\label{tab:ch2_method_comparison}
|
||
\renewcommand{\arraystretch}{1.15}
|
||
\small
|
||
\resizebox{\linewidth}{!}{
|
||
\begin{tabular}{llcll}
|
||
\toprule
|
||
\textbf{方法谱系} & \textbf{代表方法} & \textbf{适配对象} & \textbf{均匀适配特征} & \textbf{后续衔接} \\
|
||
\midrule
|
||
低秩重参数化 & LoRA, DoRA, AdaLoRA & $\Delta\mathbf{W}$(低秩流形) & 跨层/模块采用一致插入与秩配置 & 对照基线 \\
|
||
附加式模块 & Adapter, LLaMA-Adapter & 层间瓶颈模块 & 插入位置与模块大小固定 & 模块级角色感知 \\
|
||
提示学习 & Prefix, Prompt, P-Tuning & 输入侧或层内软提示 & 统一提示空间假设 & 表示流调制 \\
|
||
激活调制 & (IA)$^3$ & 注意力/FFN关键激活 & 按层统一注入缩放向量 & 乘性调制扩展 \\
|
||
选择式/稀疏 & BitFit, LISA, SHiRA & 参数子集/稀疏掩码 & 经验性重要性准则 & 容量分配问题 \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
从表~\ref{tab:ch2_method_comparison}~可以看出,现有方法虽然从不同角度降低了适配成本,但普遍隐含了一种均匀适配假设(uniform adaptation assumption):无论是将低秩矩阵无差别地挂载到所有子模块的线性层上,还是为所有层分配等长的前缀向量,抑或是基于全局统一阈值进行稀疏筛选,现有框架大多将大语言模型简化为层级平齐、模块功能同质的系统。
|
||
|
||
这种缺乏结构感知的均匀设计带来三类根本性局限。\textbf{第一,对模块功能差异关注不足。}如第~\ref{subsec:rw_functional_differentiation}~节所述,MHSA 和 FFN 在知识调用与上下文路由中扮演截然不同的角色,均匀分配适配预算容易导致冗余参数堆积于任务不敏感的模块,而关键瓶颈区域面临容量匮乏。\textbf{第二,对位置结构与维度异质性利用不足。}现有更新主要作用于表示变换的全局通道维度,忽视了由 RoPE 等频率结构引入的维度级异质性,在处理依赖位置关系的任务时难以实现精细化调控。\textbf{第三,对多尺度参数结构与容量分配建模不足。}面对复杂的异构任务集合,现有 PEFT 方法缺乏在全局频谱空间和多任务约束下的系统建模能力,无法区分哪些参数成分应当被提炼为跨任务共享知识,哪些必须被隔离以服务于任务特化。
|
||
|
||
|
||
%======================================================================
|
||
\section{多任务学习与模块级功能适配}
|
||
\label{sec:rw_multitask}
|
||
|
||
在实际应用中,大语言模型通常需要同时服务于多种类型的下游任务。多任务场景中的知识共享与任务干扰问题,以及模块级功能分化在适配中的作用,为理解和改进大语言模型适配方法提供了重要视角。
|
||
|
||
%----------------------------------------------------------------------
|
||
\subsection{多任务学习与梯度冲突问题}
|
||
\label{subsec:rw_multitask_gradient}
|
||
|
||
多任务学习通过在统一模型中同时优化多个相关目标,利用任务间的知识共享提升整体建模性能\cite{caruana1997multitask}。% 注:需补充到ref.bib: caruana1997multitask (Caruana, Multitask Learning, Machine Learning 1997)
|
||
然而,多任务学习面临的核心困难在于梯度冲突与负迁移:不同任务的梯度在共享参数空间中可能指向相互对立的方向,导致优化过程中一个任务的改进以另一个任务的退化为代价,形成所谓的"跷跷板"现象。
|
||
|
||
针对梯度冲突问题,文献中涌现了一系列梯度干预方法。PCGrad 在检测到两个任务梯度向量夹角大于 $90^\circ$ 时,将冲突梯度投影到对方法平面上以消除破坏性分量\cite{yu2020gradient};CAGrad 将多任务冲突消解转化为带约束的极小极大优化问题,在邻域搜索空间内寻找使所有任务平均损失严格下降的更新方向\cite{liu2021conflict};GradNorm 通过动态调节各任务损失权重以平衡梯度幅度与训练速度\cite{chen2018gradnorm}。% 注:需补充到ref.bib: chen2018gradnorm (Chen et al., GradNorm, ICML 2018)
|
||
这些方法从优化层面缓解了任务间冲突,但并未从模型架构层面解决"哪些模块应当共享、哪些应当专用"的问题。
|
||
|
||
从模型内部结构来看,不同任务在模型中的激活模式往往存在系统性差异。注意力模块更多承担跨位置的上下文关联建模,而前馈网络更多负责知识表达与非线性映射\cite{standley2020tasks}。这种模块级的功能分工在均匀的参数共享策略下难以被有效利用,容易导致负迁移与知识干扰。因此,多任务场景的关键矛盾并非简单的"共享越多越好"或"隔离越多越好",而是在共享知识与任务特化之间需要结构层面的平衡机制。
|
||
|
||
%----------------------------------------------------------------------
|
||
\subsection{混合专家模型与动态路由机制}
|
||
\label{subsec:rw_moe}
|
||
|
||
混合专家模型(Mixture of Experts, MoE)通过将前馈网络替换为多个并行专家子网络,并利用门控路由机制动态选择激活专家,在模型结构层面实现了功能分化\cite{shazeer2017outrageously}。对于给定输入 $\mathbf{x}$,MoE 层的输出可表示为:
|
||
\begin{equation}
|
||
\mathbf{y} = \sum_{e=1}^{E} g_e(\mathbf{x}) \cdot \mathrm{Expert}_e(\mathbf{x}),
|
||
\end{equation}
|
||
其中 $g_e(\mathbf{x})$ 为门控网络对第 $e$ 个专家的路由权重,通常由 top-$k$ 稀疏选择机制生成(实际部署中 $k$ 常设为 $1$ 或 $2$)。这种稀疏激活机制使模型在成倍扩大参数容量的同时维持单个样本的计算量相对恒定。
|
||
|
||
Switch Transformer 通过简化路由策略(每个输入仅激活一个专家)将 MoE 扩展到大规模模型,并改进了训练稳定性\cite{fedus2022switch};DeepSeek-MoE 进一步强调专家细粒度分段与共享专家/路由专家的协同,以促进专家专门化并减少冗余\cite{dai2024deepseekmoe,guo2025deepseek}。为防止路由退化,MoE 训练中通常引入负载均衡辅助损失,约束各专家的使用频率保持均匀。
|
||
|
||
MoE 架构揭示了"动态路由"与"模块功能分化"在应对输入异质性方面的有效性:不同输入可以激活不同的功能路径,不同专家网络在物理参数上的隔离也天然降低了处理不同分布数据时的特征污染。然而,现有 MoE 工作更多关注专家选择、负载均衡与训练效率,较少将路由机制与 Transformer 内部既有模块的功能角色差异显式关联。
|
||
|
||
%----------------------------------------------------------------------
|
||
\subsection{多任务参数高效适配方法}
|
||
\label{subsec:rw_multitask_peft}
|
||
|
||
在参数高效适配框架下,MoE 思想被引入 LoRA 结构,形成了多种多任务适配方法。MoELoRA 将多组 LoRA 适配模块作为专家,并引入对比学习鼓励专家分化,通过门控路由实现对多任务差异性的适应\cite{liu2023moelora,luo2024moelora};LoRAMoE 在多个 LoRA 模块之间引入路由机制,旨在同时提升下游能力并缓解世界知识遗忘\cite{dou2024loramoe}。MTLoRA 引入任务无关(task-agnostic)与任务特定(task-specific)低秩模块,在共享与专用之间做结构化分解\cite{agiza2024mtlora};MOELoRA 将混合专家路由与 LoRA 结构相结合以处理多任务适配\cite{liu2024moe}。
|
||
|
||
从参数共享与分解角度,Compacter 通过超复数乘法实现跨任务的参数共享\cite{karimi2021compacter};UniAdapter 在统一适配框架下设计了面向多任务与多模态的共享结构\cite{lu2023uniadapter}。AdapterFusion 通过注意力机制动态融合多个独立训练的 Adapter 模块\cite{pfeiffer2020adapterfusion};UniPELT 联合训练多种轻量适配模块以实现更好的多任务泛化\cite{mao2022unipelt}。
|
||
|
||
值得注意的是,部分研究已开始反思细粒度组件级适配在多任务中的潜在问题。例如,有研究指出如果将 LoRA 独立且无关联地分别应用于 $\mathbf{W}_Q$、$\mathbf{W}_K$、$\mathbf{W}_V$ 等细粒度组件,反而可能因缺乏更高层级的表征协同而加剧任务间梯度冲突,转而提倡在整个 Transformer 块或完整的 MHSA / FFN 宏观级别上设计统一的适配模块\cite{agiza2024mtlora}。这一发现从侧面说明,多任务适配需要将共享与专用结构的划分与模型内部的功能角色差异结合考量。
|
||
|
||
上述方法在多任务适配效率方面取得了进展,但仍存在共性不足:现有方法的建模粒度主要停留在任务级或专家级,较少进一步区分适配应当优先作用于哪些模块、哪些层、哪些表示流节点。如何在利用模块级功能分化的基础上系统设计多任务适配机制,仍是值得进一步探索的问题。
|
||
|
||
|
||
%======================================================================
|
||
\section{结构异质性感知与多层级适配方法}
|
||
\label{sec:rw_structure_aware}
|
||
|
||
前述三节分别梳理了大语言模型的表示机制、参数高效适配方法以及多任务学习的相关工作。本节将进一步关注已有研究中对模型内部结构异质性的显式感知与利用,从维度级位置结构、频谱级多尺度分析与参数容量分配三个方面展开综述。
|
||
|
||
%----------------------------------------------------------------------
|
||
\subsection{位置编码结构与维度级表示异质性}
|
||
\label{subsec:rw_dim_heterogeneity}
|
||
|
||
第~\ref{subsec:rw_rope}~节从机制角度介绍了 RoPE 的频率结构,本节进一步讨论其对模型表示特性的影响以及对适配方法的启示。
|
||
|
||
基于 Transformer 的大语言模型普遍存在表示各向异性(anisotropy)现象——隐藏层的激活值分布呈现显著的非均匀性,少数维度占据压倒性的方差比例\cite{jin2025massive}。进一步研究表明,这种各向异性并非训练偶发伪影,而是自注意力机制的内生特性\cite{godey2024anisotropy}。% 注:需补充到ref.bib: godey2024anisotropy (Godey et al., Anisotropy Is Inherent to Self-Attention, EACL 2024)
|
||
|
||
RoPE 的频率结构为表示空间引入了额外的维度级异质性。由于不同维度对被赋予不同频率的旋转角度,系统中的低频(高索引)维度承担着跨越较大序列跨度的长程语义获取功能——这些维度旋转周期长、角度变化缓慢,在深层网络中往往产生更密集且幅值更高的激活;而高频(低索引)维度由于剧烈旋转,更敏感于局部近距离的词元交互\cite{su2024roformer,barbero2024round}。有研究通过干预实验发现,在推理阶段屏蔽部分极高频维度特征对模型困惑度几乎无负面影响,甚至在长序列外推上有所提升;但一旦破坏关键低频维度,则直接引发性能崩溃\cite{gu2025unpacking}。% 注:需补充到ref.bib: gu2025unpacking (Gu et al., Unpacking Positional Encoding in Transformers: A Spectral Perspective, arXiv 2025)
|
||
这一不对称性有力地说明不同维度对在功能上的重要性存在质的差异。
|
||
|
||
值得注意的是,这种维度级异质性在 Query/Key 表示中表现显著,而在 Value 表示中则弱得多——这与 RoPE 仅对 Query 和 Key 施加位置旋转的设计一致。同时,不同注意力头和不同层在激活分布上也呈现出差异化模式\cite{voita2019bottom},且激活模式还表现出对输入内容的依赖性:同一频率的特征维度在面对不同类型指令、不同领域分布或不同语义角色的输入时,其激活波峰与频率响应会产生显著波动。
|
||
|
||
上述发现对适配方法的设计具有直接启示。当不同维度在功能上并非等价时,对所有维度施加均匀更新可能导致关键维度信息的破坏或冗余维度的过度调整。现有研究实际上已给出两条清晰线索:一条是静态的、由位置编码机制本身诱导的维度级频率不均匀性;另一条是动态的、受具体输入与上下文条件影响的头级/维度级激活差异。但这些结构特征在现有 PEFT 方法中大多仍停留在分析层面,尚未被系统转化为参数高效适配机制。
|
||
|
||
%----------------------------------------------------------------------
|
||
\subsection{多尺度频谱分析与频域适配方法}
|
||
\label{subsec:rw_spectral_peft}
|
||
|
||
从参数更新的角度看,权重更新矩阵 $\Delta\mathbf{W}$ 可视为定义在参数索引上的二维信号,通过适当的线性变换(如傅里叶变换、小波变换)可将其分解为不同空间频率的成分。低频成分对应平滑缓变的全局模式,高频成分则捕获集中于特定区域的快速变化。
|
||
|
||
在函数逼近论的框架下,深度网络在训练过程中存在频谱偏置(spectral bias),也被称为频率原则(F-Principle)——网络总是优先学习并快速逼近目标函数中频率较低的部分(对应全局拓扑与主导分类面),随后才逐渐且缓慢地适应高频部分(对应局部特异性与细粒度模式)\cite{rahaman2019spectral}。% 注:需补充到ref.bib: rahaman2019spectral (Rahaman et al., On the Spectral Bias of Neural Networks, ICML 2019)
|
||
这意味着权重更新本身具有频谱级的结构特性。对全量微调下权重更新的频谱分析进一步揭示了一种能量与影响力的失配现象:高频成分在频谱能量上占主导地位但其影响范围局限于参数空间的有限子集;低频成分虽然能量较小,却影响着权重矩阵的大部分区域。这种从粗到细的适配模式表明,全局语义对齐依赖低频更新,而特定局部行为的修正则需要高频更新。
|
||
|
||
受此启发,近年来开始出现将频域分析引入参数高效适配的探索。FourierFT 将权重更新视为空间域信号,在离散傅里叶域学习稀疏频谱系数,以少量频域参数表达空间域中的权重更新\cite{gao2024parameter}。由于离散傅里叶变换的复数开销,后续工作转向离散余弦变换(DCT):SDCT 方法利用 DCT 的能量压缩特性进行选择性系数更新\cite{shen2024parameter};LoCA 进一步基于逆 DCT 建模频域适配,不仅学习系数还学习哪些频率位置最有信息量,并给出频域近似与低秩近似表达力差异的理论比较\cite{du2025loca}。在多尺度结构方面,小波变换提供天然的多分辨率分解:WaveletFT 将离散小波变换引入权重更新建模,利用小波基的多分辨率特性同时捕获全局结构与局部细节\cite{hu2025waveletft}。
|
||
|
||
上述方法共同表明,频谱视角为参数高效适配提供了有效的结构化建模语言。然而,现有频域 PEFT 方法多采用单一类型的变换基(纯 DCT、纯小波或纯傅里叶),较少同时利用不同频域基函数在全局与局部表示上的互补特性。此外,不同频率分量之间的依赖关系通常被忽略——各频段的更新独立进行,缺乏显式的跨频段信息传递与"从粗到细"的级联更新组织,这为面向多尺度频谱结构的参数级适配留下了空间。
|
||
|
||
%----------------------------------------------------------------------
|
||
\subsection{参数容量分配与结构学习}
|
||
\label{subsec:rw_capacity_allocation}
|
||
|
||
当模型需要在多个异构任务间分配有限的可训练参数时,如何在容量约束下实现高效适配,本质上转化为一个结构学习问题。
|
||
|
||
在更广泛的神经网络结构学习文献中,神经架构搜索(NAS)提供了自动化的结构设计路径。DARTS 通过将离散的架构选择松弛为连续优化问题,实现了可微分的架构搜索\cite{liu2018darts},% 注:需补充到ref.bib: liu2019darts (Liu et al., DARTS, ICLR 2019)
|
||
其核心思想——将离散结构决策转化为连续松弛后通过梯度优化求解——对后续参数高效适配中的结构学习具有方法论启示。
|
||
|
||
在模型压缩方面,彩票假说(Lottery Ticket Hypothesis)指出,在密集网络中存在稀疏子网络能够达到甚至超越完整网络的性能\cite{frankle2019stabilizing}。% 注:需补充到ref.bib: frankle2019lottery (Frankle & Carlin, Lottery Ticket Hypothesis, ICLR 2019)
|
||
这一发现表明模型参数空间中存在结构化的功能分布,有效容量可能集中在某些子结构上。在大语言模型场景下,运动剪枝通过训练过程中的参数重要性评估实现结构化稀疏\cite{sanh2020movement},SHiRA 则表明高秩稀疏更新在相同预算下可获得强于低秩稠密更新的表达能力\cite{shiracite}。
|
||
|
||
从更一般的视角看,参数高效适配本身也是一种"预算约束下的结构化容量分配"。AdaLoRA 通过在层/矩阵间非均匀分配低秩预算,已将"容量分配"显式化\cite{zhang2023adalora};LISA 通过层重要性采样与大量层冻结,在不增加额外模块的前提下实现"跨层容量重分布"\cite{pan2024lisa}。在多任务共享方面,任务向量(task vectors)与任务算术(task arithmetic)提出在权重空间用"微调差分向量"表征任务能力,并通过向量加减实现能力组合与编辑,为"共享—特有"的参数分解提供了另一类视角\cite{ilharco2022editing}。% 注:需补充到ref.bib: ilharco2023editing (Ilharco et al., Editing Models with Task Arithmetic, ICLR 2023)
|
||
|
||
然而,当问题推进到多任务条件下,复杂度进一步提升。此时不仅要回答"哪些参数值得更新",还要回答"哪些更新应由所有任务共享,哪些应保留为任务特有"。现有方法多依赖预先设定的共享规则或简单的任务标识路由,缺乏能够在统一预算约束下同时学习共享结构与特有结构的系统化机制。如何将结构发现从"给定结构下的参数学习"提升为"结构与参数的联合优化",仍是当前多任务适配研究中的开放问题。
|
||
|
||
\begin{figure}[htbp]
|
||
\centering
|
||
% 占位:待替换为外部绘制的 2_heterogeneity_levels.pdf
|
||
% \includegraphics[width=0.9\textwidth]{assets/2_heterogeneity_levels.pdf}
|
||
\caption[大语言模型内部多层级结构异质性的表现与适配对应关系]{大语言模型内部多层级结构异质性的表现与适配对应关系。该图采用左右两栏布局:
|
||
\textbf{左栏}(结构异质性层级)自上而下展示四个层级的异质性现象,每层配一个小型示意:
|
||
(1)模块级($\mathcal{R}_{mod}$):MHSA与FFN功能分工示意(上下文路由 vs 知识存储),用不同色块标注;
|
||
(2)维度级($\mathcal{R}_{dim}$):RoPE不同维度对的激活强度热图(高频维度弱激活、低频维度强激活);
|
||
(3)频谱级($\mathcal{R}_{spec}$):权重更新矩阵的频谱分解示意(低频全局平滑 + 高频局部修正);
|
||
(4)参数级($\mathcal{R}_{param}$):多任务参数分配示意(冻结/共享/专用三种状态的参数组)。
|
||
\textbf{右栏}(对应适配方法)与左栏四个层级一一对齐,标注本文对应的方法名、调制形式与章节:
|
||
HyCAM(乘性,Ch3)、RoSA$\to$DyPAM(乘性,Ch4$\to$Ch5)、CASCADE(组合式,Ch6)、MESSA(结构分解,Ch6)。
|
||
左右栏之间用虚线箭头连接,表示"结构异质性$\to$结构感知适配"的映射关系。}
|
||
\label{fig:ch2_heterogeneity_levels}
|
||
\end{figure}
|
||
|
||
|
||
%======================================================================
|
||
\section{本章小结}
|
||
\label{sec:rw_summary}
|
||
|
||
本章围绕大语言模型表征适配的相关理论与研究进展,从架构基础、参数高效微调方法、多任务学习机制以及结构异质性感知方法四个方面进行了系统综述。
|
||
|
||
在架构基础方面,Transformer 内部不同组件在信息处理中承担差异化功能角色:自注意力模块负责上下文路由与依赖建模,前馈网络作为键值记忆结构承担知识存储与非线性映射。RoPE 位置编码通过维度对相关的旋转变换引入了系统性的频率分解结构,使不同维度对在位置信息编码中承担不同功能。此外,层间角色梯度、头间功能分工(包括具有明确算法功能的 induction heads 等可解释结构)、维度级极端激活现象以及参数更新的频谱偏置,共同揭示了模型内部多层次的结构异质性。
|
||
|
||
在参数高效适配方面,低秩适配、附加式与提示类适配、选择式与稀疏微调三类方法从不同角度降低了适配成本,已成为主流技术路径。然而,多数方法在模型不同层和模块上施加形式一致的更新策略,对模型内部结构特征的利用仍然有限。即使 AdaLoRA 等改进工作已开始引入非均匀预算分配,其建模对象也主要是局部重要性而非系统性的结构角色差异。
|
||
|
||
在多任务学习方面,梯度冲突处理与混合专家路由机制为应对多任务异质性提供了有效工具,多任务 PEFT 方法在此基础上引入共享与专用结构以及动态路由思想。但现有方法的建模粒度多停留在任务级或专家级,较少与模型内部的模块功能角色差异建立系统关联。
|
||
|
||
在结构感知方面,维度级激活异质性研究揭示了静态的频率不均匀性与动态的输入依赖激活差异两条线索;频域适配方法初步证明了频谱视角对参数更新建模的价值,但在跨频段依赖与多尺度异构更新的联合建模上仍有不足;参数容量分配研究则从结构学习角度提出了问题,但在多任务条件下的"共享—特有"联合分配仍缺乏系统框架。
|
||
|
||
综合以上分析,当前研究在三个方面仍有进一步探索空间:(1)如何在统一框架下刻画并利用模型内部多层级的结构角色差异;(2)如何从模块级、维度级到参数级系统设计结构感知的适配机制;(3)如何在多任务场景下实现共享能力与任务特化能力的有效协调。围绕上述问题,后续各章将分别对应模块级方法HyCAM、维度级静态方法RoSA、维度级动态方法DyPAM,以及参数空间中的CASCADE和MESSA,在第~\ref{sec:unified_framework}~节提出的统一分析框架下逐层展开方法设计与实验验证。
|