Files
Graduate/chap04.tex
2026-03-23 15:13:20 +08:00

444 lines
36 KiB
TeX
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
% !TeX root = main.tex
% 第四章 基于位置结构感知的选择性表征适配方法
\chapter{基于位置结构感知的选择性表征适配方法}
\label{chap:rosa}
\section{本章概述}
\label{sec:ch4_overview}
本章继续在\emph{表示空间}层面展开研究,转向维度级位置结构异质性的静态选择性建模。第三章围绕模块级功能异质性($\mathcal{R}_{mod}$提出了基于上下文注意力调制的适配方法HyCAM实现了在注意力输出层面对不同功能模块的差异化适配。然而除模块间的功能差异外模型内部表示向量的\emph{维度级结构}同样蕴含着丰富的异质性信息。
在基于Transformer架构的大语言模型中旋转位置编码Rotary Position Embedding, RoPE是编码序列位置信息的核心机制。RoPE通过对注意力表示的Query与Key向量施加维度对相关的旋转变换将相对位置关系融入注意力计算过程。由于不同维度对的旋转频率按几何级数递减低索引维度对应高频旋转编码局部位置差异高索引维度对应低频旋转编码全局上下文依赖。这一频率结构导致注意力表示在不同维度上呈现出显著的激活强度差异与功能分化即维度级位置结构异质性$\mathcal{R}_{dim}$)。
对于下游任务适配而言这种维度级异质性具有重要意义。序列数据中既包含局部模式如短程位置依赖也包含长程全局依赖如跨位置的语义关联与全局上下文结构。RoPE的频率结构恰好为多尺度位置依赖的建模提供了天然的维度划分基础——不同频率的维度对可以分别承担不同尺度的位置感知功能。因此在适配过程中充分感知并利用这种维度级位置结构对于提升表征适配的质量具有重要意义。
然而现有参数高效微调方法普遍忽视了维度级位置结构异质性。以LoRA为代表的低秩适配方法将可训练矩阵均匀地插入各线性层对所有维度施加同质化的更新类似地其他主流方法也缺乏对注意力表示内部频率结构的感知能力。这种"维度无关"的适配范式在面对多尺度位置依赖时,难以实现精细化的参数分配与功能调制。
针对上述问题,本章在第一章提出的结构感知调制统一框架(式~\ref{eq:ch1_unified_M})下,聚焦维度级位置结构异质性($\mathcal{R}_{dim}$提出RoPE感知的选择性适配方法RoSA。RoSA基于对RoPE诱导的维度级激活异质性的实证分析提出RoPE感知注意力增强RoAE模块选择性地增强Query/Key表示中功能关键的低频维度成分同时引入动态层选择DLS策略基于LayerNorm梯度范数自适应识别并更新最关键的Transformer层。RoSA实现了"维度内选择性增强+层间动态选择"的双层级结构感知适配,属于统一框架中的乘性调制形式(式~\ref{eq:ch1_multiplicative}),通过结构角色描述符$\mathcal{R}_{dim}$实现对注意力表示流的精细化调制。
本章后续安排如下:第~\ref{sec:ch4_background}~节分析RoPE机制及其诱导的维度级异质性问题第~\ref{sec:rosa}~节详述RoSA方法第~\ref{sec:ch4_experiments}~节给出实验验证与结果分析;第~\ref{sec:ch4_summary}~节总结全章。下一章将进一步将维度级适配从静态选择推进至动态调制。
\section{RoPE诱导的维度级位置结构异质性分析}
\label{sec:ch4_background}
本节首先回顾RoPE的数学原理然后从实证角度分析其诱导的维度级异质性现象最后阐述该现象对适配方法的启示。
\subsection{旋转位置编码机制}
\label{subsec:ch4_rope}
现代大语言模型如LLaMA、Qwen、Gemma系列广泛采用基于Transformer解码器架构的设计其核心由堆叠的Transformer块组成每个块包含多头自注意力MHSA模块和前馈网络FFN模块。自注意力机制本身具有置换不变性不编码任何位置信息因此需要外部机制将序列顺序信息注入到注意力计算中。
旋转位置编码RoPE通过对Query和Key向量施加位置相关的旋转变换来编码相对位置关系。给定第$\ell$层Transformer块的隐藏状态$\mathbf{H}^{(\ell)} \in \mathbb{R}^{B \times T \times d}$(其中$B$为批次大小,$T$为序列长度,$d$为隐藏维度经过线性投影得到Query和Key矩阵
\begin{equation}
\mathbf{Q}^{(\ell)} = \mathbf{H}^{(\ell)} \mathbf{W}_Q^{(\ell)}, \quad
\mathbf{K}^{(\ell)} = \mathbf{H}^{(\ell)} \mathbf{W}_K^{(\ell)}, \quad
\mathbf{V}^{(\ell)} = \mathbf{H}^{(\ell)} \mathbf{W}_V^{(\ell)},
\label{eq:ch4_qkv_proj}
\end{equation}
其中$\mathbf{W}_Q^{(\ell)}, \mathbf{W}_K^{(\ell)}, \mathbf{W}_V^{(\ell)} \in \mathbb{R}^{d \times d}$为可学习的投影矩阵。投影后的表示被重塑为$H$个注意力头的形式,每个头的维度为$d_h = d/H$
对于第$h$个注意力头中位于位置$t$的向量$\mathbf{z} \in \mathbb{R}^{d_h}$$d_h$为偶数RoPE将其分为实部$\mathbf{z}^{\text{real}}$和虚部$\mathbf{z}^{\text{imag}}$两半,每半维度为$d_h/2$。对于每个索引$i$RoPE将$(\mathbf{z}^{\text{real}}_i, \mathbf{z}^{\text{imag}}_i)$视为复数分量,施加二维旋转:
\begin{equation}
\text{RoPE}(\mathbf{z}^{\text{real}}_i, \mathbf{z}^{\text{imag}}_i) =
\begin{bmatrix}
\cos \theta_i & -\sin \theta_i \\
\sin \theta_i & \cos \theta_i
\end{bmatrix}
\begin{bmatrix}
\mathbf{z}^{\text{real}}_i \\
\mathbf{z}^{\text{imag}}_i
\end{bmatrix},
\label{eq:ch4_rope}
\end{equation}
其中旋转角度$\theta_i = t \cdot \omega^{-2i/d_h}$$t$为token位置索引$\omega$为基础频率常数(通常设为$10000$)。由于$\theta_i$随索引$i$的增大而几何递减,低索引维度对应高频旋转,编码局部位置差异;高索引维度对应低频旋转,编码全局上下文依赖。
该旋转操作使得两个位置$t_1$$t_2$之间的注意力分数仅依赖于它们的相对位置差$t_1 - t_2$,从而实现了相对位置编码的优良性质。更重要的是,由于每个维度对在不同频率下旋转,不同维度对对相对位置距离的响应函数也各不相同,这直接导致了维度级的位置感知异质性。
\subsection{RoPE诱导的维度级激活异质性}
\label{subsec:ch4_heterogeneity}
RoPE的频率结构不仅是数学上的设计选择更在实际模型中诱导了可观测的激活异质性现象。本节从多个角度展示这一异质性。
\subsubsection{跨维度激活异质性}
\begin{figure}[htp]
\centering
\subcaptionbox{跨维度激活分布\label{fig:ch4_attn_dim}}{%
\includegraphics[width=0.47\linewidth]{assets/4_SingleLayer10.pdf}}
\hfill
\subcaptionbox{跨层激活分布\label{fig:ch4_attn_layer}}{%
\includegraphics[width=0.48\linewidth]{assets/4_AcrossLayer.pdf}}
\caption[预训练模型LLaMA-2-7B中Query状态的激活强度可视化]{预训练模型LLaMA-2-7B中Query状态的激活强度可视化。\\ 通过计算每个注意力头各维度的平均L2范数来量化激活强度。\\ 低频维度(高索引)集中了更强的激活,且不同层之间呈现差异化的激活模式,体现了维度级和层级的双重异质性。}
\label{fig:ch4_activation}
\end{figure}
通过对预训练模型如LLaMA、Qwen系列的Query状态进行激活强度分析可以清晰观测到注意力表示在不同维度通道上的激活强度呈现显著差异。具体而言低频成分对应每半注意力状态中高索引维度表现出更密集、更强烈的激活而高频成分的激活则较为稀疏。现有研究已经证实这些显著的低频激活对于模型的上下文理解能力至关重要。
这种跨维度的激活异质性意味着,注意力表示的不同维度在功能上并非等价——它们承担着不同频率尺度的位置编码功能,对下游任务的贡献也各不相同。
\subsubsection{跨层与跨头激活异质性}
维度级激活异质性并非在所有层和所有头上都保持一致。实证分析表明,不同层和不同注意力头展现出差异化的激活模式:
1\textbf{跨层异质性}。不同Transformer层在相同维度上的激活强度存在显著差异表明不同深度的层对位置信息的利用程度不同。一般而言模型的低层倾向于捕获句法结构高层则更多编码抽象语义与上下文知识这种功能分化反映在维度激活模式的层间差异上。
2\textbf{跨头异质性}。同一层内不同注意力头也展现出不同的激活模式,这与多头注意力机制的功能分工有关——不同头可能专注于不同类型的依赖关系建模。
\subsubsection{不同位置编码机制的对比验证}
为验证上述维度级异质性确实由RoPE机制诱导可以对比采用不同位置编码方案的模型。对比分析表明1基于RoPE的模型如LLaMA、Qwen系列表现出结构化的、维度依赖的激活模式2采用ALiBi或可学习位置嵌入的模型如BLOOM、OPT系列在维度间的激活分布明显更加均匀。这一对比有力地表明了维度级激活异质性与RoPE的频率结构直接相关。
进一步地对比Query、Key和Value三种表示的激活模式发现Query和Key表示展现出显著的结构化激活异质性而Value表示的异质性则弱得多。这一差异与RoPE的作用方式一致位置旋转直接施加于Query和Key不进入Value分支。因此本章将RoSA的调制作用点设定为Query和Key表示依据的是RoPE诱导结构主要分布于Q/K状态这一机制特征。
\subsection{维度级异质性对适配方法的启示}
\label{subsec:ch4_implication}
综合以上分析RoPE诱导的维度级位置结构异质性对适配方法提出了以下启示
\textbf{1适配应具有维度感知能力。}不同维度在功能上的分化意味着均匀适配是次优的。有效的方法应当识别并优先增强功能关键的维度成分(如低频维度),实现"精准投放"式的参数分配。
\textbf{2适配应感知层间差异。}不同层对位置信息的利用程度不同,因此适配资源的层间分配也应当是自适应的,而非在所有层上均匀部署。
\textbf{3适配应响应输入变化。}静态的维度选择无法捕获输入依赖的激活差异。理想的方法应当能够根据输入上下文动态调整调制信号,实现条件化的位置感知适配。
\textbf{4适配应对齐RoPE的维度对结构。}RoPE中每对维度共享相同的旋转频率因此调制操作应当以维度对为基本单位而非逐维度独立操作以尊重并利用这一内在结构。
上述启示构成了本章RoSA方法的设计原则。RoSA主要回应启示12通过静态的低频维度增强与动态层选择实现结构感知适配。下一章的DyPAM方法将进一步回应启示34通过输入条件化的维度对调制与多粒度结构偏置实现全面的位置感知适配。
\section{RoPE感知的选择性适配方法}
\label{sec:rosa}
基于上节的分析本节提出RoPE感知的选择性适配方法RoPE-aware Selective Adaptation, RoSA。RoSA的核心思想是通过双层级的结构感知策略实现精准适配在层内通过RoPE感知注意力增强RoAE模块选择性地增强关键低频维度在层间通过动态层选择DLS策略自适应地识别和更新最重要的层。
\begin{figure}[htp]
\centering
\includegraphics[width=0.85\linewidth]{assets/4_rosa_arch.pdf}
\caption[RoSA方法框架图]{RoSA方法框架图。\\ RoSA由两个核心模块组成RoPE感知注意力增强RoAE选择性增强RoPE影响的Q/K状态中的低频成分\\ 动态层选择DLS基于LayerNorm梯度信号动态选择重要层进行更新。}
\label{fig:ch4_rosa_arch}
\end{figure}
\subsection{框架概述}
\label{subsec:rosa_overview}
现有PEFT方法在设计适配模块时通常忽略两个关键方面iRoPE引入的频率特异性结构ii层间重要性的异质性。RoSA通过双层级适配策略来弥补这一不足。
如图~\ref{fig:ch4_rosa_arch}所示RoSA的整体框架包含两个互补的核心组件。首先RoAE模块选择性地增强RoPE影响的注意力状态中的低频成分这些成分对上下文理解起着关键作用。其次DLS模块基于梯度重要性指标动态识别并适配最重要的层。通过将频率级和层级的选择性适配相结合RoSA实现了更有效和高效的适配过程。
在统一分析框架(式~\ref{eq:ch1_unified_M}RoSA的调制操作可形式化为
\begin{equation}
\mathcal{M}_{\theta}^{\text{RoSA}}(\mathbf{Z}^{(\ell)}; \mathbf{X}, \mathcal{R}_{dim}) =
\begin{cases}
\mathbf{Z}^{(\ell)} + \mathbf{Z}^{(\ell)}_{\text{low}} \odot (\alpha \cdot \mathbf{S}_\theta(\mathbf{X})), & \text{if } \ell \in \mathcal{L}_S \\
\mathbf{Z}^{(\ell)}, & \text{if } \ell \notin \mathcal{L}_S
\end{cases}
\label{eq:ch4_rosa_unified}
\end{equation}
其中,$\mathbf{Z}^{(\ell)}_{\text{low}}$为第$\ell$层注意力状态的低频成分提取,$\mathbf{S}_\theta(\mathbf{X})$为上下文感知的适配信号,$\mathcal{L}_S$为动态选择的活跃层集合。该形式表明RoSA同时在维度空间和层空间上实现了选择性调制。
\subsection{RoPE感知注意力增强模块}
\label{subsec:rosa_roae}
RoAE模块的设计动机在于RoPE旋转后的注意力状态中低频维度对长程依赖建模和上下文语义理解起着关键作用但传统PEFT方法并未显式考虑这一频率结构而是对所有维度施加通用的适配操作。RoAE通过以下三个步骤实现对关键低频成分的定向增强。
\subsubsection{低频成分提取}
给定隐藏状态$\mathbf{H} \in \mathbb{R}^{B \times T \times d}$作为某Transformer层的输入经过标准线性投影得到Query和Key张量后将其重塑为多头表示形状为$[B, H, T, d_h]$,其中$H$为注意力头数,$d_h = d/H$为每头维度。RoPE将每个头向量分为实部$\mathbf{z}_{\text{real}}$和虚部$\mathbf{z}_{\text{imag}}$两半,然后对每个复数对施加正弦旋转。
为提取低频成分RoAE遵循RoPE的结构将每个头向量分为两半每半大小为$d_h/2$),从每半中取最后$(d_h \cdot r_{\text{low}}) / 2$个维度,将两部分拼接形成一个$d_{\text{low}}$维的向量,记为$\mathbf{z}_{\text{low}}$。其中$r_{\text{low}} \in (0, 1)$为超参数控制目标低频成分的比例。提取的向量恰好捕获了RoPE影响的Q/K头中功能关键的低频成分。
\subsubsection{适配信号生成}
为实现对低频成分的定向增强RoAE首先生成上下文感知的适配信号$\mathbf{S}$。具体地,将隐藏状态通过一个可训练的线性投影$\mathbf{W}_{\text{proj}}$再经过非线性激活函数SiLU
\begin{equation}
\tilde{\mathbf{S}} = \text{SiLU}(\mathbf{H} \mathbf{W}_{\text{proj}}), \quad \mathbf{W}_{\text{proj}} \in \mathbb{R}^{d \times (H \cdot d_{\text{low}})},
\label{eq:ch4_roae_proj}
\end{equation}
其中$\tilde{\mathbf{S}} \in \mathbb{R}^{B \times T \times (H \cdot d_{\text{low}})}$。随后将投影后的张量重塑为多头形状$\mathbf{S} \in \mathbb{R}^{B \times H \times T \times d_{\text{low}}}$
为提升参数效率,投影模块$\mathbf{W}_{\text{proj}}$采用低秩分解实现($\mathbf{W}_{\text{proj}} = \mathbf{B}\mathbf{A}$),仅引入少量可训练参数。在默认配置下,同一适配信号$\mathbf{S}$同时用于Query和Key投影。为兼容采用分组查询注意力GQA的现代架构其中Query头数$h_q$和Key头数$h_k$可能不同),引入额外的投影模块进行维度对齐:
\begin{equation}
\tilde{\mathbf{S}}^{(K)} = \tilde{\mathbf{S}}^{(Q)} \cdot \mathbf{W}_{\text{GQA}}, \quad \mathbf{W}_{\text{GQA}} \in \mathbb{R}^{(h_q \cdot d_{\text{low}}) \times (h_k \cdot d_{\text{low}})},
\label{eq:ch4_roae_gqa}
\end{equation}
从而确保RoAE能够支持GQA架构的模型。
\subsubsection{定向增强应用}
得到适配信号$\mathbf{S}$后,将其应用于目标低频成分。将所有注意力头的低频向量记为$\mathbf{Z} \in \mathbb{R}^{B \times H \times T \times d_{\text{low}}}$,通过逐元素乘性调制实现增强:
\begin{equation}
\mathbf{Z}^{*} = \mathbf{Z} + \mathbf{Z} \odot (\alpha \cdot \mathbf{S}),
\label{eq:ch4_roae_apply}
\end{equation}
其中$\alpha$为缩放因子,控制适配强度。
增强后的低频张量$\mathbf{Z}^{*}$被重新集成到注意力头状态的原始位置替换对应的低频维度。注意力机制随后以这些选择性增强的Query和Key表示进行计算使模型能够更好地利用RoPE的关键频率结构来提升上下文理解能力。
从式~\eqref{eq:ch4_roae_apply}可以看出RoAE的核心在于其"机制感知"设计——不是对注意力表示的全部维度施加通用适配而是精准定位RoPE诱导的功能关键成分进行定向增强。同时适配信号$\mathbf{S}$从输入状态动态生成,使增强过程具有上下文感知能力。
\subsection{动态层选择策略}
\label{subsec:rosa_dls}
RoAE模块提供了层内维度级的定向适配能力但大语言模型在不同层之间同样表现出显著的异质性——低层主要捕获句法特征高层编码抽象语义与上下文知识。若将RoAE均匀地应用于所有层如传统PEFT方法的做法则忽视了层间重要性的差异。为此RoSA引入动态层选择DLS策略自适应地选择并适配最重要的层。
\subsubsection{层重要性估计}
DLS的核心在于准确估计每一层相对于微调目标的重要性。本方法提出使用层归一化LayerNorm参数的梯度范数作为高效的重要性代理。这一选择的合理性在于LayerNorm直接控制Transformer子模块和层之间的信息流其参数梯度大意味着模型需要显著改变该层的输出分布以最小化损失。
在常用的Pre-LN架构中LayerNorm模块分别放置在自注意力模块之前和FFN模块之前。形式上$i$层Transformer $L_i$的重要性分数通过聚合两个LayerNorm参数的梯度$\text{L}_2$范数计算:
\begin{equation}
\text{Score}(L_i) = \sqrt{ \| \nabla \mathbf{\Theta}_{i, \text{attn}} \|_2^2 + \| \nabla \mathbf{\Theta}_{i, \text{ffn}} \|_2^2 },
\label{eq:ch4_dls_score}
\end{equation}
其中$\mathbf{\Theta}_{i, \text{attn}}$$\mathbf{\Theta}_{i, \text{ffn}}$分别为第$i$层中两个LayerNorm模块的可学习参数。在实践中周期性地计算所有层的重要性分数以指导选择。
\subsubsection{动态选择与梯度掩码}
选择过程在初始预热阶段之后,以间隔$u$步的频率周期性激活。每次激活时DLS采用平衡利用与探索的策略来选择层子集
\textbf{利用Exploitation}:以较高概率$p_{\text{exploit}}$,根据重要性分数对所有层排序,选择前$k$层进行训练,其中$k$由预定义的选择比例$k_{\text{ratio}}$决定。
\textbf{探索Exploration}:以概率$1-p_{\text{exploit}}$,随机选择$k$层,确保所有层都有被适配的机会,从而降低陷入局部最优的风险。
确定活跃层集合$\mathcal{L}_S$后,对非选中层施加梯度掩码以阻止参数更新:
\begin{equation}
\nabla L_i \leftarrow \mathbf{0}, \quad \text{if} \quad i \notin \mathcal{L}_S.
\label{eq:ch4_dls_mask}
\end{equation}
DLS通过动态识别和适配最关键的层来减少不必要的参数更新提升效率。值得注意的是DLS具有模型无关性可以方便地集成到现有PEFT流程中。与RoAE结合后DLS完成了RoSA框架在维度级和层级两个维度上的联合选择性适配。
\RestyleAlgo{ruled}
\begin{algorithm}[htp]
\caption[RoPE感知的选择性适配RoSA训练算法]{RoPE感知的选择性适配RoSA训练算法}
\label{alg:ch4_rosa}
\KwIn{预训练大语言模型$\mathcal{M}$,数据集$\mathcal{D}$RoAE超参数$\alpha$, $r_{\text{low}}$DLS超参数$k_{\text{ratio}}$, $p_{\text{exploit}}$, $u$),学习率$\eta$,预热步数$T_{\text{warmup}}$}
使用$\alpha$$r_{\text{low}}$初始化RoAE模块并集成至$\mathcal{M}$\;
仅设RoSA相关参数$\mathbf{\Theta}_{\text{RoSA}}$为可训练\;
\For{每个训练步$t$}{
$\mathcal{D}$中采样一个批次\;
使用RoAE增强的注意力状态执行前向传播式~\ref{eq:ch4_roae_proj}--\ref{eq:ch4_roae_apply}\;
计算损失并执行反向传播以获得梯度\;
\If{$t > T_{\textup{warmup}}$$t \bmod u = 0$}{
使用LayerNorm梯度计算层重要性$\text{Score}(L_i)$(式~\ref{eq:ch4_dls_score}\;
以概率$p_{\text{exploit}}$选择重要性最高的$k_{\text{ratio}}$比例的层(利用);否则随机选择(探索)\;
}
对非选中层施加梯度掩码(式~\ref{eq:ch4_dls_mask}\;
使用优化器以学习率$\eta$更新活跃层参数\;
}
\end{algorithm}
\subsection{RoSA整体算法}
\label{subsec:rosa_algorithm}
RoSA将RoAE和DLS模块集成到标准的因果语言建模框架中使用交叉熵损失进行训练。两个模块联合工作分别在频率维度和模型层两个层面实现定向适配。整体训练流程如算法~\ref{alg:ch4_rosa}所示。
RoSA的主要超参数包括低频维度比例$r_{\text{low}}$默认0.25即增强每个头25\%的低频维度)、缩放因子$\alpha$默认0.1,控制增强幅度)、层选择比例$k_{\text{ratio}}$默认0.5,每次更新一半的层)、选择间隔$u$默认40步、利用概率$p_{\text{exploit}}$默认0.8。低秩投影维度默认设为128。
RoSA的设计具有良好的模块化特性RoAE和DLS各自独立运作可以灵活地与其他微调技术组合使用。RoAE的投影模块也可替换为其他PEFT方法的适配器设计体现了框架的可扩展性。
\section{实验验证与结果分析}
\label{sec:ch4_experiments}
本节通过大量实验系统评估RoSA的有效性。实验围绕以下核心问题展开1RoSA相比现有PEFT基线方法的性能优势2方法在不同骨干模型上的泛化能力3跨模型规模的可扩展性4各组件的贡献分析5关键超参数的敏感性分析6学习到的层选择模式的可解释性分析。
\subsection{实验设置}
\label{subsec:ch4_exp_setup}
\subsubsection{评测任务与数据集}
遵循LLM-Adapters的标准设置本章在两类代表性任务上进行评估
\textbf{常识推理任务}。在八个基准数据集上评估BoolQ、PIQA、Social IQA、ARC-Challenge、ARC-Easy、OBQA、HellaSwag和WinoGrande使用Commonsense15K作为训练数据。
\textbf{数学推理任务}。在七个基准数据集上评估MultiArith、GSM8K、AddSub、AQuA、SingleEq、SVAMP和MAWPS使用Math10K作为训练数据。
所有任务使用准确率作为评估指标报告Micro-Avg样本加权平均
\subsubsection{骨干模型}
本章实验采用三种广泛使用的大语言模型作为骨干Qwen2.5-7B、Llama-3.1-8B和Gemma2-9B。在可扩展性实验中进一步使用Qwen2.5系列的0.5B、1.5B、3B和7B四个规模。
\subsubsection{基线方法}
实验与多类主流PEFT方法进行比较覆盖不同的适配策略低秩方法LoRA、DoRA、AdaLoRA、结构化矩阵方法BOFT、C3A、BONE、轻量缩放方法VeRA、LN Tuning
\subsubsection{实现细节}
实验在NVIDIA RTX 3090上使用PyTorch和HuggingFace Transformers进行。采用AdamW优化器学习率1e-3余弦学习率调度。RoSA超参数$r_{\text{low}} = 0.25$$\alpha = 0.1$低秩投影维度128$k_{\text{ratio}} = 0.5$$u = 40$步,$p_{\text{exploit}} = 0.8$。使用BF16混合精度与DeepSpeed ZeRO-1优化。
\subsection{RoSA实验结果与分析}
\label{subsec:ch4_rosa_results}
\subsubsection{常识推理性能}
表~\ref{tab:ch4_rosa_common}展示了RoSA与基线方法在常识推理任务上的性能比较。
\begin{table}[!htbp]
\centering
\caption[RoSA与基线方法在常识推理任务上的性能比较]{RoSA与基线方法在常识推理任务上的性能比较。\\在三种骨干模型上RoSA在可比参数预算下均取得最优平均性能。\\ *表示相比最优基线的统计显著提升双侧t检验$p<0.05$)。}
\label{tab:ch4_rosa_common}
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{0.96}
\begin{tabular}{l|lcccccccccc}
\toprule
\textbf{骨干模型} & \textbf{方法} & \textbf{参数(\%)} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} \\
\midrule
\multirow{9}{*}{\textbf{Qwen2.5-7B}}
& LoRA & 0.527 & 66.9 & 86.8 & 76.7 & 88.2 & 93.9 & 87.2 & 89.7 & 72.2 & 84.3 \\
& DoRA & 0.546 & 68.3 & \underline{87.4} & 77.2 & \underline{89.4} & 95.2 & 88.0 & \underline{90.0} & 70.4 & 84.9 \\
& AdaLoRA & 0.396 & \underline{69.7} & \underline{87.4} & \underline{77.9} & 88.9 & \textbf{95.7} & \underline{89.4} & \textbf{90.6} & 72.6 & \underline{85.6} \\
& BOFT & 0.023 & 68.5 & 86.0 & 76.1 & 87.5 & 94.6 & 82.4 & 86.1 & 65.3 & 82.4 \\
& VERA & 0.018 & 55.4 & 83.7 & 74.1 & 85.1 & 93.6 & 77.2 & 82.2 & 64.1 & 77.9 \\
& C3A & 0.665 & 69.5 & 87.0 & 77.5 & 88.9 & 95.2 & 86.6 & 89.9 & 71.6 & 85.0 \\
& BONE & 0.291 & 67.6 & 84.9 & 76.8 & 85.2 & 94.3 & 87.4 & 88.3 & \textbf{77.9} & 83.9 \\
& LN Tuning & 0.001 & 62.5 & 86.0 & 73.3 & 85.0 & 93.3 & 77.2 & 80.9 & 62.1 & 78.4 \\
& \textbf{RoSA} & 0.261 & \textbf{70.5} & \textbf{88.0} & \textbf{79.1} & \textbf{90.1} & \underline{95.3} & \textbf{89.6} & \textbf{90.6} & \underline{73.7} & \textbf{85.9*} \\
\midrule
\multirow{9}{*}{\textbf{Llama3.1-8B}}
& LoRA & 0.520 & \textbf{71.7} & 86.8 & 75.5 & 83.1 & \underline{92.7} & 82.4 & \underline{88.6} & 68.8 & 83.7 \\
& DoRA & 0.537 & 71.5 & 86.9 & 75.8 & 83.2 & 92.5 & 82.2 & 88.5 & 70.0 & 83.8 \\
& AdaLoRA & 0.390 & 71.1 & 86.2 & 74.7 & \textbf{83.6} & 92.6 & 82.8 & 87.2 & \underline{70.8} & 83.0 \\
& BOFT & 0.028 & 70.5 & 85.5 & 72.4 & 80.0 & 91.9 & 79.0 & 82.4 & 62.5 & 79.7 \\
& VERA & 0.017 & 68.8 & 82.9 & 68.4 & 77.6 & 91.4 & 77.4 & 75.2 & 57.4 & 75.2 \\
& C3A & 0.674 & \underline{71.6} & \textbf{87.7} & \underline{76.2} & 83.1 & 92.6 & \textbf{84.4} & 88.3 & 70.6 & \underline{83.9} \\
& BONE & 0.274 & 64.7 & 78.4 & 74.2 & 72.1 & 86.8 & 78.2 & 81.8 & 70.3 & 77.6 \\
& LN Tuning & 0.003 & 70.1 & 84.6 & 70.9 & 80.2 & 91.8 & 78.8 & 80.6 & 61.8 & 78.6 \\
& \textbf{RoSA} & 0.329 & \textbf{71.7} & \underline{87.1} & \textbf{76.4} & \underline{83.3} & \textbf{92.8} & \underline{83.6} & \textbf{89.0} & \textbf{74.8} & \textbf{84.4*} \\
\midrule
\multirow{9}{*}{\textbf{Gemma2-9B}}
& LoRA & 0.581 & 69.3 & 88.0 & 77.8 & \textbf{88.0} & \textbf{95.5} & \underline{87.4} & 89.8 & \underline{77.4} & 85.4 \\
& DoRA & 0.601 & 70.0 & 87.3 & \underline{78.1} & 86.1 & 94.3 & 87.0 & 89.4 & 76.8 & 85.0 \\
& AdaLoRA & 0.437 & \underline{72.3} & \underline{88.2} & 77.4 & 87.5 & \textbf{95.5} & 86.2 & 89.0 & 73.4 & 85.1 \\
& BOFT & 0.029 & 65.2 & 83.2 & 72.4 & 81.7 & 91.1 & 75.0 & 80.3 & 62.1 & 77.7 \\
& VERA & 0.020 & 65.2 & 79.8 & 66.0 & 73.8 & 85.8 & 61.8 & 70.5 & 56.1 & 70.9 \\
& C3A & 0.699 & 70.7 & 87.7 & 77.7 & 86.9 & \underline{94.5} & 86.8 & \textbf{90.4} & 75.3 & \underline{85.5} \\
& BONE & 0.319 & 60.3 & 75.3 & 66.3 & 69.0 & 83.7 & 74.0 & 67.3 & 64.3 & 68.7 \\
& LN Tuning & 0.007 & 61.2 & 78.1 & 66.1 & 73.2 & 85.0 & 65.0 & 71.9 & 55.1 & 70.7 \\
& \textbf{RoSA} & 0.363 & \textbf{74.0} & \textbf{88.3} & \textbf{78.5} & \underline{87.8} & \textbf{95.5} & \textbf{87.8} & \underline{90.0} & \textbf{77.5} & \textbf{86.2*} \\
\bottomrule
\end{tabular}
}
\end{table}
实验结果表明RoSA在所有三种骨干模型上均取得了最优的平均性能同时保持了较低的可训练参数量。在Qwen2.5-7B上RoSA以0.261\%的参数量低于大多数基线达到85.9\%的Micro-Avg在Llama3.1-8B上以0.329\%参数量达到84.4\%在Gemma2-9B上以0.363\%参数量达到86.2\%
从基线方法的比较中可以观察到1AdaLoRA的动态秩分配策略带来了较好的性能这与DLS模块动态选择层的设计原则一致2LN Tuning虽然参数极少但表现合理进一步验证了使用LayerNorm作为层重要性代理的合理性。
\subsubsection{数学推理性能}
表~\ref{tab:ch4_rosa_math}展示了RoSA在Qwen2.5-7B上数学推理任务的结果。
\begin{table}[!htbp]
\centering
\caption[RoSA与基线方法在Qwen2.5-7B上数学推理任务的性能比较]{RoSA与基线方法在Qwen2.5-7B上数学推理任务的性能比较。}
\label{tab:ch4_rosa_math}
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{0.95}
\begin{tabular}{lccccccccc}
\toprule
\textbf{方法} & \textbf{参数(\%)} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} \\
\midrule
LoRA & 0.527 & 93.0 & 68.7 & 88.8 & 33.8 & \underline{88.9} & 79.2 & 88.2 & 77.7 \\
DoRA & 0.546 & 92.3 & \underline{70.0} & 88.6 & 34.6 & 88.5 & 79.6 & 87.3 & 78.1 \\
AdaLoRA & 0.396 & 90.0 & 68.8 & 85.3 & 33.8 & 85.6 & 78.9 & 84.0 & 76.3 \\
BOFT & 0.023 & 89.6 & 67.8 & 82.5 & 31.1 & 86.2 & 75.2 & 80.2 & 74.6 \\
VERA & 0.018 & 72.5 & 63.7 & 80.7 & 31.1 & 80.3 & 74.2 & 83.1 & 70.0 \\
C3A & 0.665 & \textbf{95.3} & 67.1 & \underline{90.3} & \textbf{35.4} & \textbf{90.1} & \underline{82.1} & \underline{89.4} & \underline{78.7} \\
BONE & 0.291 & 92.8 & 66.6 & 89.6 & 33.4 & 88.3 & \underline{82.1} & 89.0 & 77.8 \\
LN Tuning & 0.001 & 79.6 & 63.6 & 72.1 & 34.2 & 75.3 & 68.1 & 70.1 & 67.7 \\
\textbf{RoSA} & 0.261 & \underline{94.3} & \textbf{71.3} & \textbf{92.1} & \underline{35.0} & \textbf{90.1} & \textbf{82.2} & \textbf{92.0} & \textbf{80.1*} \\
\bottomrule
\end{tabular}
}
\end{table}
数学推理任务上的结果与常识推理一致RoSA在大部分基准数据集上取得最优或次优性能综合Micro-Avg达到80.1\%显著优于所有基线方法。这表明RoSA的维度级结构感知适配不仅适用于语义理解类任务对数值计算与多步推理同样有效。
\subsubsection{跨模型规模的可扩展性}
表~\ref{tab:ch4_rosa_scale}展示了RoSA在不同规模Qwen2.5模型上的可扩展性。
\begin{table}[!htbp]
\centering
\caption[RoSA在不同规模Qwen2.5模型上常识推理任务的可扩展性比较]{RoSA在不同规模Qwen2.5模型上常识推理任务的可扩展性比较。}
\label{tab:ch4_rosa_scale}
\begin{tabular}{lcccc}
\toprule
\textbf{方法} & \textbf{0.5B} & \textbf{1.5B} & \textbf{3B} & \textbf{7B} \\
\midrule
AdaLoRA & \underline{53.5} & \underline{75.1} & 81.1 & \underline{85.6} \\
C3A & 53.1 & 74.9 & \underline{81.2} & 85.0 \\
\textbf{RoSA} & \textbf{53.7} & \textbf{75.5} & \textbf{82.0} & \textbf{85.9} \\
\bottomrule
\end{tabular}
\end{table}
结果显示随着模型规模增大所有方法的性能均有提升但RoSA在各个规模上始终保持明显优势。这表明RoSA的结构感知适配策略具有良好的可扩展性和鲁棒性。
\subsection{消融实验与深入分析}
\label{subsec:ch4_ablation}
\subsubsection{RoSA组件消融}
表~\ref{tab:ch4_rosa_ablation}展示了RoSA各组件的消融分析在Qwen2.5-7B常识推理任务上进行。
\begin{table}[!htbp]
\centering
\caption[RoSA消融实验结果Qwen2.5-7B常识推理Micro-Avg]{RoSA消融实验结果Qwen2.5-7B常识推理Micro-Avg}
\label{tab:ch4_rosa_ablation}
\begin{tabular}{lc}
\toprule
\textbf{变体} & \textbf{Micro-Avg$\uparrow$} \\
\midrule
RoSA完整 & \textbf{85.9} \\
RoSA-RoAEonly移除DLS & 84.8 \\
RoSA-RoAE0.5$r_{\text{low}}=0.5$含DLS & 85.6 \\
RoSA-Lr128用LoRA$r$=128替代RoAE含DLS & 83.9 \\
RoSA-Lr64用LoRA$r$=64替代RoAE含DLS & 80.7 \\
\bottomrule
\end{tabular}
\end{table}
消融分析揭示1移除DLS导致1.1\%的下降85.9→84.8证明动态层选择的贡献显著2$r_{\text{low}}$从0.25增至0.5即扩大增强范围到一半维度导致0.3\%下降85.9→85.6表明更集中地增强低频子空间更为有效3用标准LoRA替代RoAE后性能大幅下降85.9→83.9/80.7说明RoPE感知的频率定向增强优于通用低秩适配。
\subsubsection{DLS层选择比例的敏感性}
\begin{figure}[htp]
\centering
\includegraphics[width=0.45\linewidth]{assets/4_dls_sensitivity.pdf}
\caption[RoSA中层选择比例$k_{\text{ratio}}$的敏感性分析]{RoSA中层选择比例$k_{\text{ratio}}$的敏感性分析。}
\label{fig:ch4_dls_sensitivity}
\end{figure}
对RoSA的DLS模块进行层选择比例$k_{\text{ratio}}$的敏感性分析。结果表明,$k_{\text{ratio}} \approx 0.5$时性能最佳。增大该比例反而略微降低性能,说明选择性地更新约一半的层比更新所有层更有效,这与层间异质性的假设一致。
\subsection{可解释性分析}
\label{subsec:ch4_interpretability}
\subsubsection{RoSA的层选择行为}
\begin{figure}[htp]
\centering
\includegraphics[width=0.6\linewidth]{assets/4_layer_selection.pdf}
\caption[RoSA训练过程中各层被DLS选择的频率可视化Qwen2.5-7B]{RoSA训练过程中各层被DLS选择的频率可视化Qwen2.5-7B}
\label{fig:ch4_layer_sel}
\end{figure}
对RoSA训练过程中DLS的层选择频率进行可视化分析。结果清晰地展现了层间的显著异质性某些层被一致地识别为更重要并更频繁地被选择进行适配而另一些层则很少被选中。这一观察从实证角度验证了层间异质性假设也说明了DLS策略中利用-探索平衡机制的必要性——避免忽视那些选择频率较低但潜在有价值的层。
\section{本章小结}
\label{sec:ch4_summary}
本章围绕维度级位置结构异质性($\mathcal{R}_{dim}$在统一分析框架下提出了RoPE感知的选择性适配方法RoSA
RoSA通过RoPE感知注意力增强模块RoAE选择性地增强Query/Key表示中功能关键的低频维度成分并通过动态层选择策略DLS自适应地分配层间适配资源实现了"维度内精准增强+层间动态选择"的双层级结构感知适配。在15个常识与数学推理基准上RoSA在三种骨干模型Qwen2.5-7B、Llama3.1-8B、Gemma2-9B上均取得了最优性能同时保持了较低的参数开销0.26\%--0.36\%可训练参数。消融实验验证了RoAE与DLS两个组件的各自贡献可解释性分析揭示了DLS学习到的层选择模式与层间功能分化的一致性。
然而RoSA的维度增强仍是静态选择模式——低频维度的选择范围由超参数固定调制信号不区分不同注意力头的位置偏好也无法根据输入内容进行动态调整。下一章将提出DyPAM方法将维度级适配从静态选择推进至输入条件化的动态调制进一步深化位置结构感知适配的精细化程度。