859 lines
65 KiB
TeX
859 lines
65 KiB
TeX
% !TeX root = ../main.tex
|
||
% 第四章 位置结构驱动的各向异性时空表征学习方法
|
||
\chapter{位置结构驱动的各向异性时空表征学习方法}
|
||
\label{chap:rosa_dypam}
|
||
|
||
\section{本章概述}
|
||
\label{sec:ch4_overview}
|
||
|
||
第三章围绕模块级功能异质性($\mathcal{R}_{mod}$),提出了基于上下文注意力调制的多任务时空表征学习方法HyCAM,实现了在注意力输出层面对不同功能模块的差异化适配。然而,在时空数据的表征学习中,除模块间的功能差异外,模型内部表示向量的\emph{维度级结构}同样蕴含着丰富的异质性信息。
|
||
|
||
在基于Transformer架构的大语言模型中,旋转位置编码(Rotary Position Embedding, RoPE)是编码序列位置信息的核心机制。RoPE通过对注意力表示的Query与Key向量施加维度对相关的旋转变换,将相对位置关系融入注意力计算过程。由于不同维度对的旋转频率按几何级数递减,低索引维度对应高频旋转(编码局部位置差异),高索引维度对应低频旋转(编码全局上下文依赖)。这一频率结构导致注意力表示在不同维度上呈现出显著的激活强度差异与功能分化,即维度级位置结构异质性($\mathcal{R}_{dim}$)。
|
||
|
||
对于时空数据建模而言,这种维度级异质性具有直接的物理对应关系。时空序列中既包含短时局部波动(如分钟级交通流变化),也包含长程全局依赖(如跨区域的通勤模式与日周期规律)。RoPE的频率结构恰好为多尺度时空依赖的建模提供了天然的维度划分基础——不同频率的维度对可以分别承担不同时空尺度的位置感知功能。因此,在适配过程中充分感知并利用这种维度级位置结构,对于提升时空表征学习的质量具有重要意义。
|
||
|
||
然而,现有参数高效微调方法普遍忽视了维度级位置结构异质性。以LoRA为代表的低秩适配方法将可训练矩阵均匀地插入各线性层,对所有维度施加同质化的更新;类似地,其他主流方法也缺乏对注意力表示内部频率结构的感知能力。这种"维度无关"的适配范式在面对时空数据的多尺度位置依赖时,难以实现精细化的参数分配与功能调制。
|
||
|
||
针对上述问题,本章在第一章提出的结构感知调制统一框架(式~\ref{eq:ch1_unified_M})下,聚焦维度级位置结构异质性($\mathcal{R}_{dim}$),提出两种递进式方法:
|
||
|
||
\textbf{(1)RoPE感知的选择性适配方法(RoSA)}。RoSA基于对RoPE诱导的维度级激活异质性的实证分析,提出RoPE感知注意力增强(RoAE)模块,选择性地增强Query/Key表示中功能关键的低频维度成分;同时引入动态层选择(DLS)策略,基于LayerNorm梯度范数自适应识别并更新最关键的Transformer层。RoSA实现了"维度内选择性增强+层间动态分配"的双层级结构感知适配。
|
||
|
||
\textbf{(2)动态位置注意力调制方法(DyPAM)}。DyPAM在RoSA的基础上进一步推进,提出输入条件化的维度级调制机制,使调制信号不再是静态的维度选择,而是根据输入上下文动态生成;同时引入头级与层级结构偏置,允许不同注意力头和不同层维持各自的位置偏好。DyPAM实现了"输入动态调制+多粒度结构偏置"的全面位置感知适配。
|
||
|
||
从RoSA到DyPAM的演进,体现了维度级位置结构适配从"静态选择"到"动态调制"的递进深化。两种方法均属于统一框架中的乘性调制形式(式~\ref{eq:ch1_multiplicative}),通过不同粒度的结构角色描述符$\mathcal{R}_{dim}$实现对注意力表示流的精细化调制。
|
||
|
||
本章后续安排如下:第~\ref{sec:ch4_background}~节分析RoPE机制及其诱导的维度级异质性问题;第~\ref{sec:rosa}~节详述RoSA方法;第~\ref{sec:dypam}~节详述DyPAM方法;第~\ref{sec:ch4_unified_view}~节从统一视角对比分析两种方法;第~\ref{sec:ch4_experiments}~节给出实验验证与结果分析;第~\ref{sec:ch4_summary}~节总结全章。
|
||
|
||
|
||
\section{维度级位置结构异质性的问题分析}
|
||
\label{sec:ch4_background}
|
||
|
||
本节首先回顾RoPE的数学原理,然后从实证角度分析其诱导的维度级异质性现象,最后阐述该现象对时空适配的启示。
|
||
|
||
\subsection{旋转位置编码机制}
|
||
\label{subsec:ch4_rope}
|
||
|
||
现代大语言模型(如LLaMA、Qwen、Gemma系列)广泛采用基于Transformer解码器架构的设计,其核心由堆叠的Transformer块组成,每个块包含多头自注意力(MHSA)模块和前馈网络(FFN)模块。自注意力机制本身具有置换不变性,不编码任何位置信息,因此需要外部机制将序列顺序信息注入到注意力计算中。
|
||
|
||
旋转位置编码(RoPE)通过对Query和Key向量施加位置相关的旋转变换来编码相对位置关系。给定第$\ell$层Transformer块的隐藏状态$\mathbf{H}^{(\ell)} \in \mathbb{R}^{B \times T \times d}$(其中$B$为批次大小,$T$为序列长度,$d$为隐藏维度),经过线性投影得到Query和Key矩阵:
|
||
\begin{equation}
|
||
\mathbf{Q}^{(\ell)} = \mathbf{H}^{(\ell)} \mathbf{W}_Q^{(\ell)}, \quad
|
||
\mathbf{K}^{(\ell)} = \mathbf{H}^{(\ell)} \mathbf{W}_K^{(\ell)}, \quad
|
||
\mathbf{V}^{(\ell)} = \mathbf{H}^{(\ell)} \mathbf{W}_V^{(\ell)},
|
||
\label{eq:ch4_qkv_proj}
|
||
\end{equation}
|
||
其中$\mathbf{W}_Q^{(\ell)}, \mathbf{W}_K^{(\ell)}, \mathbf{W}_V^{(\ell)} \in \mathbb{R}^{d \times d}$为可学习的投影矩阵。投影后的表示被重塑为$H$个注意力头的形式,每个头的维度为$d_h = d/H$。
|
||
|
||
对于第$h$个注意力头中位于位置$t$的向量$\mathbf{z} \in \mathbb{R}^{d_h}$($d_h$为偶数),RoPE将其分为实部$\mathbf{z}^{\text{real}}$和虚部$\mathbf{z}^{\text{imag}}$两半,每半维度为$d_h/2$。对于每个索引$i$,RoPE将$(\mathbf{z}^{\text{real}}_i, \mathbf{z}^{\text{imag}}_i)$视为复数分量,施加二维旋转:
|
||
\begin{equation}
|
||
\text{RoPE}(\mathbf{z}^{\text{real}}_i, \mathbf{z}^{\text{imag}}_i) =
|
||
\begin{bmatrix}
|
||
\cos \theta_i & -\sin \theta_i \\
|
||
\sin \theta_i & \cos \theta_i
|
||
\end{bmatrix}
|
||
\begin{bmatrix}
|
||
\mathbf{z}^{\text{real}}_i \\
|
||
\mathbf{z}^{\text{imag}}_i
|
||
\end{bmatrix},
|
||
\label{eq:ch4_rope}
|
||
\end{equation}
|
||
其中旋转角度$\theta_i = t \cdot \omega^{-2i/d_h}$,$t$为token位置索引,$\omega$为基础频率常数(通常设为$10000$)。由于$\theta_i$随索引$i$的增大而几何递减,低索引维度对应高频旋转,编码局部位置差异;高索引维度对应低频旋转,编码全局上下文依赖。
|
||
|
||
该旋转操作使得两个位置$t_1$和$t_2$之间的注意力分数仅依赖于它们的相对位置差$t_1 - t_2$,从而实现了相对位置编码的优良性质。更重要的是,由于每个维度对在不同频率下旋转,不同维度对对相对位置距离的响应函数也各不相同,这直接导致了维度级的位置感知异质性。
|
||
|
||
\subsection{RoPE诱导的维度级激活异质性}
|
||
\label{subsec:ch4_heterogeneity}
|
||
|
||
RoPE的频率结构不仅是数学上的设计选择,更在实际模型中诱导了可观测的激活异质性现象。本节从多个角度展示这一异质性。
|
||
|
||
\subsubsection{跨维度激活异质性}
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\subcaptionbox{跨维度激活分布\label{fig:ch4_attn_dim}}{%
|
||
\includegraphics[width=0.47\linewidth]{assets/4_SingleLayer10.pdf}}
|
||
\hfill
|
||
\subcaptionbox{跨层激活分布\label{fig:ch4_attn_layer}}{%
|
||
\includegraphics[width=0.48\linewidth]{assets/4_AcrossLayer.pdf}}
|
||
\caption{预训练模型(LLaMA-2-7B)中Query状态的激活强度可视化。通过计算每个注意力头各维度的平均L2范数来量化激活强度。低频维度(高索引)集中了更强的激活,且不同层之间呈现差异化的激活模式,体现了维度级和层级的双重异质性。}
|
||
\label{fig:ch4_activation}
|
||
\end{figure}
|
||
|
||
通过对预训练模型(如LLaMA、Qwen系列)的Query状态进行激活强度分析,可以清晰观测到:注意力表示在不同维度通道上的激活强度呈现显著差异。具体而言,低频成分(对应每半注意力状态中高索引维度)表现出更密集、更强烈的激活,而高频成分的激活则较为稀疏。现有研究已经证实,这些显著的低频激活对于模型的上下文理解能力至关重要。
|
||
|
||
这种跨维度的激活异质性意味着,注意力表示的不同维度在功能上并非等价——它们承担着不同频率尺度的位置编码功能,对下游任务的贡献也各不相同。
|
||
|
||
\subsubsection{跨层与跨头激活异质性}
|
||
|
||
维度级激活异质性并非在所有层和所有头上都保持一致。实证分析表明,不同层和不同注意力头展现出差异化的激活模式:
|
||
|
||
(1)\textbf{跨层异质性}。不同Transformer层在相同维度上的激活强度存在显著差异,表明不同深度的层对位置信息的利用程度不同。一般而言,模型的低层倾向于捕获句法结构,高层则更多编码抽象语义与上下文知识,这种功能分化反映在维度激活模式的层间差异上。
|
||
|
||
(2)\textbf{跨头异质性}。同一层内不同注意力头也展现出不同的激活模式,这与多头注意力机制的功能分工有关——不同头可能专注于不同类型的依赖关系建模。
|
||
|
||
\subsubsection{输入依赖的激活异质性}
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.9\linewidth]{assets/4_token_heterogeneity.pdf}
|
||
\caption{不同语义角色的输入token诱导的激活模式差异。具有不同语义角色的token在维度激活分布上呈现系统性差异。}
|
||
\label{fig:ch4_token_hetero}
|
||
\end{figure}
|
||
|
||
除了模型结构层面的异质性外,激活模式还表现出对输入内容的依赖性。不同语义角色的token会诱导系统性不同的激活分布。例如,时空描述性token(如地点名称、时间表达)与功能性token(如连接词、标点)在同一层同一头的维度激活分布上存在明显差异。这一现象表明,理想的维度级适配不应仅是静态的维度选择,还应考虑输入上下文的动态影响。
|
||
|
||
\subsubsection{不同位置编码机制的对比验证}
|
||
|
||
为验证上述维度级异质性确实由RoPE机制诱导,可以对比采用不同位置编码方案的模型。对比分析表明:(1)基于RoPE的模型(如LLaMA、Qwen系列)表现出结构化的、维度依赖的激活模式;(2)采用ALiBi或可学习位置嵌入的模型(如BLOOM、OPT系列)在维度间的激活分布明显更加均匀。这一对比有力地证明了维度级激活异质性与RoPE的频率结构直接相关。
|
||
|
||
进一步地,对比Query、Key和Value三种表示的激活模式发现:Query和Key表示展现出显著的结构化激活异质性,而Value表示的异质性则弱得多。这与RoPE的设计一致——RoPE仅对Query和Key施加位置旋转,不影响Value表示。这也为本章方法仅在Query和Key表示上进行调制提供了理论依据。
|
||
|
||
\subsection{维度级异质性对时空适配的启示}
|
||
\label{subsec:ch4_implication}
|
||
|
||
综合以上分析,RoPE诱导的维度级位置结构异质性对时空适配方法提出了以下启示:
|
||
|
||
\textbf{(1)适配应具有维度感知能力。}不同维度在功能上的分化意味着均匀适配是次优的。有效的方法应当识别并优先增强功能关键的维度成分(如低频维度),实现"精准投放"式的参数分配。
|
||
|
||
\textbf{(2)适配应感知层间差异。}不同层对位置信息的利用程度不同,因此适配资源的层间分配也应当是自适应的,而非在所有层上均匀部署。
|
||
|
||
\textbf{(3)适配应响应输入变化。}静态的维度选择无法捕获输入依赖的激活差异。理想的方法应当能够根据输入上下文动态调整调制信号,实现条件化的位置感知适配。
|
||
|
||
\textbf{(4)适配应对齐RoPE的维度对结构。}RoPE中每对维度共享相同的旋转频率,因此调制操作应当以维度对为基本单位,而非逐维度独立操作,以尊重并利用这一内在结构。
|
||
|
||
上述四点启示构成了本章两种方法的设计原则:RoSA主要回应启示(1)和(2),通过静态的低频维度增强与动态层选择实现结构感知适配;DyPAM则进一步回应启示(3)和(4),通过输入条件化的维度对调制与多粒度结构偏置实现全面的位置感知适配。
|
||
|
||
|
||
\section{RoPE感知的选择性适配方法}
|
||
\label{sec:rosa}
|
||
|
||
基于上节的分析,本节提出RoPE感知的选择性适配方法(RoPE-aware Selective Adaptation, RoSA)。RoSA的核心思想是通过双层级的结构感知策略实现精准适配:在层内,通过RoPE感知注意力增强(RoAE)模块选择性地增强关键低频维度;在层间,通过动态层选择(DLS)策略自适应地识别和更新最重要的层。
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.85\linewidth]{assets/4_rosa_arch.pdf}
|
||
\caption{RoSA方法框架图。RoSA由两个核心模块组成:RoPE感知注意力增强(RoAE),选择性增强RoPE影响的Q/K状态中的低频成分;动态层选择(DLS),基于LayerNorm梯度信号动态选择重要层进行更新。}
|
||
\label{fig:ch4_rosa_arch}
|
||
\end{figure}
|
||
|
||
\subsection{框架概述}
|
||
\label{subsec:rosa_overview}
|
||
|
||
现有PEFT方法在设计适配模块时通常忽略两个关键方面:(i)RoPE引入的频率特异性结构;(ii)层间重要性的异质性。RoSA通过双层级适配策略来弥补这一不足。
|
||
|
||
如图~\ref{fig:ch4_rosa_arch}所示,RoSA的整体框架包含两个互补的核心组件。首先,RoAE模块选择性地增强RoPE影响的注意力状态中的低频成分,这些成分对上下文理解起着关键作用。其次,DLS模块基于梯度重要性指标动态识别并适配最重要的层。通过将频率级和层级的选择性适配相结合,RoSA实现了更有效和高效的适配过程。
|
||
|
||
在统一分析框架(式~\ref{eq:ch1_unified_M})下,RoSA的调制操作可形式化为:
|
||
\begin{equation}
|
||
\mathcal{M}_{\theta}^{\text{RoSA}}(\mathbf{Z}^{(\ell)}; \mathbf{X}, \mathcal{R}_{dim}) =
|
||
\begin{cases}
|
||
\mathbf{Z}^{(\ell)} + \mathbf{Z}^{(\ell)}_{\text{low}} \odot (\alpha \cdot \mathbf{S}_\theta(\mathbf{X})), & \text{if } \ell \in \mathcal{L}_S \\
|
||
\mathbf{Z}^{(\ell)}, & \text{if } \ell \notin \mathcal{L}_S
|
||
\end{cases}
|
||
\label{eq:ch4_rosa_unified}
|
||
\end{equation}
|
||
其中,$\mathbf{Z}^{(\ell)}_{\text{low}}$为第$\ell$层注意力状态的低频成分提取,$\mathbf{S}_\theta(\mathbf{X})$为上下文感知的适配信号,$\mathcal{L}_S$为动态选择的活跃层集合。该形式表明RoSA同时在维度空间和层空间上实现了选择性调制。
|
||
|
||
\subsection{RoPE感知注意力增强模块}
|
||
\label{subsec:rosa_roae}
|
||
|
||
RoAE模块的设计动机在于:RoPE旋转后的注意力状态中,低频维度对长程依赖建模和上下文语义理解起着关键作用,但传统PEFT方法并未显式考虑这一频率结构,而是对所有维度施加通用的适配操作。RoAE通过以下三个步骤实现对关键低频成分的定向增强。
|
||
|
||
\subsubsection{低频成分提取}
|
||
|
||
给定隐藏状态$\mathbf{H} \in \mathbb{R}^{B \times T \times d}$作为某Transformer层的输入,经过标准线性投影得到Query和Key张量后,将其重塑为多头表示,形状为$[B, H, T, d_h]$,其中$H$为注意力头数,$d_h = d/H$为每头维度。RoPE将每个头向量分为实部$\mathbf{z}_{\text{real}}$和虚部$\mathbf{z}_{\text{imag}}$两半,然后对每个复数对施加正弦旋转。
|
||
|
||
为提取低频成分,RoAE遵循RoPE的结构,将每个头向量分为两半(每半大小为$d_h/2$),从每半中取最后$(d_h \cdot r_{\text{low}}) / 2$个维度,将两部分拼接形成一个$d_{\text{low}}$维的向量,记为$\mathbf{z}_{\text{low}}$。其中$r_{\text{low}} \in (0, 1)$为超参数,控制目标低频成分的比例。提取的向量恰好捕获了RoPE影响的Q/K头中功能关键的低频成分。
|
||
|
||
\subsubsection{适配信号生成}
|
||
|
||
为实现对低频成分的定向增强,RoAE首先生成上下文感知的适配信号$\mathbf{S}$。具体地,将隐藏状态通过一个可训练的线性投影$\mathbf{W}_{\text{proj}}$,再经过非线性激活函数(SiLU):
|
||
\begin{equation}
|
||
\tilde{\mathbf{S}} = \text{SiLU}(\mathbf{H} \mathbf{W}_{\text{proj}}), \quad \mathbf{W}_{\text{proj}} \in \mathbb{R}^{d \times (H \cdot d_{\text{low}})},
|
||
\label{eq:ch4_roae_proj}
|
||
\end{equation}
|
||
其中$\tilde{\mathbf{S}} \in \mathbb{R}^{B \times T \times (H \cdot d_{\text{low}})}$。随后将投影后的张量重塑为多头形状$\mathbf{S} \in \mathbb{R}^{B \times H \times T \times d_{\text{low}}}$。
|
||
|
||
为提升参数效率,投影模块$\mathbf{W}_{\text{proj}}$采用低秩分解实现($\mathbf{W}_{\text{proj}} = \mathbf{B}\mathbf{A}$),仅引入少量可训练参数。在默认配置下,同一适配信号$\mathbf{S}$同时用于Query和Key投影。为兼容采用分组查询注意力(GQA)的现代架构(其中Query头数$h_q$和Key头数$h_k$可能不同),引入额外的投影模块进行维度对齐:
|
||
\begin{equation}
|
||
\tilde{\mathbf{S}}^{(K)} = \tilde{\mathbf{S}}^{(Q)} \cdot \mathbf{W}_{\text{GQA}}, \quad \mathbf{W}_{\text{GQA}} \in \mathbb{R}^{(h_q \cdot d_{\text{low}}) \times (h_k \cdot d_{\text{low}})},
|
||
\label{eq:ch4_roae_gqa}
|
||
\end{equation}
|
||
从而确保RoAE能够支持GQA架构的模型。
|
||
|
||
\subsubsection{定向增强应用}
|
||
|
||
得到适配信号$\mathbf{S}$后,将其应用于目标低频成分。将所有注意力头的低频向量记为$\mathbf{Z} \in \mathbb{R}^{B \times H \times T \times d_{\text{low}}}$,通过逐元素乘性调制实现增强:
|
||
\begin{equation}
|
||
\mathbf{Z}^{*} = \mathbf{Z} + \mathbf{Z} \odot (\alpha \cdot \mathbf{S}),
|
||
\label{eq:ch4_roae_apply}
|
||
\end{equation}
|
||
其中$\alpha$为缩放因子,控制适配强度。
|
||
|
||
增强后的低频张量$\mathbf{Z}^{*}$被重新集成到注意力头状态的原始位置,替换对应的低频维度。注意力机制随后以这些选择性增强的Query和Key表示进行计算,使模型能够更好地利用RoPE的关键频率结构来提升上下文理解能力。
|
||
|
||
从式~\eqref{eq:ch4_roae_apply}可以看出,RoAE的核心在于其"机制感知"设计——不是对注意力表示的全部维度施加通用适配,而是精准定位RoPE诱导的功能关键成分进行定向增强。同时,适配信号$\mathbf{S}$从输入状态动态生成,使增强过程具有上下文感知能力。
|
||
|
||
\subsection{动态层选择策略}
|
||
\label{subsec:rosa_dls}
|
||
|
||
RoAE模块提供了层内维度级的定向适配能力,但大语言模型在不同层之间同样表现出显著的异质性——低层主要捕获句法特征,高层编码抽象语义与上下文知识。若将RoAE均匀地应用于所有层(如传统PEFT方法的做法),则忽视了层间重要性的差异。为此,RoSA引入动态层选择(DLS)策略,自适应地选择并适配最重要的层。
|
||
|
||
\subsubsection{层重要性估计}
|
||
|
||
DLS的核心在于准确估计每一层相对于微调目标的重要性。本方法提出使用层归一化(LayerNorm)参数的梯度范数作为高效的重要性代理。这一选择的合理性在于:LayerNorm直接控制Transformer子模块和层之间的信息流,其参数梯度大意味着模型需要显著改变该层的输出分布以最小化损失。
|
||
|
||
在常用的Pre-LN架构中,LayerNorm模块分别放置在自注意力模块之前和FFN模块之前。形式上,第$i$层Transformer $L_i$的重要性分数通过聚合两个LayerNorm参数的梯度$\text{L}_2$范数计算:
|
||
\begin{equation}
|
||
\text{Score}(L_i) = \sqrt{ \| \nabla \mathbf{\Theta}_{i, \text{attn}} \|_2^2 + \| \nabla \mathbf{\Theta}_{i, \text{ffn}} \|_2^2 },
|
||
\label{eq:ch4_dls_score}
|
||
\end{equation}
|
||
其中$\mathbf{\Theta}_{i, \text{attn}}$和$\mathbf{\Theta}_{i, \text{ffn}}$分别为第$i$层中两个LayerNorm模块的可学习参数。在实践中,周期性地计算所有层的重要性分数以指导选择。
|
||
|
||
\subsubsection{动态选择与梯度掩码}
|
||
|
||
选择过程在初始预热阶段之后,以间隔$u$步的频率周期性激活。每次激活时,DLS采用平衡利用与探索的策略来选择层子集:
|
||
|
||
\textbf{利用(Exploitation)}:以较高概率$p_{\text{exploit}}$,根据重要性分数对所有层排序,选择前$k$层进行训练,其中$k$由预定义的选择比例$k_{\text{ratio}}$决定。
|
||
|
||
\textbf{探索(Exploration)}:以概率$1-p_{\text{exploit}}$,随机选择$k$层,确保所有层都有被适配的机会,从而降低陷入局部最优的风险。
|
||
|
||
确定活跃层集合$\mathcal{L}_S$后,对非选中层施加梯度掩码以阻止参数更新:
|
||
\begin{equation}
|
||
\nabla L_i \leftarrow \mathbf{0}, \quad \text{if} \quad i \notin \mathcal{L}_S.
|
||
\label{eq:ch4_dls_mask}
|
||
\end{equation}
|
||
|
||
DLS通过动态识别和适配最关键的层来减少不必要的参数更新,提升效率。值得注意的是,DLS具有模型无关性,可以方便地集成到现有PEFT流程中。与RoAE结合后,DLS完成了RoSA框架在维度级和层级两个维度上的联合选择性适配。
|
||
|
||
\RestyleAlgo{ruled}
|
||
\begin{algorithm}[htp]
|
||
\caption{RoPE感知的选择性适配(RoSA)训练算法}
|
||
\label{alg:ch4_rosa}
|
||
\KwIn{预训练大语言模型$\mathcal{M}$,数据集$\mathcal{D}$,RoAE超参数($\alpha$, $r_{\text{low}}$),DLS超参数($k_{\text{ratio}}$, $p_{\text{exploit}}$, $u$),学习率$\eta$,预热步数$T_{\text{warmup}}$}
|
||
使用$\alpha$和$r_{\text{low}}$初始化RoAE模块并集成至$\mathcal{M}$\;
|
||
仅设RoSA相关参数$\mathbf{\Theta}_{\text{RoSA}}$为可训练\;
|
||
\For{每个训练步$t$}{
|
||
从$\mathcal{D}$中采样一个批次\;
|
||
使用RoAE增强的注意力状态执行前向传播(式~\ref{eq:ch4_roae_proj}--\ref{eq:ch4_roae_apply})\;
|
||
计算损失并执行反向传播以获得梯度\;
|
||
\If{$t > T_{\textup{warmup}}$ 且 $t \bmod u = 0$}{
|
||
使用LayerNorm梯度计算层重要性$\text{Score}(L_i)$(式~\ref{eq:ch4_dls_score})\;
|
||
以概率$p_{\text{exploit}}$选择重要性最高的$k_{\text{ratio}}$比例的层(利用);否则随机选择(探索)\;
|
||
}
|
||
对非选中层施加梯度掩码(式~\ref{eq:ch4_dls_mask})\;
|
||
使用优化器以学习率$\eta$更新活跃层参数\;
|
||
}
|
||
\end{algorithm}
|
||
\subsection{RoSA整体算法}
|
||
\label{subsec:rosa_algorithm}
|
||
|
||
RoSA将RoAE和DLS模块集成到标准的因果语言建模框架中,使用交叉熵损失进行训练。两个模块联合工作,分别在频率维度和模型层两个层面实现定向适配。整体训练流程如算法~\ref{alg:ch4_rosa}所示。
|
||
|
||
RoSA的主要超参数包括:低频维度比例$r_{\text{low}}$(默认0.25,即增强每个头25\%的低频维度)、缩放因子$\alpha$(默认0.1,控制增强幅度)、层选择比例$k_{\text{ratio}}$(默认0.5,每次更新一半的层)、选择间隔$u$(默认40步)、利用概率$p_{\text{exploit}}$(默认0.8)。低秩投影维度默认设为128。
|
||
|
||
RoSA的设计具有良好的模块化特性:RoAE和DLS各自独立运作,可以灵活地与其他微调技术组合使用。RoAE的投影模块也可替换为其他PEFT方法的适配器设计,体现了框架的可扩展性。
|
||
|
||
|
||
\section{动态位置注意力调制方法}
|
||
\label{sec:dypam}
|
||
|
||
RoSA通过低频维度选择性增强与动态层选择,初步实现了对维度级位置结构异质性的感知。然而,RoSA的维度增强机制仍然是"选择后增强"的模式——先静态地划定低频维度范围,再在该范围内生成适配信号。这种设计存在两个局限:第一,对低频维度的选择是固定的(由超参数$r_{\text{low}}$决定),无法根据不同输入的特性进行动态调整;第二,调制信号不区分不同注意力头的位置偏好差异。
|
||
|
||
为进一步推进维度级位置感知适配的精细化程度,本节提出动态位置注意力调制方法(Dynamic Positional Attention Modulation, DyPAM)。DyPAM直接在RoPE的维度对结构上进行操作,实现\emph{输入条件化}的维度级调制与\emph{头级/层级}的结构偏置,从"静态选择"跃迁至"动态调制"。
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.85\linewidth]{assets/4_dypam_arch.pdf}
|
||
\caption{DyPAM方法框架图。DyPAM在RoPE之前,将输入条件化的维度级调制与头级和层级结构偏置共同施加于Query和Key表示,实现对位置注意力的细粒度动态适配。}
|
||
\label{fig:ch4_dypam_arch}
|
||
\end{figure}
|
||
|
||
\subsection{框架概述}
|
||
\label{subsec:dypam_overview}
|
||
|
||
DyPAM的核心设计原则是:针对注意力在维度、头、层和输入token四个层面的异质性行为,通过结构感知的乘性调制实现精细化的位置注意力适配。如图~\ref{fig:ch4_dypam_arch}所示,DyPAM直接在Query和Key表示上操作,联合建模两种互补的调制机制:
|
||
|
||
(1)\textbf{输入条件化的维度级调制}:根据输入上下文动态生成逐维度对的调制因子,使不同维度的位置贡献能够随输入变化而自适应调整。
|
||
|
||
(2)\textbf{头级与层级结构偏置}:引入与输入无关的静态偏置项,编码不同注意力头和不同层在位置维度上的持久性结构偏好。
|
||
|
||
在统一分析框架下,DyPAM的调制操作可形式化为:
|
||
\begin{equation}
|
||
\mathcal{M}_{\theta}^{\text{DyPAM}}(\mathbf{Z}^{(\ell,h)}; \mathbf{X}, \mathcal{R}_{dim}) =
|
||
\mathbf{s}^{(\ell,h)}(\mathbf{X}) \odot \mathbf{Z}^{(\ell,h)},
|
||
\label{eq:ch4_dypam_unified}
|
||
\end{equation}
|
||
其中$\mathbf{s}^{(\ell,h)}(\mathbf{X})$为同时融合了输入条件化信号和结构偏置的调制因子,作用于第$\ell$层第$h$头的Query/Key表示$\mathbf{Z}^{(\ell,h)}$。
|
||
|
||
\subsection{调制特征的构建}
|
||
\label{subsec:dypam_feature}
|
||
|
||
DyPAM在自注意力中的Query和Key表示上进行操作。在每个Transformer层$\ell$,这些表示由token级的隐藏状态$\mathbf{H}^{(\ell)} \in \mathbb{R}^{B \times T \times d}$通过式~\eqref{eq:ch4_qkv_proj}的线性投影获得,随后重塑为逐头表示$\mathbf{Q}^{(\ell,h)}, \mathbf{K}^{(\ell,h)} \in \mathbb{R}^{T \times d_h}$。
|
||
|
||
为实现输入条件化的注意力适配,DyPAM直接从同一隐藏状态$\mathbf{H}^{(\ell)}$推导调制特征。由于隐藏状态编码了token特异性的上下文信息,由此产生的调制特征天然具有token依赖性,且因输入不同而各异,为输入条件化调制提供了基础。具体地,DyPAM对隐藏状态施加轻量级低秩投影以生成调制特征:
|
||
\begin{equation}
|
||
\mathbf{M}^{(\ell)} = \mathbf{H}^{(\ell)} \mathbf{A}^{(\ell)} \mathbf{B}^{(\ell)}, \quad
|
||
\mathbf{M}^{(\ell)} \in \mathbb{R}^{B \times T \times (H \cdot d_e)},
|
||
\label{eq:ch4_dypam_feature}
|
||
\end{equation}
|
||
其中$\mathbf{A}^{(\ell)} \in \mathbb{R}^{d \times r}$和$\mathbf{B}^{(\ell)} \in \mathbb{R}^{r \times (H \cdot d_e)}$为可学习矩阵,秩$r \ll d$,$d_e$为每头特征维度。
|
||
|
||
投影后的特征被重塑为$H$个头特异性的成分,得到每个token位置$t$和注意力头$h$的调制特征$\mathbf{m}^{(\ell)}_{t,h} \in \mathbb{R}^{d_e}$。这些特征编码了每个token在不同头内的上下文表示信息,作为连接token级隐藏状态与后续维度级调制的中间桥梁。
|
||
|
||
\subsection{输入条件化的维度级调制}
|
||
\label{subsec:dypam_dim_modulation}
|
||
|
||
基于调制特征,DyPAM将其映射为与注意力中Query和Key表示对齐的维度级调制值。该映射决定了每个注意力维度的贡献如何以输入条件化的方式被调制。
|
||
|
||
对于每一层$\ell$,DyPAM引入可学习的维度嵌入矩阵,将调制特征投影到注意力维度空间。具体地,对Query和Key分别使用独立的嵌入矩阵:
|
||
\begin{equation}
|
||
\mathbf{E}^{(\ell)}_Q \in \mathbb{R}^{\frac{d_h}{2} \times d_e}, \quad
|
||
\mathbf{E}^{(\ell)}_K \in \mathbb{R}^{\frac{d_h}{2} \times d_e},
|
||
\label{eq:ch4_dypam_embedding}
|
||
\end{equation}
|
||
其中每一行对应一个注意力维度对。这一设计反映了RoPE诱导的结构:每个维度对共享相同的位置旋转,因此表现出相似的位置行为。通过为每个维度对分配单一调制值,DyPAM在尊重RoPE内在结构的同时降低了参数开销。该设计同时兼容分组查询注意力(GQA):Key端的调制在共享同一Key表示的头之间共享,而Query端的调制保持头特异性。
|
||
|
||
给定token位置$t$和注意力头$h$的调制特征$\mathbf{m}^{(\ell)}_{t,h} \in \mathbb{R}^{d_e}$,Query和Key的维度级调制分数分别计算为:
|
||
\begin{equation}
|
||
\mathbf{g}^{(\ell)}_{t,h,Q} = \mathbf{E}^{(\ell)}_Q \mathbf{m}^{(\ell)}_{t,h}, \quad
|
||
\mathbf{g}^{(\ell)}_{t,h,K} = \mathbf{E}^{(\ell)}_K \mathbf{m}^{(\ell)}_{t,h},
|
||
\label{eq:ch4_dypam_score}
|
||
\end{equation}
|
||
其中$\mathbf{g}^{(\ell)}_{t,h,Q}, \mathbf{g}^{(\ell)}_{t,h,K} \in \mathbb{R}^{d_h/2}$分别表示Query和Key维度对的调制分数。
|
||
|
||
输入条件化的维度级调制使DyPAM能够根据输入上下文自适应调整各注意力维度的贡献。通过将调制与RoPE诱导的维度对结构对齐,DyPAM选择性地调整位置信息如何影响注意力计算,在保持参数效率的同时实现了对位置注意力的精细化控制。
|
||
|
||
\subsection{头级与层级结构偏置}
|
||
\label{subsec:dypam_structural}
|
||
|
||
输入条件化的维度级调制捕获了token依赖的变化,但注意力行为在不同注意力头和不同网络层之间也表现出差异。为建模这种结构级的异质性,DyPAM引入与输入无关的头级和层级结构偏置。
|
||
|
||
对于每一层$\ell$,DyPAM维护一个层级偏置向量:
|
||
\begin{equation}
|
||
\boldsymbol{\beta}^{(\ell)} \in \mathbb{R}^{d_h/2},
|
||
\end{equation}
|
||
捕获该层对注意力维度的特有偏好。此外,对于每个注意力头$h$,引入头级偏置向量:
|
||
\begin{equation}
|
||
\boldsymbol{\beta}^{(\ell)}_{h} \in \mathbb{R}^{d_h/2},
|
||
\end{equation}
|
||
允许同一层内不同头维持各自的结构偏好。
|
||
|
||
这些偏置项叠加到维度级调制分数上。对于Query和Key,结构增强后的调制分数分别为:
|
||
\begin{equation}
|
||
\tilde{\mathbf{g}}^{(\ell)}_{t,h,Q} =
|
||
\mathbf{g}^{(\ell)}_{t,h,Q} + \boldsymbol{\beta}^{(\ell)}_{h,Q} + \boldsymbol{\beta}^{(\ell)}_{Q},
|
||
\label{eq:ch4_dypam_struct_q}
|
||
\end{equation}
|
||
\begin{equation}
|
||
\tilde{\mathbf{g}}^{(\ell)}_{t,h,K} =
|
||
\mathbf{g}^{(\ell)}_{t,h,K} + \boldsymbol{\beta}^{(\ell)}_{h,K} + \boldsymbol{\beta}^{(\ell)}_{K},
|
||
\label{eq:ch4_dypam_struct_k}
|
||
\end{equation}
|
||
其中$\mathbf{g}^{(\ell)}_{t,h,Q}$和$\mathbf{g}^{(\ell)}_{t,h,K}$为输入条件化的维度级分数。偏置项在token位置间共享,编码跨输入持久存在的结构偏好。
|
||
|
||
至此,调制分数同时融合了输入条件化的维度级调整与头级、层级的结构偏置,既捕获了token依赖的变化,又编码了持久性的结构偏好。
|
||
|
||
\subsection{调制因子的归一化与应用}
|
||
\label{subsec:dypam_application}
|
||
|
||
组合后的调制分数编码了输入条件化和结构化的维度级调整。DyPAM通过归一化步骤将这些分数映射为有界的调制因子,确保稳定、受控的适配。
|
||
|
||
对于每一层$\ell$、token位置$t$、注意力头$h$和维度对$i$,归一化调制因子计算为:
|
||
\begin{equation}
|
||
s^{(\ell)}_{t,h,i} = 1 + \alpha \cdot \big(\sigma(\tilde{g}^{(\ell)}_{t,h,i}) - 0.5\big),
|
||
\label{eq:ch4_dypam_factor}
|
||
\end{equation}
|
||
其中$\sigma(\cdot)$为Sigmoid函数,$\alpha$控制调制强度。该归一化将调制因子映射到有界区间$[1 - \alpha/2, 1 + \alpha/2]$,使其围绕原始尺度居中,防止偏离预训练表示。
|
||
|
||
调制因子在位置编码之前应用于Query和Key表示。设$\mathbf{q}^{(\ell,h)}_{t,i} \in \mathbb{R}^{2}$和$\mathbf{k}^{(\ell,h)}_{t,i} \in \mathbb{R}^{2}$分别为对应维度对$i$的Query和Key向量配对维度。同一对内的两个维度使用相同的调制因子:
|
||
\begin{equation}
|
||
\hat{\mathbf{q}}^{(\ell,h)}_{t,i} = s^{(\ell)}_{t,h,i} \cdot \mathbf{q}^{(\ell,h)}_{t,i}, \quad
|
||
\hat{\mathbf{k}}^{(\ell,h)}_{t,i} = s^{(\ell)}_{t,h,i} \cdot \mathbf{k}^{(\ell,h)}_{t,i}.
|
||
\label{eq:ch4_dypam_apply}
|
||
\end{equation}
|
||
|
||
调制后的Query和Key表示随后通过RoPE机制并用于标准注意力计算。通过在RoPE之前施加调制,DyPAM使适配与RoPE诱导的位置结构对齐——调制改变的是进入旋转的表示幅度,从而影响不同频率维度对在注意力计算中的相对重要性。
|
||
|
||
\subsection{DyPAM整体算法}
|
||
\label{subsec:dypam_algorithm}
|
||
|
||
DyPAM使用标准的语言建模交叉熵损失进行端到端训练。给定输入序列$\mathbf{x} = (x_1, \dots, x_T)$和目标序列$\mathbf{y} = (y_1, \dots, y_T)$,训练损失定义为:
|
||
\begin{equation}
|
||
\mathcal{L} = -\sum_{t=1}^{T} \log p(y_t \mid x_{\leq t}).
|
||
\label{eq:ch4_dypam_loss}
|
||
\end{equation}
|
||
|
||
整体前向计算与训练流程如算法~\ref{alg:ch4_dypam}所示。
|
||
|
||
\RestyleAlgo{ruled}
|
||
\begin{algorithm}[htp]
|
||
\caption{动态位置注意力调制(DyPAM)训练算法}
|
||
\label{alg:ch4_dypam}
|
||
\KwIn{输入序列$\mathbf{x}$,预训练RoPE大语言模型,DyPAM参数}
|
||
\KwOut{模型输出分布与训练损失$\mathcal{L}$}
|
||
获取$\mathbf{x}$的token嵌入\;
|
||
\For{每个Transformer层$\ell = 1, \dots, L$}{
|
||
计算隐藏状态$\mathbf{H}^{(\ell)}$\;
|
||
投影隐藏状态得到Query和Key表示$\mathbf{Q}^{(\ell)}, \mathbf{K}^{(\ell)}$(式~\ref{eq:ch4_qkv_proj})\;
|
||
重塑为逐头表示$\mathbf{Q}^{(\ell,h)}, \mathbf{K}^{(\ell,h)}$\;
|
||
从隐藏状态构建调制特征$\mathbf{m}^{(\ell)}_{t,h}$(式~\ref{eq:ch4_dypam_feature})\;
|
||
计算输入条件化的维度级调制分数(式~\ref{eq:ch4_dypam_score})\;
|
||
叠加头级和层级结构偏置(式~\ref{eq:ch4_dypam_struct_q}、\ref{eq:ch4_dypam_struct_k})\;
|
||
归一化得到调制因子(式~\ref{eq:ch4_dypam_factor})\;
|
||
将调制因子应用于Query和Key表示(式~\ref{eq:ch4_dypam_apply})\;
|
||
对调制后的Query和Key施加RoPE\;
|
||
使用调制后的表示计算注意力输出\;
|
||
}
|
||
计算模型输出与训练损失$\mathcal{L}$(式~\ref{eq:ch4_dypam_loss})\;
|
||
\end{algorithm}
|
||
|
||
DyPAM的主要超参数包括:调制嵌入维度$d_e$(默认64)、低秩投影秩$r$(默认128)、调制强度$\alpha$(默认0.3)。与RoSA相比,DyPAM不需要显式指定低频维度比例或层选择参数,因为其调制信号覆盖\emph{所有}维度对并在\emph{所有}层上部署,通过学习到的调制因子自动实现差异化分配。
|
||
|
||
|
||
\section{两种方法的统一视角与比较分析}
|
||
\label{sec:ch4_unified_view}
|
||
|
||
RoSA和DyPAM均针对维度级位置结构异质性($\mathcal{R}_{dim}$),但在设计理念和技术实现上形成了从"选择性增强"到"全面调制"的递进关系。本节从统一框架的视角对两种方法进行系统比较。
|
||
|
||
\subsection{统一框架下的形式化对比}
|
||
|
||
在结构感知调制统一框架(式~\ref{eq:ch1_unified_M})下,两种方法可以统一理解为乘性调制的不同实例化:
|
||
|
||
\textbf{RoSA}采用"选择+增强"的调制策略。其调制操作仅作用于维度空间的一个子集(低频维度),调制信号为上下文感知的缩放因子,形式上对应式~\eqref{eq:ch4_rosa_unified}。同时,通过DLS在层空间上进行二值选择(活跃/非活跃),实现层级的稀疏化适配。
|
||
|
||
\textbf{DyPAM}采用"全覆盖+精细化调制"的策略。其调制操作覆盖所有维度对,调制信号同时融合输入条件化成分和结构偏置成分,形式上对应式~\eqref{eq:ch4_dypam_unified}。调制因子被归一化到以1为中心的有界区间,通过学习实现差异化而非显式选择。
|
||
|
||
\subsection{设计维度对比}
|
||
|
||
表~\ref{tab:ch4_compare}从多个设计维度对两种方法进行了系统比较。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{RoSA与DyPAM的设计维度对比}
|
||
\label{tab:ch4_compare}
|
||
\small
|
||
\begin{tabular}{lcc}
|
||
\toprule
|
||
\textbf{设计维度} & \textbf{RoSA} & \textbf{DyPAM} \\
|
||
\midrule
|
||
维度选择 & 静态子集($r_{\text{low}}$) & 全覆盖 \\
|
||
调制粒度 & 逐维度 & 逐维度对 \\
|
||
输入依赖性 & 适配信号输入依赖 & 调制因子输入依赖 \\
|
||
头级差异化 & 共享信号 & 头级偏置 \\
|
||
层级策略 & 二值选择(DLS) & 层级偏置 \\
|
||
调制作用点 & RoPE之后 & RoPE之前 \\
|
||
归一化机制 & 缩放因子$\alpha$ & Sigmoid有界区间 \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
\end{table}
|
||
|
||
\subsection{互补性与递进关系}
|
||
|
||
从设计演进的角度看,DyPAM可以理解为对RoSA的全面推进:
|
||
|
||
(1)\textbf{从静态选择到动态调制}。RoSA通过$r_{\text{low}}$静态划定增强范围,DyPAM则让所有维度对都参与调制,通过学习自动决定每个维度对的调制幅度。
|
||
|
||
(2)\textbf{从维度级到维度对级}。RoSA在逐维度粒度上操作,DyPAM则与RoPE的维度对结构严格对齐,以维度对为基本调制单位。
|
||
|
||
(3)\textbf{从层选择到层偏置}。RoSA通过DLS对层进行二值选择,DyPAM则通过可学习的层级偏置实现柔性的层间差异化。
|
||
|
||
(4)\textbf{引入头级感知}。RoSA在所有头之间共享适配信号,DyPAM则通过头级偏置允许不同头维持独立的位置偏好。
|
||
|
||
两种方法共同验证了一个核心观点:在RoPE驱动的大语言模型中,维度级位置结构异质性是影响适配效果的关键因素。感知并利用这种异质性,无论是通过选择性增强还是全面精细化调制,都能够显著提升参数高效微调的效能。
|
||
|
||
|
||
\section{实验验证与结果分析}
|
||
\label{sec:ch4_experiments}
|
||
|
||
本节通过大量实验系统评估RoSA和DyPAM的有效性。实验围绕以下核心问题展开:(1)两种方法相比现有PEFT基线方法的性能优势;(2)方法在不同骨干模型上的泛化能力;(3)跨模型规模的可扩展性;(4)各组件的贡献分析;(5)关键超参数的敏感性分析;(6)学习到的调制模式的可解释性分析。
|
||
|
||
\subsection{实验设置}
|
||
\label{subsec:ch4_exp_setup}
|
||
|
||
\subsubsection{评测任务与数据集}
|
||
|
||
遵循LLM-Adapters的标准设置,本章在两类代表性任务上进行评估:
|
||
|
||
\textbf{常识推理任务}。在八个基准数据集上评估:BoolQ、PIQA、Social IQA、ARC-Challenge、ARC-Easy、OBQA、HellaSwag和WinoGrande,使用Commonsense15K作为训练数据。
|
||
|
||
\textbf{数学推理任务}。在七个基准数据集上评估:MultiArith、GSM8K、AddSub、AQuA、SingleEq、SVAMP和MAWPS,使用Math10K作为训练数据。
|
||
|
||
所有任务使用准确率作为评估指标,同时报告Micro-Avg(样本加权平均)和Macro-Avg(任务等权平均)。
|
||
|
||
\subsubsection{骨干模型}
|
||
|
||
\textbf{RoSA实验}采用三种广泛使用的大语言模型作为骨干:Qwen2.5-7B、Llama-3.1-8B和Gemma2-9B。在可扩展性实验中进一步使用Qwen2.5系列的0.5B、1.5B、3B和7B四个规模。
|
||
|
||
\textbf{DyPAM实验}采用三种基于RoPE的大语言模型家族:LLaMA 3.2-3B、Qwen3-8B和Gemma3-4B。在可扩展性实验中使用Qwen3系列的0.6B、1.7B、4B和8B四个规模。
|
||
|
||
\subsubsection{基线方法}
|
||
|
||
两组实验均与多类主流PEFT方法进行比较,覆盖不同的适配策略:低秩方法(LoRA、DoRA、AdaLoRA)、结构化矩阵方法(BOFT/OFT、C3A、BONE)、轻量缩放方法(IA$^3$、LN Tuning/VeRA)、频域方法(FourierFT)、稀疏适配方法(SHiRA)。DyPAM的实验中还包含RoSA作为基线之一,以直接比较两种方法。
|
||
|
||
\subsubsection{实现细节}
|
||
|
||
\textbf{RoSA实验}在NVIDIA RTX 3090上使用PyTorch和HuggingFace Transformers进行。采用AdamW优化器,学习率1e-3,余弦学习率调度。RoSA超参数:$r_{\text{low}} = 0.25$,$\alpha = 0.1$,低秩投影维度128,$k_{\text{ratio}} = 0.5$,$u = 40$步,$p_{\text{exploit}} = 0.8$。使用BF16混合精度与DeepSpeed ZeRO-1优化。
|
||
|
||
\textbf{DyPAM实验}在NVIDIA RTX 4090上使用DeepSpeed和BF16精度进行。DyPAM超参数:$d_e = 64$,$r = 128$,$\alpha = 0.3$。对基线方法在可比可训练参数规模下进行公平比较。
|
||
|
||
\subsection{RoSA实验结果与分析}
|
||
\label{subsec:ch4_rosa_results}
|
||
|
||
\subsubsection{常识推理性能}
|
||
|
||
表~\ref{tab:ch4_rosa_common}展示了RoSA与基线方法在常识推理任务上的性能比较。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{RoSA与基线方法在常识推理任务上的性能比较。在三种骨干模型上,RoSA在可比参数预算下均取得最优平均性能。*表示相比最优基线的统计显著提升(双侧t检验,$p<0.05$)。}
|
||
\label{tab:ch4_rosa_common}
|
||
\small
|
||
\resizebox{\linewidth}{!}{
|
||
\renewcommand{\arraystretch}{0.96}
|
||
\begin{tabular}{l|lcccccccccc}
|
||
\toprule
|
||
\textbf{骨干模型} & \textbf{方法} & \textbf{参数(\%)} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} \\
|
||
\midrule
|
||
\multirow{9}{*}{\textbf{Qwen2.5-7B}}
|
||
& LoRA & 0.527 & 66.9 & 86.8 & 76.7 & 88.2 & 93.9 & 87.2 & 89.7 & 72.2 & 84.3 \\
|
||
& DoRA & 0.546 & 68.3 & \underline{87.4} & 77.2 & \underline{89.4} & 95.2 & 88.0 & \underline{90.0} & 70.4 & 84.9 \\
|
||
& AdaLoRA & 0.396 & \underline{69.7} & \underline{87.4} & \underline{77.9} & 88.9 & \textbf{95.7} & \underline{89.4} & \textbf{90.6} & 72.6 & \underline{85.6} \\
|
||
& BOFT & 0.023 & 68.5 & 86.0 & 76.1 & 87.5 & 94.6 & 82.4 & 86.1 & 65.3 & 82.4 \\
|
||
& VERA & 0.018 & 55.4 & 83.7 & 74.1 & 85.1 & 93.6 & 77.2 & 82.2 & 64.1 & 77.9 \\
|
||
& C3A & 0.665 & 69.5 & 87.0 & 77.5 & 88.9 & 95.2 & 86.6 & 89.9 & 71.6 & 85.0 \\
|
||
& BONE & 0.291 & 67.6 & 84.9 & 76.8 & 85.2 & 94.3 & 87.4 & 88.3 & \textbf{77.9} & 83.9 \\
|
||
& LN Tuning & 0.001 & 62.5 & 86.0 & 73.3 & 85.0 & 93.3 & 77.2 & 80.9 & 62.1 & 78.4 \\
|
||
& \textbf{RoSA} & 0.261 & \textbf{70.5} & \textbf{88.0} & \textbf{79.1} & \textbf{90.1} & \underline{95.3} & \textbf{89.6} & \textbf{90.6} & \underline{73.7} & \textbf{85.9*} \\
|
||
\midrule
|
||
\multirow{9}{*}{\textbf{Llama3.1-8B}}
|
||
& LoRA & 0.520 & \textbf{71.7} & 86.8 & 75.5 & 83.1 & \underline{92.7} & 82.4 & \underline{88.6} & 68.8 & 83.7 \\
|
||
& DoRA & 0.537 & 71.5 & 86.9 & 75.8 & 83.2 & 92.5 & 82.2 & 88.5 & 70.0 & 83.8 \\
|
||
& AdaLoRA & 0.390 & 71.1 & 86.2 & 74.7 & \textbf{83.6} & 92.6 & 82.8 & 87.2 & \underline{70.8} & 83.0 \\
|
||
& BOFT & 0.028 & 70.5 & 85.5 & 72.4 & 80.0 & 91.9 & 79.0 & 82.4 & 62.5 & 79.7 \\
|
||
& VERA & 0.017 & 68.8 & 82.9 & 68.4 & 77.6 & 91.4 & 77.4 & 75.2 & 57.4 & 75.2 \\
|
||
& C3A & 0.674 & \underline{71.6} & \textbf{87.7} & \underline{76.2} & 83.1 & 92.6 & \textbf{84.4} & 88.3 & 70.6 & \underline{83.9} \\
|
||
& BONE & 0.274 & 64.7 & 78.4 & 74.2 & 72.1 & 86.8 & 78.2 & 81.8 & 70.3 & 77.6 \\
|
||
& LN Tuning & 0.003 & 70.1 & 84.6 & 70.9 & 80.2 & 91.8 & 78.8 & 80.6 & 61.8 & 78.6 \\
|
||
& \textbf{RoSA} & 0.329 & \textbf{71.7} & \underline{87.1} & \textbf{76.4} & \underline{83.3} & \textbf{92.8} & \underline{83.6} & \textbf{89.0} & \textbf{74.8} & \textbf{84.4*} \\
|
||
\midrule
|
||
\multirow{9}{*}{\textbf{Gemma2-9B}}
|
||
& LoRA & 0.581 & 69.3 & 88.0 & 77.8 & \textbf{88.0} & \textbf{95.5} & \underline{87.4} & 89.8 & \underline{77.4} & 85.4 \\
|
||
& DoRA & 0.601 & 70.0 & 87.3 & \underline{78.1} & 86.1 & 94.3 & 87.0 & 89.4 & 76.8 & 85.0 \\
|
||
& AdaLoRA & 0.437 & \underline{72.3} & \underline{88.2} & 77.4 & 87.5 & \textbf{95.5} & 86.2 & 89.0 & 73.4 & 85.1 \\
|
||
& BOFT & 0.029 & 65.2 & 83.2 & 72.4 & 81.7 & 91.1 & 75.0 & 80.3 & 62.1 & 77.7 \\
|
||
& VERA & 0.020 & 65.2 & 79.8 & 66.0 & 73.8 & 85.8 & 61.8 & 70.5 & 56.1 & 70.9 \\
|
||
& C3A & 0.699 & 70.7 & 87.7 & 77.7 & 86.9 & \underline{94.5} & 86.8 & \textbf{90.4} & 75.3 & \underline{85.5} \\
|
||
& BONE & 0.319 & 60.3 & 75.3 & 66.3 & 69.0 & 83.7 & 74.0 & 67.3 & 64.3 & 68.7 \\
|
||
& LN Tuning & 0.007 & 61.2 & 78.1 & 66.1 & 73.2 & 85.0 & 65.0 & 71.9 & 55.1 & 70.7 \\
|
||
& \textbf{RoSA} & 0.363 & \textbf{74.0} & \textbf{88.3} & \textbf{78.5} & \underline{87.8} & \textbf{95.5} & \textbf{87.8} & \underline{90.0} & \textbf{77.5} & \textbf{86.2*} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
实验结果表明,RoSA在所有三种骨干模型上均取得了最优的平均性能,同时保持了较低的可训练参数量。在Qwen2.5-7B上,RoSA以0.261\%的参数量(低于大多数基线)达到85.9\%的Micro-Avg;在Llama3.1-8B上,以0.329\%参数量达到84.4\%;在Gemma2-9B上,以0.363\%参数量达到86.2\%。
|
||
|
||
从基线方法的比较中可以观察到:(1)AdaLoRA的动态秩分配策略带来了较好的性能,这与DLS模块动态选择层的设计原则一致;(2)LN Tuning虽然参数极少但表现合理,进一步验证了使用LayerNorm作为层重要性代理的合理性。
|
||
|
||
\subsubsection{数学推理性能}
|
||
|
||
表~\ref{tab:ch4_rosa_math}展示了RoSA在Qwen2.5-7B上数学推理任务的结果。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{RoSA与基线方法在Qwen2.5-7B上数学推理任务的性能比较。}
|
||
\label{tab:ch4_rosa_math}
|
||
\small
|
||
\resizebox{\linewidth}{!}{
|
||
\renewcommand{\arraystretch}{0.95}
|
||
\begin{tabular}{lcccccccc}
|
||
\toprule
|
||
\textbf{方法} & \textbf{参数(\%)} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} \\
|
||
\midrule
|
||
LoRA & 0.527 & 93.0 & 68.7 & 88.8 & 33.8 & \underline{88.9} & 79.2 & 88.2 \\
|
||
DoRA & 0.546 & 92.3 & \underline{70.0} & 88.6 & 34.6 & 88.5 & 79.6 & 87.3 \\
|
||
AdaLoRA & 0.396 & 90.0 & 68.8 & 85.3 & 33.8 & 85.6 & 78.9 & 84.0 \\
|
||
BOFT & 0.023 & 89.6 & 67.8 & 82.5 & 31.1 & 86.2 & 75.2 & 80.2 \\
|
||
VERA & 0.018 & 72.5 & 63.7 & 80.7 & 31.1 & 80.3 & 74.2 & 83.1 \\
|
||
C3A & 0.665 & \textbf{95.3} & 67.1 & \underline{90.3} & \textbf{35.4} & \textbf{90.1} & \underline{82.1} & \underline{89.4} \\
|
||
BONE & 0.291 & 92.8 & 66.6 & 89.6 & 33.4 & 88.3 & \underline{82.1} & 89.0 \\
|
||
LN Tuning & 0.001 & 79.6 & 63.6 & 72.1 & 34.2 & 75.3 & 68.1 & 70.1 \\
|
||
\textbf{RoSA} & 0.261 & \underline{94.3} & \textbf{71.3} & \textbf{92.1} & \underline{35.0} & \textbf{90.1} & \textbf{82.2} & \textbf{92.0} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
数学推理任务上的结果与常识推理一致,RoSA在大部分基准数据集上取得最优或次优性能,综合Micro-Avg达到80.1\%,显著优于所有基线方法。这表明RoSA的维度级结构感知适配不仅适用于语义理解类任务,对数值计算与多步推理同样有效。
|
||
|
||
\subsubsection{跨模型规模的可扩展性}
|
||
|
||
表~\ref{tab:ch4_rosa_scale}展示了RoSA在不同规模Qwen2.5模型上的可扩展性。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{RoSA在不同规模Qwen2.5模型上常识推理任务的可扩展性比较。}
|
||
\label{tab:ch4_rosa_scale}
|
||
\small
|
||
\begin{tabular}{lcccc}
|
||
\toprule
|
||
\textbf{方法} & \textbf{0.5B} & \textbf{1.5B} & \textbf{3B} & \textbf{7B} \\
|
||
\midrule
|
||
AdaLoRA & \underline{53.5} & \underline{75.1} & 81.1 & \underline{85.6} \\
|
||
C3A & 53.1 & 74.9 & \underline{81.2} & 85.0 \\
|
||
\textbf{RoSA} & \textbf{53.7} & \textbf{75.5} & \textbf{82.0} & \textbf{85.9} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
\end{table}
|
||
|
||
结果显示,随着模型规模增大,所有方法的性能均有提升,但RoSA在各个规模上始终保持明显优势。这表明RoSA的结构感知适配策略具有良好的可扩展性和鲁棒性。
|
||
|
||
\subsection{DyPAM实验结果与分析}
|
||
\label{subsec:ch4_dypam_results}
|
||
|
||
\subsubsection{数学推理性能}
|
||
|
||
表~\ref{tab:ch4_dypam_math}展示了DyPAM在数学推理任务上的性能。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{DyPAM与基线方法在数学推理任务上的性能比较。*表示统计显著提升。}
|
||
\label{tab:ch4_dypam_math}
|
||
\small
|
||
\resizebox{\linewidth}{!}{
|
||
\renewcommand{\arraystretch}{0.9}
|
||
\begin{tabular}{l|lcccccccccc}
|
||
\toprule
|
||
\textbf{骨干} & \textbf{方法} & \textbf{参数(\%)} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} & \textbf{Macro-Avg$\uparrow$} \\
|
||
\midrule
|
||
\multirow{10}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}}
|
||
& LoRA & 1.12 & 71.50 & 33.21 & 78.48 & 22.44 & 81.50 & 54.10 & 76.47 & 54.96 & 59.67 \\
|
||
& AdaLoRA & 2.22 & 75.67 & 36.32 & 80.51 & 22.83 & 87.80 & 55.60 & 78.57 & 57.90 & 62.47 \\
|
||
& OFT & 0.73 & 87.17 & \textbf{40.18} & \underline{85.82} & \underline{24.02} & 86.42 & 61.50 & \textbf{84.03} & \underline{62.75} & \underline{67.02} \\
|
||
& Bone & 1.14 & \underline{87.50} & 39.73 & 85.57 & 23.62 & 86.61 & \textbf{63.70} & 81.93 & 63.03 & 66.95 \\
|
||
& IA$^3$ & 0.02 & 58.33 & 27.37 & 68.61 & 20.47 & 72.83 & 47.90 & 58.82 & 46.89 & 50.62 \\
|
||
& LN Tuning & 0.01 & 58.00 & 26.38 & 66.58 & 21.26 & 74.80 & 44.90 & 60.08 & 46.01 & 50.29 \\
|
||
& FourierFT & 0.73 & 78.67 & 33.21 & 82.03 & 20.47 & 85.43 & 54.30 & 77.31 & 56.72 & 61.63 \\
|
||
& SHiRA & 1.12 & 82.50 & 38.82 & 84.81 & \underline{24.02} & \underline{87.99} & 56.90 & 81.93 & 60.59 & 65.28 \\
|
||
& RoSA & 0.54 & 84.33 & 37.91 & 82.78 & 22.83 & 87.01 & 52.50 & 78.99 & 59.02 & 63.77 \\
|
||
& \textbf{DyPAM} & 0.92 & \textbf{88.50} & \underline{39.88} & \textbf{86.33} & \textbf{25.20} & \textbf{88.78} & \underline{63.00} & \textbf{84.03} & \textbf{63.58*} & \textbf{67.96*} \\
|
||
\midrule
|
||
\multirow{10}{*}{\rotatebox{90}{\textbf{Qwen3-8B}}}
|
||
& LoRA & 0.79 & 97.67 & 74.91 & 89.87 & 35.83 & 90.55 & 84.70 & 89.08 & 82.04 & 80.37 \\
|
||
& AdaLoRA & 1.57 & 95.17 & 73.01 & 90.63 & 37.01 & 92.32 & 84.80 & 91.60 & 81.62 & 80.65 \\
|
||
& OFT & 0.51 & 95.67 & 73.46 & 90.38 & 33.07 & 94.09 & 84.90 & 91.60 & 81.80 & 80.45 \\
|
||
& Bone & 0.81 & \underline{98.00} & 72.25 & \underline{91.65} & 33.46 & 93.90 & 83.80 & 90.34 & 81.55 & 80.49 \\
|
||
& IA$^3$ & 0.02 & 92.50 & 72.18 & 84.81 & 35.04 & 86.61 & 80.90 & 86.55 & 78.49 & 76.94 \\
|
||
& LN Tuning & 0.00 & 91.67 & 68.69 & 85.32 & \underline{39.76} & 87.40 & 78.00 & 85.71 & 77.01 & 76.65 \\
|
||
& FourierFT & 0.37 & 94.50 & 70.05 & 87.34 & 31.50 & 86.81 & 82.70 & 81.09 & 78.28 & 76.28 \\
|
||
& SHiRA & 0.79 & 94.83 & \underline{75.36} & 90.13 & 37.01 & 93.90 & \textbf{85.70} & 90.34 & \underline{82.57} & \underline{81.04} \\
|
||
& RoSA & 0.36 & 97.83 & 74.07 & 90.38 & 35.43 & \underline{94.49} & 84.80 & \underline{92.02} & 82.48 & 81.29 \\
|
||
& \textbf{DyPAM} & 0.61 & \textbf{99.17} & \textbf{76.72} & \textbf{91.90} & \textbf{40.94} & \textbf{95.28} & \underline{85.50} & \textbf{92.86} & \textbf{84.24*} & \textbf{83.20*} \\
|
||
\midrule
|
||
\multirow{10}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}}
|
||
& LoRA & 1.33 & 86.00 & 51.25 & 72.41 & 25.98 & 75.59 & 62.20 & 75.21 & 63.26 & 64.09 \\
|
||
& AdaLoRA & 2.62 & 82.67 & 51.86 & 66.33 & 31.50 & 73.82 & 62.30 & 73.95 & 62.49 & 63.20 \\
|
||
& OFT & 0.75 & 85.83 & \underline{54.28} & 72.91 & \underline{32.28} & 75.59 & \textbf{63.80} & \underline{76.47} & \underline{65.02} & \underline{65.88} \\
|
||
& Bone & 1.41 & \underline{86.17} & 45.87 & 71.39 & 30.31 & 72.64 & 55.10 & 73.11 & 59.69 & 62.08 \\
|
||
& IA$^3$ & 0.03 & 42.67 & 38.89 & 40.51 & 27.17 & 40.75 & 37.20 & 37.39 & 38.62 & 37.80 \\
|
||
& LN Tuning & 0.01 & 32.67 & 30.63 & 45.06 & 23.62 & 56.69 & 40.80 & 37.82 & 37.64 & 38.18 \\
|
||
& FourierFT & 1.10 & 60.83 & 31.24 & 65.32 & 28.35 & 66.73 & 46.30 & 65.97 & 47.89 & 52.10 \\
|
||
& SHiRA & 1.33 & 72.67 & 42.08 & \underline{73.16} & 31.50 & \textbf{76.57} & 61.30 & 75.63 & 58.92 & 61.84 \\
|
||
& RoSA & 0.40 & 34.50 & 38.51 & 66.84 & 31.10 & 63.19 & 43.70 & 62.18 & 45.53 & 48.58 \\
|
||
& \textbf{DyPAM} & 0.62 & \textbf{86.33} & \textbf{55.19} & \textbf{73.42} & \textbf{32.68} & \underline{76.18} & \underline{62.70} & \textbf{76.89} & \textbf{65.28*} & \textbf{66.20*} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
DyPAM在所有三种骨干模型上均取得了最优的Macro-Avg和Micro-Avg性能,且改进在统计上显著。值得注意的是,在Qwen3-8B上,DyPAM的Macro-Avg达到83.20\%、Micro-Avg达到84.24\%,显著优于RoSA的81.29\%/82.48\%(同为维度级适配方法),验证了从"静态选择"到"动态调制"的设计改进的有效性。
|
||
|
||
在Gemma3-4B上,RoSA的表现明显下降(Macro-Avg仅48.58\%),这可能源于其固定的低频维度选择比例在该架构上未能适配,而DyPAM的自适应调制机制成功避免了这一问题,取得66.20\%的Macro-Avg。
|
||
|
||
\subsubsection{常识推理性能}
|
||
|
||
表~\ref{tab:ch4_dypam_common}展示了DyPAM在常识推理任务上的性能。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{DyPAM与基线方法在常识推理任务上的性能比较。*表示统计显著提升。}
|
||
\label{tab:ch4_dypam_common}
|
||
\small
|
||
\resizebox{\linewidth}{!}{
|
||
\renewcommand{\arraystretch}{0.9}
|
||
\begin{tabular}{l|lcccccccccc}
|
||
\toprule
|
||
\textbf{骨干} & \textbf{方法} & \textbf{参数(\%)} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Macro-Avg$\uparrow$} \\
|
||
\midrule
|
||
\multirow{10}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}}
|
||
& LoRA & 1.12 & 63.61 & 79.71 & 66.94 & 69.45 & 84.05 & 67.00 & 73.94 & 55.56 & 70.03 \\
|
||
& AdaLoRA & 2.22 & 63.52 & 78.94 & 67.09 & 68.94 & 85.14 & 70.20 & 78.11 & 56.35 & 71.04 \\
|
||
& OFT & 0.73 & \underline{65.63} & 79.54 & 70.37 & 70.39 & 85.06 & 71.80 & \underline{83.15} & \underline{66.38} & \underline{74.04} \\
|
||
& Bone & 1.14 & 64.56 & 75.68 & 69.34 & 64.42 & 79.76 & 70.20 & 75.92 & 65.75 & 70.70 \\
|
||
& IA$^3$ & 0.02 & 62.32 & 77.09 & 59.67 & 57.94 & 77.10 & 57.40 & 50.48 & 52.25 & 61.78 \\
|
||
& LN Tuning & 0.01 & 62.51 & 76.99 & 59.52 & 59.81 & 76.52 & 59.00 & 52.02 & 52.17 & 62.32 \\
|
||
& FourierFT & 0.73 & 62.14 & 79.49 & 61.98 & 61.86 & 80.93 & 62.40 & 73.21 & 49.09 & 66.39 \\
|
||
& SHiRA & 1.12 & 65.23 & \underline{79.65} & 69.14 & \underline{71.16} & \underline{84.97} & \underline{71.20} & 83.18 & 65.67 & 73.78 \\
|
||
& RoSA & 0.54 & 64.53 & \underline{79.65} & \underline{69.86} & 69.28 & 84.43 & 70.80 & 83.12 & 63.54 & 73.15 \\
|
||
& \textbf{DyPAM} & 0.92 & \textbf{65.93} & \textbf{79.76} & \textbf{70.88} & \textbf{70.39} & \textbf{85.19} & \textbf{71.80} & \textbf{83.71} & \textbf{65.35} & \textbf{74.13*} \\
|
||
\midrule
|
||
\multirow{10}{*}{\rotatebox{90}{\textbf{Qwen3-8B}}}
|
||
& LoRA & 0.79 & 70.49 & 86.34 & 77.18 & 90.19 & 96.51 & 87.60 & 89.50 & 72.85 & 83.83 \\
|
||
& AdaLoRA & 1.57 & 70.73 & 86.51 & 76.71 & 90.36 & 96.55 & 87.20 & 88.92 & 72.38 & 83.67 \\
|
||
& OFT & 0.51 & 69.97 & 86.83 & 76.56 & 89.93 & 96.97 & 88.00 & 89.17 & \underline{76.48} & 84.24 \\
|
||
& Bone & 0.81 & 69.02 & 85.31 & 75.64 & 88.91 & 95.58 & 87.60 & 89.30 & 76.56 & 83.49 \\
|
||
& IA$^3$ & 0.02 & 69.51 & 86.34 & 76.71 & 90.27 & 96.09 & 84.40 & 85.12 & 66.77 & 81.90 \\
|
||
& LN Tuning & 0.00 & 69.33 & 86.40 & 75.95 & 90.27 & 96.00 & 83.00 & 83.86 & 65.43 & 81.28 \\
|
||
& FourierFT & 0.37 & 69.54 & 84.49 & 73.13 & 85.92 & 95.29 & 77.80 & 80.48 & 62.27 & 78.62 \\
|
||
& SHiRA & 0.79 & \underline{70.83} & \underline{87.05} & \underline{77.33} & \underline{90.36} & \underline{96.97} & \underline{88.20} & \underline{89.56} & 75.77 & \underline{84.51} \\
|
||
& RoSA & 0.36 & 68.96 & 86.94 & 75.33 & 89.85 & 96.38 & \underline{88.20} & 89.43 & 76.16 & 83.91 \\
|
||
& \textbf{DyPAM} & 0.61 & \textbf{70.89} & \textbf{87.11} & \textbf{77.33} & \textbf{90.53} & \textbf{97.05} & \textbf{88.80} & \textbf{89.53} & \textbf{76.80} & \textbf{84.75*} \\
|
||
\midrule
|
||
\multirow{10}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}}
|
||
& LoRA & 1.33 & 65.72 & 79.71 & 69.40 & 74.49 & 87.08 & 71.00 & 74.53 & 55.01 & 72.12 \\
|
||
& AdaLoRA & 2.62 & 66.09 & 79.49 & 68.73 & \underline{76.54} & \underline{89.02} & 74.00 & 73.20 & 58.09 & 73.14 \\
|
||
& OFT & 0.75 & 65.69 & \underline{81.99} & \underline{74.51} & 76.71 & 88.47 & \underline{78.00} & \underline{83.86} & \underline{65.27} & \underline{76.81} \\
|
||
& Bone & 1.41 & 64.68 & 75.35 & 71.24 & 70.39 & 82.83 & 75.80 & 78.33 & 64.48 & 72.89 \\
|
||
& IA$^3$ & 0.02 & 62.17 & 71.49 & 57.32 & 57.51 & 73.19 & 55.20 & 44.89 & 57.85 & 59.95 \\
|
||
& LN Tuning & 0.00 & 62.60 & 66.70 & 49.85 & 49.91 & 63.59 & 45.20 & 47.29 & 60.46 & 55.70 \\
|
||
& FourierFT & 0.37 & 63.94 & 75.57 & 67.14 & 67.32 & 76.05 & 57.80 & 71.81 & 59.35 & 67.37 \\
|
||
& SHiRA & 0.79 & 65.57 & 82.25 & 74.53 & 76.19 & 89.71 & 78.20 & 83.19 & 64.48 & 76.77 \\
|
||
& RoSA & 0.40 & 63.70 & 79.54 & 67.40 & 72.27 & 86.66 & 69.40 & 48.53 & 47.51 & 66.88 \\
|
||
& \textbf{DyPAM} & 0.62 & \textbf{66.21} & \textbf{82.59} & \textbf{74.82} & \textbf{77.13} & \textbf{89.23} & \textbf{79.20} & \textbf{84.09} & \textbf{65.35} & \textbf{77.33*} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
DyPAM在所有三种骨干模型的常识推理任务上均取得统计显著的最优Macro-Avg性能。在LLaMA 3.2-3B上达到74.13\%,在Qwen3-8B上达到84.75\%,在Gemma3-4B上达到77.33\%。常识推理与数学推理上的一致性提升表明,DyPAM的位置注意力调制机制具有跨任务域的普适性。值得注意的是,在Gemma3-4B上,RoSA的Macro-Avg仅为66.88\%,远低于DyPAM的77.33\%,进一步验证了动态调制相对于静态维度选择的优势。
|
||
|
||
\subsubsection{跨模型规模的可扩展性}
|
||
|
||
表~\ref{tab:ch4_dypam_scale}展示了DyPAM在Qwen3系列不同模型规模上的可扩展性分析。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{DyPAM与主要基线方法在不同模型规模上的数学推理性能比较(Macro-Avg准确率\%)。}
|
||
\label{tab:ch4_dypam_scale}
|
||
\small
|
||
\begin{tabular}{lcccc}
|
||
\toprule
|
||
\textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} & \textbf{Qwen3-8B} \\
|
||
\midrule
|
||
LoRA & 64.06 & 66.64 & 75.60 & 80.37 \\
|
||
OFT & \underline{65.96} & \underline{67.81} & 75.54 & 80.45 \\
|
||
SHiRA & 63.95 & 64.65 & 73.33 & \underline{81.04} \\
|
||
RoSA & 63.99 & 67.38 & \underline{77.92} & 81.29 \\
|
||
\textbf{DyPAM} & \textbf{66.13} & \textbf{69.24} & \textbf{78.24} & \textbf{83.20} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
\end{table}
|
||
|
||
DyPAM在Qwen3系列四个规模(0.6B至8B)上均超越所有基线方法。随模型规模增大,DyPAM与基线之间的性能差距进一步扩大(0.6B上超过OFT 0.17个百分点,8B上超过RoSA 1.91个百分点),表明DyPAM能够更充分地利用大模型增加的表征容量来发挥位置感知调制的优势。
|
||
|
||
\subsection{消融实验与深入分析}
|
||
\label{subsec:ch4_ablation}
|
||
|
||
\subsubsection{RoSA组件消融}
|
||
|
||
表~\ref{tab:ch4_rosa_ablation}展示了RoSA各组件的消融分析,在Qwen2.5-7B常识推理任务上进行。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{RoSA消融实验结果(Qwen2.5-7B常识推理Micro-Avg)。}
|
||
\label{tab:ch4_rosa_ablation}
|
||
\small
|
||
\begin{tabular}{lc}
|
||
\toprule
|
||
\textbf{变体} & \textbf{Micro-Avg$\uparrow$} \\
|
||
\midrule
|
||
RoSA(完整) & \textbf{85.9} \\
|
||
RoSA-RoAEonly(移除DLS) & 84.8 \\
|
||
RoSA-RoAE0.5($r_{\text{low}}=0.5$,含DLS) & 85.6 \\
|
||
RoSA-Lr128(用LoRA$r$=128替代RoAE,含DLS) & 83.9 \\
|
||
RoSA-Lr64(用LoRA$r$=64替代RoAE,含DLS) & 80.7 \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
\end{table}
|
||
|
||
消融分析揭示:(1)移除DLS导致1.1\%的下降(85.9→84.8),证明动态层选择的贡献显著;(2)将$r_{\text{low}}$从0.25增至0.5(即扩大增强范围到一半维度)导致0.3\%下降(85.9→85.6),表明更集中地增强低频子空间更为有效;(3)用标准LoRA替代RoAE后性能大幅下降(85.9→83.9/80.7),说明RoPE感知的频率定向增强优于通用低秩适配。
|
||
|
||
\subsubsection{DyPAM组件消融}
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.9\linewidth]{assets/4_dypam_ablation.pdf}
|
||
\caption{DyPAM消融与超参数敏感性分析。(a)移除各组件后的性能变化;(b)调制强度$\alpha$的影响。}
|
||
\label{fig:ch4_dypam_ablation}
|
||
\end{figure}
|
||
|
||
DyPAM的消融实验表明,每个核心组件在整体性能中发挥互补作用:移除任何单一组件均导致一致性的性能下降,表明DyPAM的性能提升源自各组件的联合设计而非孤立的架构选择。
|
||
|
||
\subsubsection{DLS层选择比例的敏感性}
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.45\linewidth]{assets/4_dls_sensitivity.pdf}
|
||
\caption{RoSA中层选择比例$k_{\text{ratio}}$的敏感性分析。}
|
||
\label{fig:ch4_dls_sensitivity}
|
||
\end{figure}
|
||
|
||
对RoSA的DLS模块进行层选择比例$k_{\text{ratio}}$的敏感性分析。结果表明,$k_{\text{ratio}} \approx 0.5$时性能最佳。增大该比例反而略微降低性能,说明选择性地更新约一半的层比更新所有层更有效,这与层间异质性的假设一致。
|
||
|
||
\subsubsection{DyPAM调制强度的敏感性}
|
||
|
||
对DyPAM的调制强度$\alpha$进行敏感性分析。适当的调制幅度显著优于过弱或过强的调制:$\alpha=0.3$附近取得最优性能。过小的$\alpha$限制了调制的表达能力,而过大的$\alpha$可能过度偏离预训练表示,破坏已学知识。
|
||
|
||
\subsection{可解释性分析}
|
||
\label{subsec:ch4_interpretability}
|
||
|
||
\subsubsection{RoSA的层选择行为}
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.6\linewidth]{assets/4_layer_selection.pdf}
|
||
\caption{RoSA训练过程中各层被DLS选择的频率可视化(Qwen2.5-7B)。}
|
||
\label{fig:ch4_layer_sel}
|
||
\end{figure}
|
||
|
||
对RoSA训练过程中DLS的层选择频率进行可视化分析。结果清晰地展现了层间的显著异质性:某些层被一致地识别为更重要并更频繁地被选择进行适配,而另一些层则很少被选中。这一观察从实证角度验证了层间异质性假设,也说明了DLS策略中利用-探索平衡机制的必要性——避免忽视那些选择频率较低但潜在有价值的层。
|
||
|
||
\subsubsection{DyPAM学习到的调制模式}
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.9\linewidth]{assets/4_bias_modulation.pdf}
|
||
\caption{DyPAM学习到的位置调制模式。(a)层级偏置在Query维度上的分布,展示异构且结构化的偏置变化;(b)层级调制范围,显示稳定受控的缩放行为。}
|
||
\label{fig:ch4_modulation_pattern}
|
||
\end{figure}
|
||
|
||
对DyPAM学习到的层级偏置和调制范围进行可视化分析,揭示了两个关键发现:
|
||
|
||
(1)\textbf{异构的结构偏置}。层级偏置在不同层和不同维度上展现出非均匀的变化模式,而非均匀的偏移。这种结构化的非均匀性表明,不同注意力维度在不同深度发展出了各自独特的位置偏好,与位置信息在各层被差异化利用的直觉一致。
|
||
|
||
(2)\textbf{受控的调制范围}。调制因子围绕1保持适度的方差,表明DyPAM进行的是精细化的微调而非大幅度的重塑。这种克制的调制行为在保留预训练注意力结构的同时提供了必要的适配灵活性。
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
\section{本章小结}
|
||
\label{sec:ch4_summary}
|
||
|
||
本章围绕维度级位置结构异质性($\mathcal{R}_{dim}$),在统一分析框架下提出了两种递进式的结构感知适配方法。
|
||
|
||
RoSA通过RoPE感知注意力增强模块(RoAE)选择性地增强Query/Key表示中功能关键的低频维度成分,并通过动态层选择策略(DLS)自适应地分配层间适配资源,实现了"维度内精准增强+层间动态选择"的双层级结构感知适配。在15个常识与数学推理基准上,RoSA在三种骨干模型上均取得了最优性能,同时保持了较低的参数开销。
|
||
|
||
DyPAM进一步将维度级适配从"静态选择"推进至"动态调制",引入输入条件化的维度级调制机制,使调制信号根据输入上下文动态生成;同时引入头级和层级结构偏置,实现多粒度的位置感知。DyPAM通过与RoPE维度对结构的严格对齐和有界调制因子的设计,在保留预训练知识的前提下实现了更精细化的适配。在三种新一代骨干模型和15个基准数据集上,DyPAM进一步超越了包括RoSA在内的所有基线方法。
|
||
|
||
从RoSA到DyPAM的递进演化验证了维度级位置结构异质性作为影响适配效果关键因素的假设,也展示了在统一框架下通过逐步深化结构感知能力来提升适配性能的方法论路径。
|
||
|
||
第三章和第四章分别从模块级功能异质性和维度级位置结构异质性出发,提出了乘性调制范式的结构感知适配方法。下一章将转向频谱级多尺度异质性和参数级容量分配异质性,探索组合式调制和结构分解调制两种新的调制形式,进一步丰富结构感知适配的方法体系。
|
||
|
||
|
||
|