Files
Graduate/chap05.tex
2026-03-23 22:07:08 +08:00

519 lines
44 KiB
TeX
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
% !TeX root = main.tex
% 第五章 基于动态位置调制的维度级表征适配方法
\chapter{基于动态位置调制的维度级表征适配方法}
\label{chap:dypam}
\section{本章概述}
\label{sec:ch5_overview}
本章进一步深化\emph{表示空间}层面的适配机制,将维度级位置结构适配从静态选择推进至动态调制。第四章围绕维度级位置结构异质性($\mathcal{R}_{dim}$提出了RoPE感知的选择性适配方法RoSA通过低频维度的选择性增强与基于梯度信号的动态层选择初步实现了对维度级位置结构的静态选择性感知。然而RoSA的适配机制仍然存在三方面的局限第一低频维度范围由固定超参数$r_{\text{low}}$决定,无法根据不同输入内容自适应调整增强范围;第二,调制信号在所有注意力头之间共享,无法区分不同头在位置编码利用上的差异化偏好;第三,维度选择本身不随输入变化,属于静态的"选择后增强"模式。
针对上述局限,本章在统一框架的乘性调制形式(式~\ref{eq:ch1_multiplicative})下,继续聚焦维度级位置结构异质性($\mathcal{R}_{dim}$提出动态位置注意力调制方法Dynamic Positional Attention Modulation, DyPAM。DyPAM直接在RoPE的维度对结构上操作通过输入条件化的维度级调制机制使调制信号根据输入上下文动态生成同时引入头级与层级结构偏置以编码不同注意力头和不同层的持久性位置偏好。DyPAM实现了从RoSA的"静态选择"到"动态调制"的递进深化,在保持参数效率的同时显著提升了维度级位置感知适配的精细化程度。
本章后续安排如下:第~\ref{sec:ch5_input_dependent}~节分析位置结构异质性的动态特征,揭示静态维度选择的不足;第~\ref{sec:ch5_dypam}~节详述DyPAM方法第~\ref{sec:ch5_unified_view}~节从统一视角对比分析RoSA与DyPAM两种方法第~\ref{sec:ch5_experiments}~节给出实验验证与结果分析;第~\ref{sec:ch5_summary}~节总结全章。
\section{位置结构异质性的动态特征分析}
\label{sec:ch5_input_dependent}
第四章从跨维度、跨层等角度分析了RoPE诱导的维度级激活异质性这些分析为RoSA的静态低频维度增强提供了设计依据。然而上述分析主要关注模型结构本身所带来的固有异质性而实际推理过程中维度级激活模式还表现出两个重要的动态特征一是对输入内容的依赖性——不同语义角色的token诱导系统性不同的维度激活分布二是注意力头之间的差异化偏好——不同头在位置编码维度上的利用模式并不相同。这些动态特征表明静态的维度选择策略难以充分适应不同输入条件下的调制需求。本节从维度对的位置响应特性出发逐步揭示上述动态特征及其对适配方法设计的启示。
\subsection{RoPE的维度对位置响应特性}
\label{subsec:ch5_rope_response}
RoPE的频率结构不仅导致不同维度的激活强度差异如第四章所分析还使不同维度对对相对位置距离具有截然不同的响应函数。
\begin{figure}[htp]
\centering
\includegraphics[width=0.9\linewidth]{assets/5_rope_response.pdf}
\caption[不同维度对的位置响应函数]{不同维度对的位置响应函数。\\ a低索引维度对高频的注意力得分随相对距离快速衰减而高索引维度对低频在长距离上仍保持较高的注意力得分。\\ b所有维度对的位置响应热图展示非均匀的位置敏感性分布。这种差异化的位置响应特性为DyPAM的维度对级调制设计提供了直接动机。}
\label{fig:ch5_rope_response}
\end{figure}
如图~\ref{fig:ch5_rope_response}所示RoPE诱导的旋转使不同维度对在不同相对位置距离上的响应呈现质性差异。低索引维度对对应高频旋转其注意力得分随相对距离快速衰减主要编码局部位置关系而高索引维度对对应低频旋转即使在较长的相对距离上仍能保持显著的注意力得分承担捕获远距离依赖的角色。这种多尺度的位置响应特性意味着不同维度对在注意力计算中承担着不同的功能角色而非等同地贡献位置信息。因此适配方法应在维度对粒度上进行差异化操作而非仅在单维度上选择性增强——这正是DyPAM选择以维度对为基本调制单位的核心动机。
\subsection{输入依赖的激活模式差异}
\label{subsec:ch5_input_hetero}
\begin{figure}[htp]
\centering
\includegraphics[width=0.9\linewidth]{assets/5_token_heterogeneity.pdf}
\caption[不同语义角色的输入token诱导的激活模式差异]{不同语义角色的输入token诱导的激活模式差异。具有不同语义角色的token在维度激活分布上呈现系统性差异。}
\label{fig:ch5_token_hetero}
\end{figure}
除了模型结构层面的异质性外激活模式还表现出对输入内容的依赖性。不同语义角色的token会诱导系统性不同的激活分布。例如描述性token如地点名称、时间表达与功能性token如连接词、标点在同一层同一头的维度激活分布上存在明显差异。这一现象表明理想的维度级适配不应仅是静态的维度选择还应考虑输入上下文的动态影响。
进一步的分析揭示,不同类型的输入序列在维度激活分布上也呈现出系统性差异。当输入包含丰富的结构化信息(如数值推理链、多步逻辑表达)时,低频维度的激活模式与处理简单描述性文本时显著不同。这种输入依赖的激活变化意味着,对于不同类型的输入,最优的维度调制策略也应有所不同。
进一步地,跨头观察表明,同一输入在不同注意力头上的激活分布并不一致。部分注意力头对低频维度对表现出更稳定的响应,部分注意力头则在中高频区域呈现更强的局部变化。这说明位置结构的利用方式同时具有输入依赖性和头级差异性,维度级调制需要在头粒度上保留独立的结构偏好。
\subsection{静态维度选择的局限性}
\label{subsec:ch5_static_limitation}
RoSA通过固定的低频维度比例$r_{\text{low}}$进行维度选择,在所有输入上施加相同的增强范围。这种静态选择机制存在以下不足:
\textbf{1跨输入的不适配性。}不同输入诱导的激活异质性模式各异(如图~\ref{fig:ch5_token_hetero}所示),固定的$r_{\text{low}}$无法为每种输入找到最优的增强范围。在某些输入上,$r_{\text{low}}=0.25$可能遗漏了关键维度;在另一些输入上,则可能引入了冗余维度。
\textbf{2注意力头间差异的忽略。}同一层内不同注意力头展现出不同的激活模式与位置偏好但RoSA在所有头之间共享适配信号无法为每个头提供差异化的调制。
\textbf{3调制粒度的粗糙。}RoSA的"选择后增强"模式将维度二值化为"增强/不增强"两类无法实现连续的、逐维度对粒度的精细化调制。考虑到RoPE对同一维度对内两个分量施加共享旋转后续调制也需要与这一维度对结构保持一致。
上述分析表明维度级适配需要从静态选择范式转向输入条件化的动态调制范式这正是DyPAM的核心设计动机。DyPAM通过输入条件化的调制因子生成机制使每个维度对的调制强度能够根据当前输入上下文自适应调整同时通过头级和层级结构偏置编码不同头和层在位置维度上的持久性偏好实现从"静态选择"到"动态调制"的跃迁。
\section{动态位置注意力调制方法}
\label{sec:ch5_dypam}
RoSA通过低频维度选择性增强与动态层选择初步实现了对维度级位置结构异质性的感知。然而RoSA的维度增强机制仍然是"选择后增强"的模式——先静态地划定低频维度范围,再在该范围内生成适配信号。这种设计存在两个局限:第一,对低频维度的选择是固定的(由超参数$r_{\text{low}}$决定),无法根据不同输入的特性进行动态调整;第二,调制信号不区分不同注意力头的位置偏好差异。
为进一步推进维度级位置感知适配的精细化程度本节提出动态位置注意力调制方法Dynamic Positional Attention Modulation, DyPAM。DyPAM直接在RoPE的维度对结构上进行操作实现\emph{输入条件化}的维度级调制与\emph{头级/层级}的结构偏置,从"静态选择"跃迁至"动态调制"。
\begin{figure}[htp]
\centering
\includegraphics[width=0.85\linewidth]{assets/5_dypam_arch.pdf}
\caption[DyPAM方法框架图]{DyPAM方法框架图。DyPAM在RoPE之前将输入条件化的维度级调制与头级和层级结构偏置共同施加于Query和Key表示实现对位置注意力的细粒度动态适配。}
\label{fig:ch5_dypam_arch}
\end{figure}
\subsection{框架概述}
\label{subsec:ch5_dypam_overview}
DyPAM的核心设计原则是针对注意力在维度、头、层和输入token四个层面的异质性行为通过结构感知的乘性调制实现精细化的位置注意力适配。如图~\ref{fig:ch5_dypam_arch}所示DyPAM直接在Query和Key表示上操作联合建模两种互补的调制机制
1\textbf{输入条件化的维度级调制}:根据输入上下文动态生成逐维度对的调制因子,使不同维度的位置贡献能够随输入变化而自适应调整。
2\textbf{头级与层级结构偏置}:引入与输入无关的静态偏置项,编码不同注意力头和不同层在位置维度上的持久性结构偏好。
在统一分析框架下DyPAM的调制操作可形式化为
\begin{equation}
\mathcal{M}_{\theta}^{\text{DyPAM}}(\mathbf{Z}^{(\ell,h)}; \mathbf{X}, \mathcal{R}_{dim}) =
\mathbf{s}^{(\ell,h)}(\mathbf{X}) \odot \mathbf{Z}^{(\ell,h)},
\label{eq:ch5_dypam_unified}
\end{equation}
其中$\mathbf{s}^{(\ell,h)}(\mathbf{X})$为同时融合了输入条件化信号和结构偏置的调制因子,作用于第$\ell$层第$h$头的Query/Key表示$\mathbf{Z}^{(\ell,h)}$
\subsection{调制特征的构建}
\label{subsec:ch5_dypam_feature}
DyPAM在自注意力中的Query和Key表示上进行操作。在每个Transformer层$\ell$这些表示由token级的隐藏状态$\mathbf{H}^{(\ell)} \in \mathbb{R}^{B \times T \times d}$通过式~\eqref{eq:ch4_qkv_proj}的线性投影获得,随后重塑为逐头表示$\mathbf{Q}^{(\ell,h)}, \mathbf{K}^{(\ell,h)} \in \mathbb{R}^{T \times d_h}$
为实现输入条件化的注意力适配DyPAM直接从同一隐藏状态$\mathbf{H}^{(\ell)}$推导调制特征。由于隐藏状态编码了token特异性的上下文信息由此产生的调制特征天然具有token依赖性且因输入不同而各异为输入条件化调制提供了基础。具体地DyPAM对隐藏状态施加轻量级低秩投影以生成调制特征
\begin{equation}
\mathbf{M}^{(\ell)} = \mathbf{H}^{(\ell)} \mathbf{A}^{(\ell)} \mathbf{B}^{(\ell)}, \quad
\mathbf{M}^{(\ell)} \in \mathbb{R}^{B \times T \times (H \cdot d_e)},
\label{eq:ch5_dypam_feature}
\end{equation}
其中$\mathbf{A}^{(\ell)} \in \mathbb{R}^{d \times r}$$\mathbf{B}^{(\ell)} \in \mathbb{R}^{r \times (H \cdot d_e)}$为可学习矩阵,秩$r \ll d$$d_e$为每头特征维度。
投影后的特征被重塑为$H$个头特异性的成分得到每个token位置$t$和注意力头$h$的调制特征$\mathbf{m}^{(\ell)}_{t,h} \in \mathbb{R}^{d_e}$。这些特征编码了每个token在不同头内的上下文表示信息作为连接token级隐藏状态与后续维度级调制的中间桥梁。
\subsection{输入条件化的维度级调制}
\label{subsec:ch5_dypam_dim_modulation}
基于调制特征DyPAM将其映射为与注意力中Query和Key表示对齐的维度级调制值。该映射决定了每个注意力维度的贡献如何以输入条件化的方式被调制。
对于每一层$\ell$DyPAM引入可学习的维度嵌入矩阵将调制特征投影到注意力维度空间。具体地对Query和Key分别使用独立的嵌入矩阵
\begin{equation}
\mathbf{E}^{(\ell)}_Q \in \mathbb{R}^{\frac{d_h}{2} \times d_e}, \quad
\mathbf{E}^{(\ell)}_K \in \mathbb{R}^{\frac{d_h}{2} \times d_e},
\label{eq:ch5_dypam_embedding}
\end{equation}
其中每一行对应一个注意力维度对。这一设计反映了RoPE诱导的结构每个维度对共享相同的位置旋转因此表现出相似的位置行为。通过为每个维度对分配单一调制值DyPAM在尊重RoPE内在结构的同时降低了参数开销。该设计同时兼容分组查询注意力GQAKey端的调制在共享同一Key表示的头之间共享而Query端的调制保持头特异性。
给定token位置$t$和注意力头$h$的调制特征$\mathbf{m}^{(\ell)}_{t,h} \in \mathbb{R}^{d_e}$Query和Key的维度级调制分数分别计算为
\begin{equation}
\mathbf{g}^{(\ell)}_{t,h,Q} = \mathbf{E}^{(\ell)}_Q \mathbf{m}^{(\ell)}_{t,h}, \quad
\mathbf{g}^{(\ell)}_{t,h,K} = \mathbf{E}^{(\ell)}_K \mathbf{m}^{(\ell)}_{t,h},
\label{eq:ch5_dypam_score}
\end{equation}
其中$\mathbf{g}^{(\ell)}_{t,h,Q}, \mathbf{g}^{(\ell)}_{t,h,K} \in \mathbb{R}^{d_h/2}$分别表示Query和Key维度对的调制分数。
输入条件化的维度级调制使DyPAM能够根据输入上下文自适应调整各注意力维度的贡献。通过将调制与RoPE诱导的维度对结构对齐DyPAM选择性地调整位置信息如何影响注意力计算在保持参数效率的同时实现了对位置注意力的精细化控制。
\subsection{头级与层级结构偏置}
\label{subsec:ch5_dypam_structural}
输入条件化的维度级调制捕获了token依赖的变化但注意力行为在不同注意力头和不同网络层之间也表现出差异。为建模这种结构级的异质性DyPAM引入与输入无关的头级和层级结构偏置。
对于每一层$\ell$DyPAM维护一个层级偏置向量
\begin{equation}
\boldsymbol{\beta}^{(\ell)} \in \mathbb{R}^{d_h/2},
\end{equation}
捕获该层对注意力维度的特有偏好。此外,对于每个注意力头$h$,引入头级偏置向量:
\begin{equation}
\boldsymbol{\beta}^{(\ell)}_{h} \in \mathbb{R}^{d_h/2},
\end{equation}
允许同一层内不同头维持各自的结构偏好。
这些偏置项叠加到维度级调制分数上。对于Query和Key结构增强后的调制分数分别为
\begin{equation}
\tilde{\mathbf{g}}^{(\ell)}_{t,h,Q} =
\mathbf{g}^{(\ell)}_{t,h,Q} + \boldsymbol{\beta}^{(\ell)}_{h,Q} + \boldsymbol{\beta}^{(\ell)}_{Q},
\label{eq:ch5_dypam_struct_q}
\end{equation}
\begin{equation}
\tilde{\mathbf{g}}^{(\ell)}_{t,h,K} =
\mathbf{g}^{(\ell)}_{t,h,K} + \boldsymbol{\beta}^{(\ell)}_{h,K} + \boldsymbol{\beta}^{(\ell)}_{K},
\label{eq:ch5_dypam_struct_k}
\end{equation}
其中$\mathbf{g}^{(\ell)}_{t,h,Q}$$\mathbf{g}^{(\ell)}_{t,h,K}$为输入条件化的维度级分数。偏置项在token位置间共享编码跨输入持久存在的结构偏好。
至此调制分数同时融合了输入条件化的维度级调整与头级、层级的结构偏置既捕获了token依赖的变化又编码了持久性的结构偏好。
\subsection{调制因子的归一化与应用}
\label{subsec:ch5_dypam_application}
组合后的调制分数编码了输入条件化和结构化的维度级调整。DyPAM通过归一化步骤将这些分数映射为有界的调制因子确保稳定、受控的适配。
对于每一层$\ell$、token位置$t$、注意力头$h$和维度对$i$,归一化调制因子计算为:
\begin{equation}
s^{(\ell)}_{t,h,i} = 1 + \alpha \cdot \big(\sigma(\tilde{g}^{(\ell)}_{t,h,i}) - 0.5\big),
\label{eq:ch5_dypam_factor}
\end{equation}
其中$\sigma(\cdot)$为Sigmoid函数$\alpha$控制调制强度。该归一化将调制因子映射到有界区间$[1 - \alpha/2, 1 + \alpha/2]$,使其围绕原始尺度居中,防止偏离预训练表示。
调制因子在位置编码之前应用于Query和Key表示。设$\mathbf{q}^{(\ell,h)}_{t,i} \in \mathbb{R}^{2}$$\mathbf{k}^{(\ell,h)}_{t,i} \in \mathbb{R}^{2}$分别为对应维度对$i$的Query和Key向量配对维度。同一对内的两个维度使用相同的调制因子
\begin{equation}
\hat{\mathbf{q}}^{(\ell,h)}_{t,i} = s^{(\ell)}_{t,h,i} \cdot \mathbf{q}^{(\ell,h)}_{t,i}, \quad
\hat{\mathbf{k}}^{(\ell,h)}_{t,i} = s^{(\ell)}_{t,h,i} \cdot \mathbf{k}^{(\ell,h)}_{t,i}.
\label{eq:ch5_dypam_apply}
\end{equation}
调制后的Query和Key表示随后通过RoPE机制并用于标准注意力计算。通过在RoPE之前施加调制DyPAM使适配与RoPE诱导的位置结构对齐——调制改变的是进入旋转的表示幅度从而影响不同频率维度对在注意力计算中的相对重要性。
\subsection{DyPAM整体算法}
\label{subsec:ch5_dypam_algorithm}
DyPAM使用标准的语言建模交叉熵损失进行端到端训练。给定输入序列$\mathbf{x} = (x_1, \dots, x_T)$和目标序列$\mathbf{y} = (y_1, \dots, y_T)$,训练损失定义为:
\begin{equation}
\mathcal{L} = -\sum_{t=1}^{T} \log p(y_t \mid x_{\leq t}).
\label{eq:ch5_dypam_loss}
\end{equation}
整体前向计算与训练流程如算法~\ref{alg:ch5_dypam}所示。
\RestyleAlgo{ruled}
\begin{algorithm}[htp]
\caption[动态位置注意力调制DyPAM训练算法]{动态位置注意力调制DyPAM训练算法}
\label{alg:ch5_dypam}
\KwIn{输入序列$\mathbf{x}$预训练RoPE大语言模型DyPAM参数}
\KwOut{模型输出分布与训练损失$\mathcal{L}$}
获取$\mathbf{x}$的token嵌入\;
\For{每个Transformer层$\ell = 1, \dots, L$}{
计算隐藏状态$\mathbf{H}^{(\ell)}$\;
投影隐藏状态得到Query和Key表示$\mathbf{Q}^{(\ell)}, \mathbf{K}^{(\ell)}$(式~\ref{eq:ch4_qkv_proj}\;
重塑为逐头表示$\mathbf{Q}^{(\ell,h)}, \mathbf{K}^{(\ell,h)}$\;
从隐藏状态构建调制特征$\mathbf{m}^{(\ell)}_{t,h}$(式~\ref{eq:ch5_dypam_feature}\;
计算输入条件化的维度级调制分数(式~\ref{eq:ch5_dypam_score}\;
叠加头级和层级结构偏置(式~\ref{eq:ch5_dypam_struct_q}\ref{eq:ch5_dypam_struct_k}\;
归一化得到调制因子(式~\ref{eq:ch5_dypam_factor}\;
将调制因子应用于Query和Key表示式~\ref{eq:ch5_dypam_apply}\;
对调制后的Query和Key施加RoPE\;
使用调制后的表示计算注意力输出\;
}
计算模型输出与训练损失$\mathcal{L}$(式~\ref{eq:ch5_dypam_loss}\;
\end{algorithm}
DyPAM的主要超参数包括调制嵌入维度$d_e$默认64、低秩投影秩$r$默认128、调制强度$\alpha$默认0.3。与RoSA相比DyPAM不需要显式指定低频维度比例或层选择参数因为其调制信号覆盖\emph{所有}维度对并在\emph{所有}层上部署,通过学习到的调制因子自动实现差异化分配。
\section{两种方法的统一视角与比较分析}
\label{sec:ch5_unified_view}
RoSA和DyPAM均针对维度级位置结构异质性$\mathcal{R}_{dim}$),但在设计理念和技术实现上形成了从"选择性增强"到"全面调制"的递进关系。本节从统一框架的视角对两种方法进行系统比较。
\subsection{统一框架下的形式化对比}
在结构感知调制统一框架(式~\ref{eq:ch1_unified_M})下,两种方法可以统一理解为乘性调制的不同实例化:
\textbf{RoSA}采用"选择+增强"的调制策略。其调制操作仅作用于维度空间的一个子集(低频维度),调制信号为上下文感知的缩放因子,形式上对应式~\eqref{eq:ch4_rosa_unified}。同时通过DLS在层空间上进行二值选择活跃/非活跃),实现层级的稀疏化适配。
\textbf{DyPAM}采用"全覆盖+精细化调制"的策略。其调制操作覆盖所有维度对,调制信号同时融合输入条件化成分和结构偏置成分,形式上对应式~\eqref{eq:ch5_dypam_unified}。调制因子被归一化到以1为中心的有界区间通过学习实现差异化而非显式选择。
\subsection{设计维度对比}
表~\ref{tab:ch5_compare}从多个设计维度对两种方法进行了系统比较。
\begin{table}[!htbp]
\centering
\caption[RoSA与DyPAM的设计维度对比]{RoSA与DyPAM的设计维度对比}
\label{tab:ch5_compare}
\begin{tabular}{lcc}
\toprule
\textbf{设计维度} & \textbf{RoSA} & \textbf{DyPAM} \\
\midrule
维度选择 & 静态子集($r_{\text{low}}$ & 全覆盖 \\
调制粒度 & 逐维度 & 逐维度对 \\
输入依赖性 & 适配信号输入依赖 & 调制因子输入依赖 \\
头级差异化 & 共享信号 & 头级偏置 \\
层级策略 & 二值选择DLS & 层级偏置 \\
调制作用点 & RoPE之后 & RoPE之前 \\
归一化机制 & 缩放因子$\alpha$ & Sigmoid有界区间 \\
\bottomrule
\end{tabular}
\end{table}
\subsection{互补性与递进关系}
% \begin{figure}[htbp]
% \centering
% % 占位:待替换为外部绘制的 5_rosa_dypam_compare.pdf
% % \includegraphics[width=0.9\textwidth]{assets/5_rosa_dypam_compare.pdf}
% \caption[RoSA与DyPAM在维度级位置结构适配上的设计演进对比]{RoSA与DyPAM在维度级位置结构适配上的设计演进对比。该图采用左右并排的双架构对比布局
% \textbf{左半}RoSA——静态选择性增强展示RoSA的处理流程——Query/Key向量中以虚线分割低频与高频维度区域低频区域由超参数$r_{\text{low}}$固定选定)高亮标注为"增强区域",高频区域灰显为"未增强区域";调制信号$\mathbf{S}$在所有头间共享底部标注DLS的层选择机制部分层激活、部分层掩码。用标签强调静态维度划分、跨头共享、层级二值选择。
% \textbf{右半}DyPAM——动态条件化调制展示DyPAM的处理流程——Query/Key向量的所有维度对均被调制因子$s_{t,h,i}$覆盖,调制强度用连续色阶(从浅到深)表示差异化程度;调制信号从输入隐藏状态经低秩投影动态生成,并叠加头级偏置$\boldsymbol{\beta}_h$和层级偏置$\boldsymbol{\beta}^{(\ell)}$作用点标注在RoPE之前。用标签强调全维度覆盖、输入条件化、头级独立、连续调制。
% \textbf{中间}用大箭头连接左右两半,标注递进关系:"静态$\to$动态"、"粗粒度$\to$细粒度"、"维度选择$\to$维度对调制"。}
% \label{fig:ch5_rosa_dypam_compare}
% \end{figure}
从设计演进的角度看DyPAM可以理解为对RoSA的全面推进
1\textbf{从静态选择到动态调制}。RoSA通过$r_{\text{low}}$静态划定增强范围DyPAM则让所有维度对都参与调制通过学习自动决定每个维度对的调制幅度。
2\textbf{从维度级到维度对级}。RoSA在逐维度粒度上操作DyPAM则与RoPE的维度对结构严格对齐以维度对为基本调制单位。
3\textbf{从层选择到层偏置}。RoSA通过DLS对层进行二值选择DyPAM则通过可学习的层级偏置实现柔性的层间差异化。
4\textbf{引入头级感知}。RoSA在所有头之间共享适配信号DyPAM则通过头级偏置允许不同头维持独立的位置偏好。
两种方法共同验证了一个核心观点在RoPE驱动的大语言模型中维度级位置结构异质性是影响适配效果的关键因素。感知并利用这种异质性无论是通过选择性增强还是全面精细化调制都能够显著提升参数高效微调的效能。
\section{实验验证与结果分析}
\label{sec:ch5_experiments}
本节通过大量实验系统评估DyPAM的有效性。实验围绕以下核心问题展开1DyPAM相比现有PEFT基线方法包括RoSA的性能优势2方法在不同骨干模型上的泛化能力3跨模型规模的可扩展性4各组件的贡献分析5关键超参数的敏感性分析6学习到的调制模式的可解释性分析。
\subsection{实验设置}
\label{subsec:ch5_exp_setup}
\subsubsection{评测任务与数据集}
遵循LLM-Adapters的标准设置本章在两类代表性任务上进行评估
\textbf{常识推理任务}。在八个基准数据集上评估BoolQ、PIQA、Social IQA、ARC-Challenge、ARC-Easy、OBQA、HellaSwag和WinoGrande使用Commonsense15K作为训练数据。
\textbf{数学推理任务}。在七个基准数据集上评估MultiArith、GSM8K、AddSub、AQuA、SingleEq、SVAMP和MAWPS使用Math10K作为训练数据。
所有任务使用准确率作为评估指标同时报告Micro-Avg样本加权平均和Macro-Avg任务等权平均
\subsubsection{骨干模型}
DyPAM实验采用三种基于RoPE的大语言模型家族作为骨干LLaMA 3.2-3B、Qwen3-8B和Gemma3-4B。在可扩展性实验中使用Qwen3系列的0.6B、1.7B、4B和8B四个规模。
\subsubsection{基线方法}
实验与多类主流PEFT方法进行比较覆盖不同的适配策略低秩方法LoRA、AdaLoRA、正交/结构化矩阵方法OFT、BONE、轻量缩放方法IA$^3$、LN Tuning、频域方法FourierFT、稀疏适配方法SHiRA。此外RoSA作为同一维度级适配范式下的"静态选择"代表被纳入基线以直接验证DyPAM"动态调制"设计的改进效果。
\subsubsection{实现细节}
DyPAM实验在NVIDIA RTX 4090上使用DeepSpeed和BF16精度进行。DyPAM超参数$d_e = 64$$r = 128$$\alpha = 0.3$。对基线方法在可比可训练参数规模下进行公平比较。
\subsection{DyPAM实验结果与分析}
\label{subsec:ch5_dypam_results}
\subsubsection{数学推理性能}
表~\ref{tab:ch5_dypam_math}展示了DyPAM在数学推理任务上的性能。
\begin{table}[!htbp]
\centering
\caption[DyPAM与基线方法在数学推理任务上的性能比较]{DyPAM与基线方法在数学推理任务上的性能比较。*表示统计显著提升。}
\label{tab:ch5_dypam_math}
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{0.9}
\begin{tabular}{l|lcccccccccc}
\toprule
\textbf{骨干} & \textbf{方法} & \textbf{参数(\%)} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} & \textbf{Macro-Avg$\uparrow$} \\
\midrule
\multirow{10}{*}{\textbf{LLaMA3.2-3B}}
& LoRA & 1.12 & 71.50 & 33.21 & 78.48 & 22.44 & 81.50 & 54.10 & 76.47 & 54.96 & 59.67 \\
& AdaLoRA & 2.22 & 75.67 & 36.32 & 80.51 & 22.83 & 87.80 & 55.60 & 78.57 & 57.90 & 62.47 \\
& OFT & 0.73 & 87.17 & \textbf{40.18} & \underline{85.82} & \underline{24.02} & 86.42 & 61.50 & \textbf{84.03} & 62.75 & \underline{67.02} \\
& Bone & 1.14 & \underline{87.50} & 39.73 & 85.57 & 23.62 & 86.61 & \textbf{63.70} & \underline{81.93} & \underline{63.03} & 66.95 \\
& IA$^3$ & 0.02 & 58.33 & 27.37 & 68.61 & 20.47 & 72.83 & 47.90 & 58.82 & 46.89 & 50.62 \\
& LN Tuning & 0.01 & 58.00 & 26.38 & 66.58 & 21.26 & 74.80 & 44.90 & 60.08 & 46.01 & 50.29 \\
& FourierFT & 0.73 & 78.67 & 33.21 & 82.03 & 20.47 & 85.43 & 54.30 & 77.31 & 56.72 & 61.63 \\
& SHiRA & 1.12 & 82.50 & 38.82 & 84.81 & \underline{24.02} & \underline{87.99} & 56.90 & \underline{81.93} & 60.59 & 65.28 \\
& RoSA & 0.54 & 84.33 & 37.91 & 82.78 & 22.83 & 87.01 & 52.50 & 78.99 & 59.02 & 63.77 \\
& \textbf{DyPAM} & 0.92 & \textbf{88.50} & \underline{39.88} & \textbf{86.33} & \textbf{25.20} & \textbf{88.78} & \underline{63.00} & \textbf{84.03} & \textbf{63.58*} & \textbf{67.96*} \\
\midrule
\multirow{10}{*}{\textbf{Qwen3-8B}}
& LoRA & 0.79 & 97.67 & 74.91 & 89.87 & 35.83 & 90.55 & 84.70 & 89.08 & 82.04 & 80.37 \\
& AdaLoRA & 1.57 & 95.17 & 73.01 & 90.63 & 37.01 & 92.32 & 84.80 & 91.60 & 81.62 & 80.65 \\
& OFT & 0.51 & 95.67 & 73.46 & 90.38 & 33.07 & 94.09 & 84.90 & 91.60 & 81.80 & 80.45 \\
& Bone & 0.81 & \underline{98.00} & 72.25 & \underline{91.65} & 33.46 & 93.90 & 83.80 & 90.34 & 81.55 & 80.49 \\
& IA$^3$ & 0.02 & 92.50 & 72.18 & 84.81 & 35.04 & 86.61 & 80.90 & 86.55 & 78.49 & 76.94 \\
& LN Tuning & 0.00 & 91.67 & 68.69 & 85.32 & \underline{39.76} & 87.40 & 78.00 & 85.71 & 77.01 & 76.65 \\
& FourierFT & 0.37 & 94.50 & 70.05 & 87.34 & 31.50 & 86.81 & 82.70 & 81.09 & 78.28 & 76.28 \\
& SHiRA & 0.79 & 94.83 & \underline{75.36} & 90.13 & 37.01 & 93.90 & \textbf{85.70} & 90.34 & \underline{82.57} & 81.04 \\
& RoSA & 0.36 & 97.83 & 74.07 & 90.38 & 35.43 & \underline{94.49} & 84.80 & \underline{92.02} & 82.48 & \underline{81.29} \\
& \textbf{DyPAM} & 0.61 & \textbf{99.17} & \textbf{76.72} & \textbf{91.90} & \textbf{40.94} & \textbf{95.28} & \underline{85.50} & \textbf{92.86} & \textbf{84.24*} & \textbf{83.20*} \\
\midrule
\multirow{10}{*}{\textbf{Gemma3-4B}}
& LoRA & 1.33 & 86.00 & 51.25 & 72.41 & 25.98 & 75.59 & 62.20 & 75.21 & 63.26 & 64.09 \\
& AdaLoRA & 2.62 & 82.67 & 51.86 & 66.33 & 31.50 & 73.82 & 62.30 & 73.95 & 62.49 & 63.20 \\
& OFT & 0.75 & 85.83 & \underline{54.28} & 72.91 & \underline{32.28} & 75.59 & \textbf{63.80} & \underline{76.47} & \underline{65.02} & \underline{65.88} \\
& Bone & 1.41 & \underline{86.17} & 45.87 & 71.39 & 30.31 & 72.64 & 55.10 & 73.11 & 59.69 & 62.08 \\
& IA$^3$ & 0.03 & 42.67 & 38.89 & 40.51 & 27.17 & 40.75 & 37.20 & 37.39 & 38.62 & 37.80 \\
& LN Tuning & 0.01 & 32.67 & 30.63 & 45.06 & 23.62 & 56.69 & 40.80 & 37.82 & 37.64 & 38.18 \\
& FourierFT & 1.10 & 60.83 & 31.24 & 65.32 & 28.35 & 66.73 & 46.30 & 65.97 & 47.89 & 52.10 \\
& SHiRA & 1.33 & 72.67 & 42.08 & \underline{73.16} & 31.50 & \textbf{76.57} & 61.30 & 75.63 & 58.92 & 61.84 \\
& RoSA & 0.40 & 34.50 & 38.51 & 66.84 & 31.10 & 63.19 & 43.70 & 62.18 & 45.53 & 48.58 \\
& \textbf{DyPAM} & 0.62 & \textbf{86.33} & \textbf{55.19} & \textbf{73.42} & \textbf{32.68} & \underline{76.18} & \underline{62.70} & \textbf{76.89} & \textbf{65.28*} & \textbf{66.20*} \\
\bottomrule
\end{tabular}
}
\end{table}
DyPAM在所有三种骨干模型上均取得了最优的Macro-Avg和Micro-Avg性能且改进在统计上显著。值得注意的是在Qwen3-8B上DyPAM的Macro-Avg达到83.20\%、Micro-Avg达到84.24\%显著优于RoSA的81.29\%/82.48\%(同为维度级适配方法),验证了从"静态选择"到"动态调制"的设计改进的有效性。
在Gemma3-4B上RoSA的表现明显下降Macro-Avg仅48.58\%这可能源于其固定的低频维度选择比例在该架构上未能适配而DyPAM的自适应调制机制成功避免了这一问题取得66.20\%的Macro-Avg。
\subsubsection{常识推理性能}
表~\ref{tab:ch5_dypam_common}展示了DyPAM在常识推理任务上的性能。
\begin{table}[!htbp]
\centering
\caption[DyPAM与基线方法在常识推理任务上的性能比较]{DyPAM与基线方法在常识推理任务上的性能比较。*表示统计显著提升。}
\label{tab:ch5_dypam_common}
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{0.9}
\begin{tabular}{l|lccccccccccc}
\toprule
\textbf{骨干} & \textbf{方法} & \textbf{参数(\%)} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} & \textbf{Macro-Avg$\uparrow$} \\
\midrule
\multirow{10}{*}{\textbf{LLaMA3.2-3B}}
& LoRA & 1.12 & 63.61 & \underline{79.71} & 66.94 & 69.45 & 84.05 & 67.00 & 73.94 & 55.56 & 71.94 & 70.03 \\
& AdaLoRA & 2.22 & 63.52 & 78.94 & 67.09 & 68.94 & \underline{85.14} & 70.20 & 78.11 & 56.35 & 73.95 & 71.04 \\
& OFT & 0.73 & \underline{65.63} & 79.54 & \underline{70.37} & \underline{70.39} & 85.06 & \textbf{71.80} & 83.15 & \textbf{66.38} & \underline{77.52} & \underline{74.04} \\
& Bone & 1.14 & 64.56 & 75.68 & 69.34 & 64.42 & 79.76 & 70.20 & 75.92 & \underline{65.75} & 72.77 & 70.70 \\
& IA$^3$ & 0.02 & 62.32 & 77.09 & 59.67 & 57.94 & 77.10 & 57.40 & 50.48 & 52.25 & 58.66 & 61.78 \\
& LN Tuning & 0.01 & 62.51 & 76.99 & 59.52 & 59.81 & 76.52 & 59.00 & 52.02 & 52.17 & 59.42 & 62.32 \\
& FourierFT & 0.73 & 62.14 & 79.49 & 61.98 & 61.86 & 80.93 & 62.40 & 73.21 & 49.09 & 69.75 & 66.39 \\
& SHiRA & 1.12 & 65.23 & 79.65 & 69.14 & \textbf{71.16} & 84.97 & \underline{71.20} & \underline{83.18} & 65.67 & 77.35 & 73.78 \\
& RoSA & 0.54 & 64.53 & 79.65 & 69.86 & 69.28 & 84.43 & 70.80 & 83.12 & 63.54 & 77.00 & 73.15 \\
& \textbf{DyPAM} & 0.92 & \textbf{65.93} & \textbf{79.76} & \textbf{70.88} & \underline{70.39} & \textbf{85.19} & \textbf{71.80} & \textbf{83.71} & 65.35 & \textbf{77.83*} & \textbf{74.13*} \\
\midrule
\multirow{10}{*}{\textbf{Qwen3-8B}}
& LoRA & 0.79 & 70.49 & 86.34 & \underline{77.18} & 90.19 & 96.51 & 87.60 & 89.50 & 72.85 & 85.19 & 83.83 \\
& AdaLoRA & 1.57 & 70.73 & 86.51 & 76.71 & \underline{90.36} & 96.55 & 87.20 & 88.92 & 72.38 & 84.91 & 83.67 \\
& OFT & 0.51 & 69.97 & 86.83 & 76.56 & 89.93 & \underline{96.97} & 88.00 & 89.17 & 76.48 & 85.20 & 84.24 \\
& Bone & 0.81 & 69.02 & 85.31 & 75.64 & 88.91 & 95.58 & 87.60 & 89.30 & \underline{76.56} & 84.71 & 83.49 \\
& IA$^3$ & 0.02 & 69.51 & 86.34 & 76.71 & 90.27 & 96.09 & 84.40 & 85.12 & 66.77 & 82.59 & 81.90 \\
& LN Tuning & 0.00 & 69.33 & 86.40 & 75.95 & 90.27 & 96.00 & 83.00 & 83.86 & 65.43 & 81.82 & 81.28 \\
& FourierFT & 0.37 & 69.54 & 84.49 & 73.13 & 85.92 & 95.29 & 77.80 & 80.48 & 62.27 & 79.34 & 78.62 \\
& SHiRA & 0.79 & \underline{70.83} & \underline{87.05} & \textbf{77.33} & \underline{90.36} & \underline{96.97} & \underline{88.20} & \textbf{89.56} & 75.77 & \underline{85.57} & \underline{84.51} \\
& RoSA & 0.36 & 68.96 & 86.94 & 75.33 & 89.85 & 96.38 & \underline{88.20} & 89.43 & 76.16 & 84.99 & 83.91 \\
& \textbf{DyPAM} & 0.61 & \textbf{70.89} & \textbf{87.11} & \textbf{77.33} & \textbf{90.53} & \textbf{97.05} & \textbf{88.80} & \underline{89.53} & \textbf{76.80} & \textbf{85.66*} & \textbf{84.75*} \\
\midrule
\multirow{10}{*}{\textbf{Gemma3-4B}}
& LoRA & 1.33 & 65.72 & 79.71 & 69.40 & 74.49 & 87.08 & 71.00 & 74.53 & 55.01 & 73.37 & 72.12 \\
& AdaLoRA & 2.62 & \underline{66.09} & 79.49 & 68.73 & 76.54 & 89.02 & 74.00 & 73.20 & 58.09 & 73.30 & 73.14 \\
& OFT & 0.75 & 65.69 & 81.99 & 74.51 & \underline{76.71} & 88.47 & 78.00 & \underline{83.86} & \underline{65.27} & \underline{79.17} & \underline{76.81} \\
& Bone & 1.41 & 64.68 & 75.35 & 71.24 & 70.39 & 82.83 & 75.80 & 78.33 & 64.48 & 74.70 & 72.89 \\
& IA$^3$ & 0.02 & 62.17 & 71.49 & 57.32 & 57.51 & 73.19 & 55.20 & 44.89 & 57.85 & 55.30 & 59.95 \\
& LN Tuning & 0.00 & 62.60 & 66.70 & 49.85 & 49.91 & 63.59 & 45.20 & 47.29 & 60.46 & 53.90 & 55.70 \\
& FourierFT & 0.37 & 63.94 & 75.57 & 67.14 & 67.32 & 76.05 & 57.80 & 71.81 & 59.35 & 69.76 & 67.37 \\
& SHiRA & 0.79 & 65.57 & \underline{82.25} & \underline{74.53} & 76.19 & \textbf{89.71} & \underline{78.20} & 83.19 & 64.48 & 78.94 & 76.77 \\
& RoSA & 0.40 & 63.70 & 79.54 & 67.40 & 72.27 & 86.66 & 69.40 & 48.53 & 47.51 & 60.62 & 66.88 \\
& \textbf{DyPAM} & 0.62 & \textbf{66.21} & \textbf{82.59} & \textbf{74.82} & \textbf{77.13} & \underline{89.23} & \textbf{79.20} & \textbf{84.09} & \textbf{65.35} & \textbf{79.56*} & \textbf{77.33*} \\
\bottomrule
\end{tabular}
}
\end{table}
DyPAM在所有三种骨干模型的常识推理任务上均取得统计显著的最优Macro-Avg性能。在LLaMA 3.2-3B上达到74.13\%在Qwen3-8B上达到84.75\%在Gemma3-4B上达到77.33\%。常识推理与数学推理上的一致性提升表明DyPAM的位置注意力调制机制具有跨任务域的普适性。值得注意的是在Gemma3-4B上RoSA的Macro-Avg仅为66.88\%远低于DyPAM的77.33\%,进一步验证了动态调制相对于静态维度选择的优势。
\subsubsection{跨模型规模的可扩展性}
表~\ref{tab:ch5_dypam_scale}展示了DyPAM在Qwen3系列不同模型规模上的可扩展性分析。
\begin{table}[!htbp]
\centering
\caption[DyPAM与主要基线方法在不同模型规模上的数学推理性能比较]{DyPAM与主要基线方法在不同模型规模上的数学推理性能比较Macro-Avg准确率\%)。}
\label{tab:ch5_dypam_scale}
\begin{tabular}{lcccc}
\toprule
\textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} & \textbf{Qwen3-8B} \\
\midrule
LoRA & 64.06 & 66.64 & 75.60 & 80.37 \\
OFT & \underline{65.96} & \underline{67.81} & 75.54 & 80.45 \\
SHiRA & 63.95 & 64.65 & 73.33 & 81.04 \\
RoSA & 63.99 & 67.38 & \underline{77.92} & \underline{81.29} \\
\textbf{DyPAM} & \textbf{66.13} & \textbf{69.24} & \textbf{78.24} & \textbf{83.20} \\
\bottomrule
\end{tabular}
\end{table}
DyPAM在Qwen3系列四个规模0.6B至8B上均超越所有基线方法。随模型规模增大DyPAM与基线之间的性能差距进一步扩大0.6B上超过OFT 0.17个百分点8B上超过RoSA 1.91个百分点表明DyPAM能够更充分地利用大模型增加的表征容量来发挥位置感知调制的优势。
\subsection{消融实验与深入分析}
\label{subsec:ch5_ablation}
\subsubsection{DyPAM组件消融}
\begin{figure}[htp]
\centering
\includegraphics[width=0.9\linewidth]{assets/5_dypam_ablation.pdf}
\caption[DyPAM消融与超参数敏感性分析]{DyPAM消融与超参数敏感性分析。a移除各组件后的性能变化b调制强度$\alpha$的影响。}
\label{fig:ch5_dypam_ablation}
\end{figure}
DyPAM的消融实验如图~\ref{fig:ch5_dypam_ablation}(a)所示考察了四个消融变体1移除输入条件化的维度级调制w/o Dim-Mod仅保留结构偏置测试输入依赖调制的贡献2移除头级偏置w/o Head-Bias使所有注意力头共享相同的结构偏好测试头间差异化的必要性3移除层级偏置w/o Layer-Bias消除层间持久性偏好的编码测试层级结构感知的作用4移除Sigmoid归一化w/o Norm直接使用原始调制分数作为缩放因子测试有界归一化对训练稳定性的贡献。实验结果表明每个组件的移除均导致一致性的性能下降其中维度级调制的贡献最为显著验证了输入条件化调制作为核心机制的重要性。各组件之间的贡献具有互补性DyPAM的性能提升源自多层次调制信号的联合设计而非某一单一架构选择。
\subsubsection{调制强度的敏感性}
对DyPAM的调制强度$\alpha$进行敏感性分析(如图~\ref{fig:ch5_dypam_ablation}(b)所示)。适当的调制幅度显著优于过弱或过强的调制:$\alpha=0.3$附近取得最优性能。过小的$\alpha$将调制因子约束在过于接近1的狭窄区间内限制了调制的表达能力使方法难以对不同维度对施加足够的差异化调整而过大的$\alpha$允许调制因子大幅偏离1可能过度改变预训练表示的幅度结构破坏已学知识。$\alpha=0.3$在适配灵活性与预训练知识保留之间取得了良好的平衡。
\subsection{可解释性分析}
\label{subsec:ch5_interpretability}
\subsubsection{DyPAM学习到的调制模式}
\begin{figure}[htp]
\centering
\includegraphics[width=0.9\linewidth]{assets/5_bias_modulation.pdf}
\caption[DyPAM学习到的位置调制模式]{DyPAM学习到的位置调制模式。a层级偏置在Query维度上的分布展示异构且结构化的偏置变化b层级调制范围显示稳定受控的缩放行为。}
\label{fig:ch5_modulation_pattern}
\end{figure}
对DyPAM学习到的层级偏置和调制范围进行可视化分析揭示了两个关键发现
1\textbf{异构的结构偏置}。层级偏置在不同层和不同维度上展现出非均匀的变化模式,而非均匀的偏移。这种结构化的非均匀性表明,不同注意力维度在不同深度发展出了各自独特的位置偏好,与位置信息在各层被差异化利用的直觉一致。
2\textbf{受控的调制范围}。调制因子围绕1保持适度的方差表明DyPAM进行的是精细化的微调而非大幅度的重塑。这种克制的调制行为在保留预训练注意力结构的同时提供了必要的适配灵活性。
\subsubsection{跨模型与跨任务的调制模式分析}
为进一步验证DyPAM的调制行为是否具有架构依赖性和数据依赖性图~\ref{fig:ch5_modulation_range}和图~\ref{fig:ch5_bias_comparison}分别展示了不同模型和不同任务上的调制因子分布与偏置模式。
\begin{figure}[htp]
\centering
\includegraphics[width=0.9\linewidth]{assets/5_modulation_range.pdf}
\caption[DyPAM学习到的调制因子范围在不同模型和不同任务上的分布]{DyPAM学习到的调制因子范围在不同模型和不同任务上的分布。调制因子在所有设置下均围绕1.0保持适度方差但不同架构和不同训练数据呈现出差异化的层间调制分布表明DyPAM以架构依赖和数据依赖的方式适配位置注意力。}
\label{fig:ch5_modulation_range}
\end{figure}
\begin{figure}[htp]
\centering
\includegraphics[width=0.9\linewidth]{assets/5_bias_comparison.pdf}
\caption[不同模型在常识推理与数学推理任务上学习到的层级偏置模式对比]{不同模型在常识推理与数学推理任务上学习到的层级偏置模式对比。同一模型在不同任务上的偏置模式存在系统性差异表明DyPAM的位置调制行为受训练数据特性的影响。}
\label{fig:ch5_bias_comparison}
\end{figure}
如图~\ref{fig:ch5_modulation_range}所示尽管调制因子在所有设置下均围绕1.0居中但不同模型架构LLaMA、Qwen、Gemma展现出不同的层间调制范围分布表明DyPAM以架构依赖的方式学习位置注意力的适配策略。同时同一模型在常识推理和数学推理训练数据上的调制分布也存在差异说明调制行为同样受训练数据特性的影响。图~\ref{fig:ch5_bias_comparison}进一步展示了层级偏置在不同任务间的差异每种架构在不同任务上学习到的偏置模式呈现出结构化的差异不同任务对不同维度的位置信息有着不同的强调或抑制需求。这些结果共同表明DyPAM并非施加统一的适配而是根据模型架构和任务特性自适应地学习差异化的位置调制策略。
\section{本章小结}
\label{sec:ch5_summary}
本章在第四章RoSA的基础上继续聚焦维度级位置结构异质性$\mathcal{R}_{dim}$提出了动态位置注意力调制方法DyPAM实现了从"静态维度选择"到"输入条件化动态调制"的递进深化。DyPAM通过输入条件化的维度级调制机制使调制信号根据输入上下文动态生成并与RoPE的维度对结构严格对齐同时引入头级和层级结构偏置编码不同注意力头和不同层在位置维度上的持久性偏好。在有界调制因子的约束下DyPAM在保留预训练知识的同时实现了精细化的位置注意力适配。
实验结果表明DyPAM在LLaMA 3.2-3B、Qwen3-8B和Gemma3-4B三种骨干模型及15个常识与数学推理基准上均取得统计显著的最优性能并在Qwen3系列0.6B至8B的规模范围内展现出良好的可扩展性。与RoSA的直接对比进一步验证了动态调制相对于静态选择的优势尤其在RoSA因固定维度比例而适配不佳的架构如Gemma3-4B上优势更为突出。
至此第四章和第五章从维度级位置结构异质性出发分别通过静态选择性增强RoSA和动态条件化调制DyPAM两种递进式方法完成了表示空间内维度级结构感知适配的方法体系构建。这一阶段的研究重点在于中间表示流的调制方式。下一章将进一步转向参数空间讨论权重更新结构的组织问题围绕频谱级多尺度异质性$\mathcal{R}_{spec}$)和参数级容量分配异质性($\mathcal{R}_{param}$)引入组合式调制和结构分解调制两种新的调制形式。