Rev for Pre

This commit is contained in:
panda361
2026-03-23 22:07:08 +08:00
parent de3d1598b0
commit 1fd3c5771f
12 changed files with 303 additions and 121 deletions

View File

@@ -257,16 +257,16 @@ RoSA和DyPAM均针对维度级位置结构异质性$\mathcal{R}_{dim}$
\subsection{互补性与递进关系}
\begin{figure}[htbp]
\centering
% 占位:待替换为外部绘制的 5_rosa_dypam_compare.pdf
% \includegraphics[width=0.9\textwidth]{assets/5_rosa_dypam_compare.pdf}
\caption[RoSA与DyPAM在维度级位置结构适配上的设计演进对比]{RoSA与DyPAM在维度级位置结构适配上的设计演进对比。该图采用左右并排的双架构对比布局
\textbf{左半}RoSA——静态选择性增强展示RoSA的处理流程——Query/Key向量中以虚线分割低频与高频维度区域低频区域由超参数$r_{\text{low}}$固定选定)高亮标注为"增强区域",高频区域灰显为"未增强区域";调制信号$\mathbf{S}$在所有头间共享底部标注DLS的层选择机制部分层激活、部分层掩码。用标签强调静态维度划分、跨头共享、层级二值选择。
\textbf{右半}DyPAM——动态条件化调制展示DyPAM的处理流程——Query/Key向量的所有维度对均被调制因子$s_{t,h,i}$覆盖,调制强度用连续色阶(从浅到深)表示差异化程度;调制信号从输入隐藏状态经低秩投影动态生成,并叠加头级偏置$\boldsymbol{\beta}_h$和层级偏置$\boldsymbol{\beta}^{(\ell)}$作用点标注在RoPE之前。用标签强调全维度覆盖、输入条件化、头级独立、连续调制。
\textbf{中间}用大箭头连接左右两半,标注递进关系:"静态$\to$动态"、"粗粒度$\to$细粒度"、"维度选择$\to$维度对调制"。}
\label{fig:ch5_rosa_dypam_compare}
\end{figure}
% \begin{figure}[htbp]
% \centering
% % 占位:待替换为外部绘制的 5_rosa_dypam_compare.pdf
% % \includegraphics[width=0.9\textwidth]{assets/5_rosa_dypam_compare.pdf}
% \caption[RoSA与DyPAM在维度级位置结构适配上的设计演进对比]{RoSA与DyPAM在维度级位置结构适配上的设计演进对比。该图采用左右并排的双架构对比布局
% \textbf{左半}RoSA——静态选择性增强展示RoSA的处理流程——Query/Key向量中以虚线分割低频与高频维度区域低频区域由超参数$r_{\text{low}}$固定选定)高亮标注为"增强区域",高频区域灰显为"未增强区域";调制信号$\mathbf{S}$在所有头间共享底部标注DLS的层选择机制部分层激活、部分层掩码。用标签强调静态维度划分、跨头共享、层级二值选择。
% \textbf{右半}DyPAM——动态条件化调制展示DyPAM的处理流程——Query/Key向量的所有维度对均被调制因子$s_{t,h,i}$覆盖,调制强度用连续色阶(从浅到深)表示差异化程度;调制信号从输入隐藏状态经低秩投影动态生成,并叠加头级偏置$\boldsymbol{\beta}_h$和层级偏置$\boldsymbol{\beta}^{(\ell)}$作用点标注在RoPE之前。用标签强调全维度覆盖、输入条件化、头级独立、连续调制。
% \textbf{中间}用大箭头连接左右两半,标注递进关系:"静态$\to$动态"、"粗粒度$\to$细粒度"、"维度选择$\to$维度对调制"。}
% \label{fig:ch5_rosa_dypam_compare}
% \end{figure}
从设计演进的角度看DyPAM可以理解为对RoSA的全面推进
@@ -434,7 +434,7 @@ DyPAM在所有三种骨干模型的常识推理任务上均取得统计显著的
\begin{table}[!htbp]
\centering
\caption[DyPAM与主要基线方法在不同模型规模上的数学推理性能比较Macro-Avg准确率\%]{DyPAM与主要基线方法在不同模型规模上的数学推理性能比较Macro-Avg准确率\%)。}
\caption[DyPAM与主要基线方法在不同模型规模上的数学推理性能比较]{DyPAM与主要基线方法在不同模型规模上的数学推理性能比较Macro-Avg准确率\%)。}
\label{tab:ch5_dypam_scale}
\begin{tabular}{lcccc}
\toprule