1.fix table & pic title;2.fix table;

This commit is contained in:
D调E点
2026-03-23 14:32:56 +08:00
parent e7a2535d59
commit ac488f66df
5 changed files with 61 additions and 31 deletions

View File

@@ -17,7 +17,7 @@
\begin{figure}[htbp] \begin{figure}[htbp]
\centering \centering
% \includegraphics[width=0.85\textwidth]{fm_paradigm.pdf} % \includegraphics[width=0.85\textwidth]{fm_paradigm.pdf}
\caption[基础模型范式下统一表示学习的示意图]{基础模型范式下统一表示学习的示意图。左侧表示传统任务特定建模方式,不同任务依赖独立模型与特征设计;右侧表示基础模型通过预训练形成统一表示空间,并通过适配机制支持多任务共享与迁移。} \caption[基础模型范式下统一表示学习的示意图]{基础模型范式下统一表示学习的示意图。\\左侧表示传统任务特定建模方式,不同任务依赖独立模型与特征设计;\\右侧表示基础模型通过预训练形成统一表示空间,并通过适配机制支持多任务共享与迁移。}
\label{fig:ch1_fm_paradigm} \label{fig:ch1_fm_paradigm}
\end{figure} \end{figure}
@@ -267,7 +267,7 @@
在统一形式化视角下,本文将模型适配理解为在结构角色描述符 $\mathcal{R}$ 约束下,对表示流与参数更新施加非均匀调制的过程。围绕这一建模思路,本文针对不同层级的结构异质性,设计相应形式的调制算子,并在表示空间与参数空间中形成相应的建模路径。本文的方法体系可概括为如下递进路径: 在统一形式化视角下,本文将模型适配理解为在结构角色描述符 $\mathcal{R}$ 约束下,对表示流与参数更新施加非均匀调制的过程。围绕这一建模思路,本文针对不同层级的结构异质性,设计相应形式的调制算子,并在表示空间与参数空间中形成相应的建模路径。本文的方法体系可概括为如下递进路径:
\begin{center} \begin{center}
模块级功能结构 $\rightarrow$ 维度级位置结构(静态 $\rightarrow$ 动态) $\rightarrow$ 参数空间结构(频谱 $\rightarrow$ 容量分配) 模块级功能结构 \\ $\downarrow$ \\维度级位置结构(静态 $\rightarrow$ 动态)\\ $\downarrow$ \\ 参数空间结构(频谱 $\rightarrow$ 容量分配)
\end{center} \end{center}
从适配作用对象的角度看,本文进一步将结构感知适配问题划分为表示空间与参数空间两个层面,并在不同结构层级上展开系统研究。其中: 从适配作用对象的角度看,本文进一步将结构感知适配问题划分为表示空间与参数空间两个层面,并在不同结构层级上展开系统研究。其中:

View File

@@ -731,7 +731,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
\begin{table}[!htbp] \begin{table}[!htbp]
\centering \centering
\caption[不同任务上的细粒度结果分析骨干模型Llama2-7B]{不同任务上的细粒度结果分析骨干模型Llama2-7B。最优结果加粗次优结果加下划线。} \caption[不同任务上的细粒度结果分析骨干模型Llama2-7B]{不同任务上的细粒度结果分析骨干模型Llama2-7B\\ 最优结果加粗,次优结果加下划线。}
\label{tab:ch3_cross_task} \label{tab:ch3_cross_task}
\begin{tabular}{llccc} \begin{tabular}{llccc}
@@ -879,7 +879,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.72\linewidth]{assets/3_tsne.pdf} \includegraphics[width=0.72\linewidth]{assets/3_tsne.pdf}
\caption[注意力表示空间的可视化结果]{注意力表示空间的可视化结果。上方为未施加 CAM 调制的基线表示,下方为经 HyCAM 调制后的表示。经调制后表示呈现更紧凑的簇结构与更高的区分度。} \caption[注意力表示空间的可视化结果]{注意力表示空间的可视化结果。\\ 上方为未施加 CAM 调制的基线表示,下方为经 HyCAM 调制后的表示。\\ 经调制后表示呈现更紧凑的簇结构与更高的区分度。}
\label{fig:ch3_tsne} \label{fig:ch3_tsne}
\end{figure} \end{figure}
@@ -892,7 +892,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.72\linewidth]{assets/3_ht.pdf} \includegraphics[width=0.72\linewidth]{assets/3_ht.pdf}
\caption[HyCAM 调制权重矩阵的可视化]{HyCAM 调制权重矩阵的可视化。不同 token 与维度上的调制强度呈现明显差异,说明 HyCAM 实现了细粒度的上下文感知调制。} \caption[HyCAM 调制权重矩阵的可视化]{HyCAM 调制权重矩阵的可视化。\\ 不同 token 与维度上的调制强度呈现明显差异,说明 HyCAM 实现了细粒度的上下文感知调制。}
\label{fig:ch3_weights} \label{fig:ch3_weights}
\end{figure} \end{figure}
@@ -905,7 +905,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.72\linewidth]{assets/3_loss.pdf} \includegraphics[width=0.72\linewidth]{assets/3_loss.pdf}
\caption[HyCAM 不同方法的训练过程对比]{不同方法的训练过程对比。HyCAM 相较基线方法表现出更快的收敛速度与更低的最终损失。} \caption[HyCAM 不同方法的训练过程对比]{不同方法的训练过程对比。\\ HyCAM 相较基线方法表现出更快的收敛速度与更低的最终损失。}
\label{fig:ch3_loss} \label{fig:ch3_loss}
\end{figure} \end{figure}

View File

@@ -69,7 +69,7 @@ RoPE的频率结构不仅是数学上的设计选择更在实际模型中诱
\hfill \hfill
\subcaptionbox{跨层激活分布\label{fig:ch4_attn_layer}}{% \subcaptionbox{跨层激活分布\label{fig:ch4_attn_layer}}{%
\includegraphics[width=0.48\linewidth]{assets/4_AcrossLayer.pdf}} \includegraphics[width=0.48\linewidth]{assets/4_AcrossLayer.pdf}}
\caption[预训练模型LLaMA-2-7B中Query状态的激活强度可视化]{预训练模型LLaMA-2-7B中Query状态的激活强度可视化。通过计算每个注意力头各维度的平均L2范数来量化激活强度。低频维度高索引集中了更强的激活且不同层之间呈现差异化的激活模式体现了维度级和层级的双重异质性。} \caption[预训练模型LLaMA-2-7B中Query状态的激活强度可视化]{预训练模型LLaMA-2-7B中Query状态的激活强度可视化。\\ 通过计算每个注意力头各维度的平均L2范数来量化激活强度。\\ 低频维度(高索引)集中了更强的激活,且不同层之间呈现差异化的激活模式,体现了维度级和层级的双重异质性。}
\label{fig:ch4_activation} \label{fig:ch4_activation}
\end{figure} \end{figure}
@@ -115,7 +115,7 @@ RoPE的频率结构不仅是数学上的设计选择更在实际模型中诱
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.85\linewidth]{assets/4_rosa_arch.pdf} \includegraphics[width=0.85\linewidth]{assets/4_rosa_arch.pdf}
\caption[RoSA方法框架图]{RoSA方法框架图。RoSA由两个核心模块组成RoPE感知注意力增强RoAE选择性增强RoPE影响的Q/K状态中的低频成分动态层选择DLS基于LayerNorm梯度信号动态选择重要层进行更新。} \caption[RoSA方法框架图]{RoSA方法框架图。\\ RoSA由两个核心模块组成RoPE感知注意力增强RoAE选择性增强RoPE影响的Q/K状态中的低频成分\\ 动态层选择DLS基于LayerNorm梯度信号动态选择重要层进行更新。}
\label{fig:ch4_rosa_arch} \label{fig:ch4_rosa_arch}
\end{figure} \end{figure}

View File

@@ -26,7 +26,7 @@ RoPE的频率结构不仅导致不同维度的激活强度差异如第四章
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.9\linewidth]{assets/5_rope_response.pdf} \includegraphics[width=0.9\linewidth]{assets/5_rope_response.pdf}
\caption[不同维度对的位置响应函数]{不同维度对的位置响应函数。a低索引维度对高频的注意力得分随相对距离快速衰减而高索引维度对低频在长距离上仍保持较高的注意力得分。b所有维度对的位置响应热图展示非均匀的位置敏感性分布。这种差异化的位置响应特性为DyPAM的维度对级调制设计提供了直接动机。} \caption[不同维度对的位置响应函数]{不同维度对的位置响应函数。\\ a低索引维度对高频的注意力得分随相对距离快速衰减而高索引维度对低频在长距离上仍保持较高的注意力得分。\\ b所有维度对的位置响应热图展示非均匀的位置敏感性分布。这种差异化的位置响应特性为DyPAM的维度对级调制设计提供了直接动机。}
\label{fig:ch5_rope_response} \label{fig:ch5_rope_response}
\end{figure} \end{figure}

View File

@@ -218,27 +218,57 @@ CASCADE在冻结骨干的基础上使用下游任务的标准监督目标进行
CASCADE的主要超参数包括低频DCT系数20K个、小波系数10K个、空域残差专家秩$r=48$、负载均衡和正交性损失权重均为0.01。CASCADE的整体训练流程如算法~\ref{alg:ch6_cascade}所示。 CASCADE的主要超参数包括低频DCT系数20K个、小波系数10K个、空域残差专家秩$r=48$、负载均衡和正交性损失权重均为0.01。CASCADE的整体训练流程如算法~\ref{alg:ch6_cascade}所示。
%\RestyleAlgo{ruled}
%\begin{algorithm}[htp]
%\caption[CASCADE从粗到细的频谱级联适配算法]{CASCADE从粗到细的频谱级联适配算法}
%\label{alg:ch6_cascade}
%\KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$}
%\KwOut{适配后的输出$\mathbf{y}$}
%计算基础输出 $\mathbf{y}_0 \leftarrow \mathbf{W}_0 \mathbf{x}$\;
%\textbf{低频专家:}\;
%构建稀疏DCT频谱$\mathbf{S}_{\text{dct}}$(式~\ref{eq:ch6_dct_sparse}\;
%重建全局更新$\Delta \mathbf{W}_{\text{dct}}$(式~\ref{eq:ch6_dct_inverse}\;
%\textbf{高频专家:}\;
%构建稀疏小波细节系数$\{\mathbf{B}_b\}_{b\in\mathcal{B}}$(式~\ref{eq:ch6_wavelet_sparse}\;
%计算调制参数$(\gamma_b,\beta_b)_{b\in\mathcal{B}}$(式~\ref{eq:ch6_film_params}\;
%应用频段级FiLM调制$\tilde{\mathbf{B}}_b$(式~\ref{eq:ch6_bandwise_film}\;
%重建局部更新$\Delta \mathbf{W}_{\text{wav}}$(式~\ref{eq:ch6_wavelet_inverse}\;
%\textbf{空域残差专家:}\;
%计算残差更新$\Delta \mathbf{W}_{\text{spatial}}$(式~\ref{eq:ch6_spatial_update}\;
%\textbf{路由与聚合:}\;
%计算专家权重$\mathbf{w}$(式~\ref{eq:ch6_routing_weights}\;
%聚合更新 $\Delta \mathbf{W} \leftarrow \sum_{e=1}^{E} w_e \cdot \Delta \mathbf{W}_e$\;
%\Return{$\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$}
%\end{algorithm}
\RestyleAlgo{ruled} \RestyleAlgo{ruled}
\begin{algorithm}[htp] \begin{algorithm}[htp]
\caption[CASCADE从粗到细的频谱级联适配算法]{CASCADE从粗到细的频谱级联适配算法} \caption[CASCADE从粗到细的频谱级联适配算法]{CASCADE从粗到细的频谱级联适配算法}
\label{alg:ch6_cascade} \label{alg:ch6_cascade_2}
\KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$} \KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$}
\KwOut{适配后的输出$\mathbf{y}$} \KwOut{适配后的输出$\mathbf{y}$}
计算基础输出 $\mathbf{y}_0 \leftarrow \mathbf{W}_0 \mathbf{x}$\; 计算基础输出 $\mathbf{y}_0 \leftarrow \mathbf{W}_0 \mathbf{x}$\;
\textbf{低频专家:}\; \textbf{低频专家:}\;
构建稀疏DCT频谱$\mathbf{S}_{\text{dct}}$(式~\ref{eq:ch6_dct_sparse}\; \Indp
重建全局更新$\Delta \mathbf{W}_{\text{dct}}$(式~\ref{eq:ch6_dct_inverse}\; 构建稀疏DCT频谱$\mathbf{S}_{\text{dct}}$(式~\ref{eq:ch6_dct_sparse}\;
\textbf{高频专家:}\; 重建全局更新$\Delta \mathbf{W}_{\text{dct}}$(式~\ref{eq:ch6_dct_inverse}\;
构建稀疏小波细节系数$\{\mathbf{B}_b\}_{b\in\mathcal{B}}$(式~\ref{eq:ch6_wavelet_sparse}\; \Indm
计算调制参数$(\gamma_b,\beta_b)_{b\in\mathcal{B}}$(式~\ref{eq:ch6_film_params}\; \textbf{高频专家:}\;
应用频段级FiLM调制$\tilde{\mathbf{B}}_b$(式~\ref{eq:ch6_bandwise_film}\; \Indp
重建局部更新$\Delta \mathbf{W}_{\text{wav}}$(式~\ref{eq:ch6_wavelet_inverse}\; 构建稀疏小波细节系数$\{\mathbf{B}_b\}_{b\in\mathcal{B}}$(式~\ref{eq:ch6_wavelet_sparse}\;
\textbf{空域残差专家:}\; 计算调制参数$(\gamma_b,\beta_b)_{b\in\mathcal{B}}$(式~\ref{eq:ch6_film_params}\;
计算残差更新$\Delta \mathbf{W}_{\text{spatial}}$(式~\ref{eq:ch6_spatial_update}\; 应用频段级FiLM调制$\tilde{\mathbf{B}}_b$(式~\ref{eq:ch6_bandwise_film}\;
\textbf{路由与聚合:}\; 重建局部更新$\Delta \mathbf{W}_{\text{wav}}$(式~\ref{eq:ch6_wavelet_inverse}\;
计算专家权重$\mathbf{w}$(式~\ref{eq:ch6_routing_weights}\; \Indm
聚合更新 $\Delta \mathbf{W} \leftarrow \sum_{e=1}^{E} w_e \cdot \Delta \mathbf{W}_e$\; \textbf{空域残差专家:}\;
\Return{$\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$} \Indp
计算残差更新$\Delta \mathbf{W}_{\text{spatial}}$(式~\ref{eq:ch6_spatial_update}\;
\Indm
\textbf{路由与聚合:}\;
\Indp
计算专家权重$\mathbf{w}$(式~\ref{eq:ch6_routing_weights}\;
聚合更新 $\Delta \mathbf{W} \leftarrow \sum_{e=1}^{E} w_e \cdot \Delta \mathbf{W}_e$\;
\Indm
\textbf{计算适配后的输出 $\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$}\;
\end{algorithm} \end{algorithm}
@@ -449,7 +479,7 @@ MESSA定位于右下象限用小型示意图展示其核心机制参数组
\toprule \toprule
\textbf{骨干} & \textbf{方法} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} \\ \textbf{骨干} & \textbf{方法} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} \\
\midrule \midrule
\multirow{7}{*}{\rotatebox{90}{\textbf{Qwen3-4B}}} \multirow{7}{*}{\textbf{Qwen3-4B}}
& LoRA & 66.88 & 82.97 & \underline{73.59} & 86.86 & 92.21 & \underline{83.60} & 85.37 & \underline{68.75} & 81.27 \\ & LoRA & 66.88 & 82.97 & \underline{73.59} & 86.86 & 92.21 & \underline{83.60} & 85.37 & \underline{68.75} & 81.27 \\
& AdaLoRA & \underline{67.34} & 82.64 & 73.44 & 87.03 & 92.89 & 82.00 & 79.99 & 67.88 & 78.89 \\ & AdaLoRA & \underline{67.34} & 82.64 & 73.44 & 87.03 & 92.89 & 82.00 & 79.99 & 67.88 & 78.89 \\
& BONE & 66.15 & 81.61 & 72.62 & 85.24 & 92.55 & 75.40 & 78.85 & 68.11 & 77.78 \\ & BONE & 66.15 & 81.61 & 72.62 & 85.24 & 92.55 & 75.40 & 78.85 & 68.11 & 77.78 \\
@@ -458,7 +488,7 @@ MESSA定位于右下象限用小型示意图展示其核心机制参数组
& FlyLoRA & 66.51 & \underline{83.35} & 73.54 & \underline{87.20} & 93.06 & 78.20 & \underline{85.63} & 68.35 & \underline{81.33} \\ & FlyLoRA & 66.51 & \underline{83.35} & 73.54 & \underline{87.20} & 93.06 & 78.20 & \underline{85.63} & 68.35 & \underline{81.33} \\
& \textbf{CASCADE} & \textbf{67.74} & \textbf{83.46} & \textbf{75.49} & \textbf{87.88} & \textbf{93.64} & \textbf{86.40} & \textbf{85.75} & \textbf{71.98} & \textbf{82.22*} \\ & \textbf{CASCADE} & \textbf{67.74} & \textbf{83.46} & \textbf{75.49} & \textbf{87.88} & \textbf{93.64} & \textbf{86.40} & \textbf{85.75} & \textbf{71.98} & \textbf{82.22*} \\
\midrule \midrule
\multirow{7}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}} \multirow{7}{*}{\textbf{LLaMA3.2-3B}}
& LoRA & 61.41 & 78.62 & 66.79 & 68.26 & 84.05 & 70.20 & 79.49 & \underline{56.35} & \underline{74.05} \\ & LoRA & 61.41 & 78.62 & 66.79 & 68.26 & 84.05 & 70.20 & 79.49 & \underline{56.35} & \underline{74.05} \\
& AdaLoRA & \underline{61.53} & 78.89 & 67.04 & \underline{69.71} & 83.63 & 69.60 & 79.31 & 54.78 & 73.96 \\ & AdaLoRA & \underline{61.53} & 78.89 & 67.04 & \underline{69.71} & 83.63 & 69.60 & 79.31 & 54.78 & 73.96 \\
& BONE & 60.61 & 76.17 & 66.53 & 67.24 & 79.88 & 63.20 & 79.28 & 50.04 & 72.61 \\ & BONE & 60.61 & 76.17 & 66.53 & 67.24 & 79.88 & 63.20 & 79.28 & 50.04 & 72.61 \\
@@ -467,7 +497,7 @@ MESSA定位于右下象限用小型示意图展示其核心机制参数组
& FlyLoRA & 59.02 & 78.94 & \underline{67.14} & 67.58 & \underline{84.22} & \underline{71.80} & \underline{79.66} & 52.49 & 73.64 \\ & FlyLoRA & 59.02 & 78.94 & \underline{67.14} & 67.58 & \underline{84.22} & \underline{71.80} & \underline{79.66} & 52.49 & 73.64 \\
& \textbf{CASCADE} & \textbf{62.66} & \textbf{80.69} & \textbf{67.40} & \textbf{69.97} & \textbf{84.68} & \textbf{73.60} & \textbf{79.94} & \textbf{62.59} & \textbf{75.25*} \\ & \textbf{CASCADE} & \textbf{62.66} & \textbf{80.69} & \textbf{67.40} & \textbf{69.97} & \textbf{84.68} & \textbf{73.60} & \textbf{79.94} & \textbf{62.59} & \textbf{75.25*} \\
\midrule \midrule
\multirow{7}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}} \multirow{7}{*}{\textbf{Gemma3-4B}}
& LoRA & 64.34 & 78.07 & \underline{70.21} & 75.26 & \underline{87.37} & 75.60 & \underline{77.97} & \underline{61.88} & \underline{75.21} \\ & LoRA & 64.34 & 78.07 & \underline{70.21} & 75.26 & \underline{87.37} & 75.60 & \underline{77.97} & \underline{61.88} & \underline{75.21} \\
& AdaLoRA & \underline{64.86} & \underline{79.16} & 69.91 & 75.68 & 86.87 & 72.00 & 77.19 & 61.17 & 74.84 \\ & AdaLoRA & \underline{64.86} & \underline{79.16} & 69.91 & 75.68 & 86.87 & 72.00 & 77.19 & 61.17 & 74.84 \\
& BONE & 63.67 & 78.35 & 69.19 & \underline{76.11} & 86.95 & 70.60 & 73.97 & 48.22 & 72.37 \\ & BONE & 63.67 & 78.35 & 69.19 & \underline{76.11} & 86.95 & 70.60 & 73.97 & 48.22 & 72.37 \\