diff --git a/chap01.tex b/chap01.tex index e088228..43ff1fa 100644 --- a/chap01.tex +++ b/chap01.tex @@ -17,7 +17,7 @@ \begin{figure}[htbp] \centering % \includegraphics[width=0.85\textwidth]{fm_paradigm.pdf} -\caption[基础模型范式下统一表示学习的示意图]{基础模型范式下统一表示学习的示意图。左侧表示传统任务特定建模方式,不同任务依赖独立模型与特征设计;右侧表示基础模型通过预训练形成统一表示空间,并通过适配机制支持多任务共享与迁移。} +\caption[基础模型范式下统一表示学习的示意图]{基础模型范式下统一表示学习的示意图。\\左侧表示传统任务特定建模方式,不同任务依赖独立模型与特征设计;\\右侧表示基础模型通过预训练形成统一表示空间,并通过适配机制支持多任务共享与迁移。} \label{fig:ch1_fm_paradigm} \end{figure} @@ -267,7 +267,7 @@ 在统一形式化视角下,本文将模型适配理解为在结构角色描述符 $\mathcal{R}$ 约束下,对表示流与参数更新施加非均匀调制的过程。围绕这一建模思路,本文针对不同层级的结构异质性,设计相应形式的调制算子,并在表示空间与参数空间中形成相应的建模路径。本文的方法体系可概括为如下递进路径: \begin{center} -模块级功能结构 $\rightarrow$ 维度级位置结构(静态 $\rightarrow$ 动态) $\rightarrow$ 参数空间结构(频谱 $\rightarrow$ 容量分配) +模块级功能结构 \\ $\downarrow$ \\维度级位置结构(静态 $\rightarrow$ 动态)\\ $\downarrow$ \\ 参数空间结构(频谱 $\rightarrow$ 容量分配) \end{center} 从适配作用对象的角度看,本文进一步将结构感知适配问题划分为表示空间与参数空间两个层面,并在不同结构层级上展开系统研究。其中: diff --git a/chap03.tex b/chap03.tex index 68104f6..2ae1035 100644 --- a/chap03.tex +++ b/chap03.tex @@ -731,7 +731,7 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置 \begin{table}[!htbp] \centering - \caption[不同任务上的细粒度结果分析(骨干模型:Llama2-7B)]{不同任务上的细粒度结果分析(骨干模型:Llama2-7B)。最优结果加粗,次优结果加下划线。} + \caption[不同任务上的细粒度结果分析(骨干模型:Llama2-7B)]{不同任务上的细粒度结果分析(骨干模型:Llama2-7B)。\\ 最优结果加粗,次优结果加下划线。} \label{tab:ch3_cross_task} \begin{tabular}{llccc} @@ -879,7 +879,7 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置 \begin{figure}[htp] \centering \includegraphics[width=0.72\linewidth]{assets/3_tsne.pdf} - \caption[注意力表示空间的可视化结果]{注意力表示空间的可视化结果。上方为未施加 CAM 调制的基线表示,下方为经 HyCAM 调制后的表示。经调制后表示呈现更紧凑的簇结构与更高的区分度。} + \caption[注意力表示空间的可视化结果]{注意力表示空间的可视化结果。\\ 上方为未施加 CAM 调制的基线表示,下方为经 HyCAM 调制后的表示。\\ 经调制后表示呈现更紧凑的簇结构与更高的区分度。} \label{fig:ch3_tsne} \end{figure} @@ -892,7 +892,7 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置 \begin{figure}[htp] \centering \includegraphics[width=0.72\linewidth]{assets/3_ht.pdf} - \caption[HyCAM 调制权重矩阵的可视化]{HyCAM 调制权重矩阵的可视化。不同 token 与维度上的调制强度呈现明显差异,说明 HyCAM 实现了细粒度的上下文感知调制。} + \caption[HyCAM 调制权重矩阵的可视化]{HyCAM 调制权重矩阵的可视化。\\ 不同 token 与维度上的调制强度呈现明显差异,说明 HyCAM 实现了细粒度的上下文感知调制。} \label{fig:ch3_weights} \end{figure} @@ -905,7 +905,7 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置 \begin{figure}[htp] \centering \includegraphics[width=0.72\linewidth]{assets/3_loss.pdf} - \caption[HyCAM 不同方法的训练过程对比]{不同方法的训练过程对比。HyCAM 相较基线方法表现出更快的收敛速度与更低的最终损失。} + \caption[HyCAM 不同方法的训练过程对比]{不同方法的训练过程对比。\\ HyCAM 相较基线方法表现出更快的收敛速度与更低的最终损失。} \label{fig:ch3_loss} \end{figure} diff --git a/chap04.tex b/chap04.tex index 05a4030..dd38b31 100644 --- a/chap04.tex +++ b/chap04.tex @@ -69,7 +69,7 @@ RoPE的频率结构不仅是数学上的设计选择,更在实际模型中诱 \hfill \subcaptionbox{跨层激活分布\label{fig:ch4_attn_layer}}{% \includegraphics[width=0.48\linewidth]{assets/4_AcrossLayer.pdf}} - \caption[预训练模型(LLaMA-2-7B)中Query状态的激活强度可视化]{预训练模型(LLaMA-2-7B)中Query状态的激活强度可视化。通过计算每个注意力头各维度的平均L2范数来量化激活强度。低频维度(高索引)集中了更强的激活,且不同层之间呈现差异化的激活模式,体现了维度级和层级的双重异质性。} + \caption[预训练模型(LLaMA-2-7B)中Query状态的激活强度可视化]{预训练模型(LLaMA-2-7B)中Query状态的激活强度可视化。\\ 通过计算每个注意力头各维度的平均L2范数来量化激活强度。\\ 低频维度(高索引)集中了更强的激活,且不同层之间呈现差异化的激活模式,体现了维度级和层级的双重异质性。} \label{fig:ch4_activation} \end{figure} @@ -115,7 +115,7 @@ RoPE的频率结构不仅是数学上的设计选择,更在实际模型中诱 \begin{figure}[htp] \centering \includegraphics[width=0.85\linewidth]{assets/4_rosa_arch.pdf} - \caption[RoSA方法框架图]{RoSA方法框架图。RoSA由两个核心模块组成:RoPE感知注意力增强(RoAE),选择性增强RoPE影响的Q/K状态中的低频成分;动态层选择(DLS),基于LayerNorm梯度信号动态选择重要层进行更新。} + \caption[RoSA方法框架图]{RoSA方法框架图。\\ RoSA由两个核心模块组成:RoPE感知注意力增强(RoAE),选择性增强RoPE影响的Q/K状态中的低频成分;\\ 动态层选择(DLS),基于LayerNorm梯度信号动态选择重要层进行更新。} \label{fig:ch4_rosa_arch} \end{figure} diff --git a/chap05.tex b/chap05.tex index a10a8d1..b6155b7 100644 --- a/chap05.tex +++ b/chap05.tex @@ -26,7 +26,7 @@ RoPE的频率结构不仅导致不同维度的激活强度差异(如第四章 \begin{figure}[htp] \centering \includegraphics[width=0.9\linewidth]{assets/5_rope_response.pdf} - \caption[不同维度对的位置响应函数]{不同维度对的位置响应函数。(a)低索引维度对(高频)的注意力得分随相对距离快速衰减,而高索引维度对(低频)在长距离上仍保持较高的注意力得分。(b)所有维度对的位置响应热图,展示非均匀的位置敏感性分布。这种差异化的位置响应特性为DyPAM的维度对级调制设计提供了直接动机。} + \caption[不同维度对的位置响应函数]{不同维度对的位置响应函数。\\ (a)低索引维度对(高频)的注意力得分随相对距离快速衰减,而高索引维度对(低频)在长距离上仍保持较高的注意力得分。\\ (b)所有维度对的位置响应热图,展示非均匀的位置敏感性分布。这种差异化的位置响应特性为DyPAM的维度对级调制设计提供了直接动机。} \label{fig:ch5_rope_response} \end{figure} diff --git a/chap06.tex b/chap06.tex index 95eae82..adc5c01 100644 --- a/chap06.tex +++ b/chap06.tex @@ -218,27 +218,57 @@ CASCADE在冻结骨干的基础上使用下游任务的标准监督目标进行 CASCADE的主要超参数包括:低频DCT系数20K个、小波系数10K个、空域残差专家秩$r=48$、负载均衡和正交性损失权重均为0.01。CASCADE的整体训练流程如算法~\ref{alg:ch6_cascade}所示。 +%\RestyleAlgo{ruled} +%\begin{algorithm}[htp] +%\caption[CASCADE:从粗到细的频谱级联适配算法]{CASCADE:从粗到细的频谱级联适配算法} +%\label{alg:ch6_cascade} +%\KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$} +%\KwOut{适配后的输出$\mathbf{y}$} +%计算基础输出 $\mathbf{y}_0 \leftarrow \mathbf{W}_0 \mathbf{x}$\; +%\textbf{低频专家:}\; +%构建稀疏DCT频谱$\mathbf{S}_{\text{dct}}$(式~\ref{eq:ch6_dct_sparse})\; +%重建全局更新$\Delta \mathbf{W}_{\text{dct}}$(式~\ref{eq:ch6_dct_inverse})\; +%\textbf{高频专家:}\; +%构建稀疏小波细节系数$\{\mathbf{B}_b\}_{b\in\mathcal{B}}$(式~\ref{eq:ch6_wavelet_sparse})\; +%计算调制参数$(\gamma_b,\beta_b)_{b\in\mathcal{B}}$(式~\ref{eq:ch6_film_params})\; +%应用频段级FiLM调制$\tilde{\mathbf{B}}_b$(式~\ref{eq:ch6_bandwise_film})\; +%重建局部更新$\Delta \mathbf{W}_{\text{wav}}$(式~\ref{eq:ch6_wavelet_inverse})\; +%\textbf{空域残差专家:}\; +%计算残差更新$\Delta \mathbf{W}_{\text{spatial}}$(式~\ref{eq:ch6_spatial_update})\; +%\textbf{路由与聚合:}\; +%计算专家权重$\mathbf{w}$(式~\ref{eq:ch6_routing_weights})\; +%聚合更新 $\Delta \mathbf{W} \leftarrow \sum_{e=1}^{E} w_e \cdot \Delta \mathbf{W}_e$\; +%\Return{$\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$} +%\end{algorithm} \RestyleAlgo{ruled} \begin{algorithm}[htp] -\caption[CASCADE:从粗到细的频谱级联适配算法]{CASCADE:从粗到细的频谱级联适配算法} -\label{alg:ch6_cascade} -\KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$} -\KwOut{适配后的输出$\mathbf{y}$} -计算基础输出 $\mathbf{y}_0 \leftarrow \mathbf{W}_0 \mathbf{x}$\; -\textbf{低频专家:}\; -构建稀疏DCT频谱$\mathbf{S}_{\text{dct}}$(式~\ref{eq:ch6_dct_sparse})\; -重建全局更新$\Delta \mathbf{W}_{\text{dct}}$(式~\ref{eq:ch6_dct_inverse})\; -\textbf{高频专家:}\; -构建稀疏小波细节系数$\{\mathbf{B}_b\}_{b\in\mathcal{B}}$(式~\ref{eq:ch6_wavelet_sparse})\; -计算调制参数$(\gamma_b,\beta_b)_{b\in\mathcal{B}}$(式~\ref{eq:ch6_film_params})\; -应用频段级FiLM调制$\tilde{\mathbf{B}}_b$(式~\ref{eq:ch6_bandwise_film})\; -重建局部更新$\Delta \mathbf{W}_{\text{wav}}$(式~\ref{eq:ch6_wavelet_inverse})\; -\textbf{空域残差专家:}\; -计算残差更新$\Delta \mathbf{W}_{\text{spatial}}$(式~\ref{eq:ch6_spatial_update})\; -\textbf{路由与聚合:}\; -计算专家权重$\mathbf{w}$(式~\ref{eq:ch6_routing_weights})\; -聚合更新 $\Delta \mathbf{W} \leftarrow \sum_{e=1}^{E} w_e \cdot \Delta \mathbf{W}_e$\; -\Return{$\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$} + \caption[CASCADE:从粗到细的频谱级联适配算法]{CASCADE:从粗到细的频谱级联适配算法} + \label{alg:ch6_cascade_2} + \KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$} + \KwOut{适配后的输出$\mathbf{y}$} + 计算基础输出 $\mathbf{y}_0 \leftarrow \mathbf{W}_0 \mathbf{x}$\; + \textbf{低频专家:}\; + \Indp + 构建稀疏DCT频谱$\mathbf{S}_{\text{dct}}$(式~\ref{eq:ch6_dct_sparse})\; + 重建全局更新$\Delta \mathbf{W}_{\text{dct}}$(式~\ref{eq:ch6_dct_inverse})\; + \Indm + \textbf{高频专家:}\; + \Indp + 构建稀疏小波细节系数$\{\mathbf{B}_b\}_{b\in\mathcal{B}}$(式~\ref{eq:ch6_wavelet_sparse})\; + 计算调制参数$(\gamma_b,\beta_b)_{b\in\mathcal{B}}$(式~\ref{eq:ch6_film_params})\; + 应用频段级FiLM调制$\tilde{\mathbf{B}}_b$(式~\ref{eq:ch6_bandwise_film})\; + 重建局部更新$\Delta \mathbf{W}_{\text{wav}}$(式~\ref{eq:ch6_wavelet_inverse})\; + \Indm + \textbf{空域残差专家:}\; + \Indp + 计算残差更新$\Delta \mathbf{W}_{\text{spatial}}$(式~\ref{eq:ch6_spatial_update})\; + \Indm + \textbf{路由与聚合:}\; + \Indp + 计算专家权重$\mathbf{w}$(式~\ref{eq:ch6_routing_weights})\; + 聚合更新 $\Delta \mathbf{W} \leftarrow \sum_{e=1}^{E} w_e \cdot \Delta \mathbf{W}_e$\; + \Indm + \textbf{计算适配后的输出 $\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$}\; \end{algorithm} @@ -449,7 +479,7 @@ MESSA定位于右下象限,用小型示意图展示其核心机制:参数组 \toprule \textbf{骨干} & \textbf{方法} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} \\ \midrule - \multirow{7}{*}{\rotatebox{90}{\textbf{Qwen3-4B}}} + \multirow{7}{*}{\textbf{Qwen3-4B}} & LoRA & 66.88 & 82.97 & \underline{73.59} & 86.86 & 92.21 & \underline{83.60} & 85.37 & \underline{68.75} & 81.27 \\ & AdaLoRA & \underline{67.34} & 82.64 & 73.44 & 87.03 & 92.89 & 82.00 & 79.99 & 67.88 & 78.89 \\ & BONE & 66.15 & 81.61 & 72.62 & 85.24 & 92.55 & 75.40 & 78.85 & 68.11 & 77.78 \\ @@ -458,7 +488,7 @@ MESSA定位于右下象限,用小型示意图展示其核心机制:参数组 & FlyLoRA & 66.51 & \underline{83.35} & 73.54 & \underline{87.20} & 93.06 & 78.20 & \underline{85.63} & 68.35 & \underline{81.33} \\ & \textbf{CASCADE} & \textbf{67.74} & \textbf{83.46} & \textbf{75.49} & \textbf{87.88} & \textbf{93.64} & \textbf{86.40} & \textbf{85.75} & \textbf{71.98} & \textbf{82.22*} \\ \midrule - \multirow{7}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}} + \multirow{7}{*}{\textbf{LLaMA3.2-3B}} & LoRA & 61.41 & 78.62 & 66.79 & 68.26 & 84.05 & 70.20 & 79.49 & \underline{56.35} & \underline{74.05} \\ & AdaLoRA & \underline{61.53} & 78.89 & 67.04 & \underline{69.71} & 83.63 & 69.60 & 79.31 & 54.78 & 73.96 \\ & BONE & 60.61 & 76.17 & 66.53 & 67.24 & 79.88 & 63.20 & 79.28 & 50.04 & 72.61 \\ @@ -467,7 +497,7 @@ MESSA定位于右下象限,用小型示意图展示其核心机制:参数组 & FlyLoRA & 59.02 & 78.94 & \underline{67.14} & 67.58 & \underline{84.22} & \underline{71.80} & \underline{79.66} & 52.49 & 73.64 \\ & \textbf{CASCADE} & \textbf{62.66} & \textbf{80.69} & \textbf{67.40} & \textbf{69.97} & \textbf{84.68} & \textbf{73.60} & \textbf{79.94} & \textbf{62.59} & \textbf{75.25*} \\ \midrule - \multirow{7}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}} + \multirow{7}{*}{\textbf{Gemma3-4B}} & LoRA & 64.34 & 78.07 & \underline{70.21} & 75.26 & \underline{87.37} & 75.60 & \underline{77.97} & \underline{61.88} & \underline{75.21} \\ & AdaLoRA & \underline{64.86} & \underline{79.16} & 69.91 & 75.68 & 86.87 & 72.00 & 77.19 & 61.17 & 74.84 \\ & BONE & 63.67 & 78.35 & 69.19 & \underline{76.11} & 86.95 & 70.60 & 73.97 & 48.22 & 72.37 \\