Rev for Pre

2026-03-23 22:07:08 +08:00
parent de3d1598b0
commit 1fd3c5771f
12 changed files with 303 additions and 121 deletions
--- a/chap02.tex
+++ b/chap02.tex
@@ -3,7 +3,8 @@
 \chapter{大语言模型表征适配的相关理论与研究进展}
 \label{chap:related_work}

-本章围绕大语言模型的架构基础、参数高效适配方法、多任务学习机制以及结构异质性感知建模四个方面，对相关领域的研究进展进行系统梳理。第~\ref{sec:rw_llm_arch}~节介绍 Transformer 架构、旋转位置编码、预训练范式以及模型内部功能分化的研究基础；第~\ref{sec:rw_peft}~节综述参数高效微调方法的主要类别及其均匀适配局限；第~\ref{sec:rw_multitask}~节梳理多任务学习与模块级功能适配的相关工作；第~\ref{sec:rw_structure_aware}~节回顾围绕维度级异质性、频谱结构与参数容量分配的结构感知适配研究。上述梳理为第~\ref{sec:unified_framework}~节提出的统一分析框架以及后续各章方法设计提供文献基础与问题定位。
+本章围绕大语言模型的架构基础、参数高效适配方法、多任务学习机制以及结构异质性感知建模四个方面，对相关领域的研究进展进行系统梳理。第~\ref{sec:rw_llm_arch}~节介绍Transformer架构、旋转位置编码、预训练范式以及模型内部功能分化的研究基础；第~\ref{sec:rw_peft}~节综述参数高效微调方法的主要类别及其适配局限；第~\ref{sec:rw_multitask}~节梳理多任务学习与模块级功能适配的相关工作；第~\ref{sec:rw_structure_aware}~节回顾围绕维度级异质性、频谱结构与参数容量分配的结构感知适配研究。上述梳理为第~\ref{sec:unified_framework}~节提出的统一分析框架以及后续各章方法提供理论基础。
+% 与问题定位。


 %======================================================================
@@ -36,7 +37,7 @@ Transformer 架构通过引入自注意力机制，实现了对序列内部全
 \end{equation}
 各头输出拼接后经线性投影得到 MHSA 最终输出。现代大语言模型还广泛采用分组查询注意力（Grouped Query Attention, GQA）以在保持模型容量的同时降低推理开销\cite{ainslie2023gqa}。

-前馈网络模块通常采用门控线性单元（Gated Linear Unit）结构，以 SwiGLU 为典型代表：
+前馈网络模块通常采用门控线性单元（Gated Linear Unit）结构，以 SiLU 为典型：
 \begin{equation}
 \mathrm{FFN}(\mathbf{x}) = (\mathrm{SiLU}(\mathbf{x}\mathbf{W}_1) \odot \mathbf{x}\mathbf{W}_3) \mathbf{W}_2,
 \end{equation}
@@ -47,10 +48,11 @@ Transformer 架构通过引入自注意力机制，实现了对序列内部全
 \begin{figure}[htbp]
 \centering
 % 占位：待替换为外部绘制的 2_transformer_block.pdf
-% \includegraphics[width=0.75\textwidth]{assets/2_transformer_block.pdf}
-\caption[基于Pre-LN结构的Transformer解码器块示意图]{基于Pre-LN结构的Transformer解码器块示意图。该图展示单个Transformer层的完整计算流程：
-输入隐藏状态$\mathbf{H}^{(\ell-1)}$首先经LayerNorm归一化，进入多头自注意力（MHSA）模块，其中Query/Key经RoPE旋转后计算带因果掩码的缩放点积注意力，Value不经旋转直接参与加权聚合；MHSA输出经残差连接后再经LayerNorm，进入采用SwiGLU结构的前馈网络（FFN）模块，最终经残差连接输出$\mathbf{H}^{(\ell)}$。
-图中应标注以下结构异质性关注点：（1）MHSA与FFN之间的功能分工（上下文路由 vs 知识存储）标注为$\mathcal{R}_{mod}$；（2）MHSA内部不同维度对的RoPE频率差异标注为$\mathcal{R}_{dim}$；（3）权重矩阵$\mathbf{W}$上的参数更新结构标注为$\mathcal{R}_{spec}$/$\mathcal{R}_{param}$。}
+\includegraphics[width=0.9\textwidth]{assets/2_transformer_block.pdf}
+\caption[基于Pre-LN结构的Transformer解码器块示意图]{基于Pre-LN结构的Transformer解码器块示意图。输入$\mathbf{H}^{(\ell-1)}$依次经LayerNorm、多头自注意力（MHSA，Query/Key施加RoPE旋转）、残差连接、LayerNorm、SwiGLU前馈网络（FFN）及残差连接，输出$\mathbf{H}^{(\ell)}$。图中标注了本文关注的三类结构异质性：MHSA与FFN的模块级功能分工（$\mathcal{R}_{mod}$）、MHSA内部RoPE维度对的频率差异（$\mathcal{R}_{dim}$）、以及权重矩阵的参数更新结构（$\mathcal{R}_{spec}$/$\mathcal{R}_{param}$）。}
+% \caption[基于Pre-LN结构的Transformer解码器块示意图]{基于Pre-LN结构的Transformer解码器块示意图。该图展示单个Transformer层的完整计算流程：
+% 输入隐藏状态$\mathbf{H}^{(\ell-1)}$首先经LayerNorm归一化，进入多头自注意力（MHSA）模块，其中Query/Key经RoPE旋转后计算带因果掩码的缩放点积注意力，Value不经旋转直接参与加权聚合；MHSA输出经残差连接后再经LayerNorm，进入采用SwiGLU结构的前馈网络（FFN）模块，最终经残差连接输出$\mathbf{H}^{(\ell)}$。
+% 图中应标注以下结构异质性关注点：（1）MHSA与FFN之间的功能分工（上下文路由 vs 知识存储）标注为$\mathcal{R}_{mod}$；（2）MHSA内部不同维度对的RoPE频率差异标注为$\mathcal{R}_{dim}$；（3）权重矩阵$\mathbf{W}$上的参数更新结构标注为$\mathcal{R}_{spec}$/$\mathcal{R}_{param}$。}
 \label{fig:ch2_transformer_block}
 \end{figure}

@@ -82,11 +84,14 @@ RoPE 最显著的特性在于其呈现出一种频率分解结构（frequency de
 \begin{figure}[htbp]
 \centering
 % 占位：待替换为外部绘制的 2_rope_frequency.pdf
-% \includegraphics[width=0.85\textwidth]{assets/2_rope_frequency.pdf}
-\caption[RoPE旋转位置编码的频率分解结构示意图]{RoPE旋转位置编码的频率分解结构示意图。该图分为三个子图：
-\textbf{（a）维度对旋转频率}：横轴为维度对索引$i$，纵轴为旋转频率$\theta_i = \omega^{-2i/d_h}$（对数刻度），展示频率随维度索引几何递减的趋势，标注低索引=高频（局部位置敏感）与高索引=低频（全局依赖）两个区域。
-\textbf{（b）位置响应衰减曲线}：横轴为相对位置距离$|t_1 - t_2|$，纵轴为注意力得分贡献，绘制3--4条代表性维度对的衰减曲线（高频对快速衰减、低频对缓慢衰减），直观展示不同维度对的多尺度位置感知特性。
-\textbf{（c）维度对旋转示意}：选取一个高频维度对和一个低频维度对，在复平面上展示位置$t$从$0$到$T$时向量旋转轨迹的差异——高频对旋转多圈、低频对仅旋转小角度。}
+\includegraphics[width=0.85\textwidth]{assets/2_rope_frequency.pdf}
+\caption[RoPE旋转位置编码的频率分解结构示意图]{RoPE旋转位置编码的频率分解结构示意图。\textbf{（a）}旋转频率$\theta_i$随维度对索引$i$几何递减，低索引对应高频（局部位置敏感），高索引
+  对应低频（全局依赖）。\textbf{（b）}不同维度对的注意力得分随相对位置距离的衰减曲线，高频维度对快速衰减，低频维度对缓慢衰减，体现多尺度位置感知特性。\textbf{（c）}高频与低频维度对在
+  复平面上的旋转轨迹对比，高频对旋转多圈，低频对仅旋转小角度。}
+% \caption[RoPE旋转位置编码的频率分解结构示意图]{RoPE旋转位置编码的频率分解结构示意图。该图分为三个子图：
+% \textbf{（a）维度对旋转频率}：横轴为维度对索引$i$，纵轴为旋转频率$\theta_i = \omega^{-2i/d_h}$（对数刻度），展示频率随维度索引几何递减的趋势，标注低索引=高频（局部位置敏感）与高索引=低频（全局依赖）两个区域。
+% \textbf{（b）位置响应衰减曲线}：横轴为相对位置距离$|t_1 - t_2|$，纵轴为注意力得分贡献，绘制3--4条代表性维度对的衰减曲线（高频对快速衰减、低频对缓慢衰减），直观展示不同维度对的多尺度位置感知特性。
+% \textbf{（c）维度对旋转示意}：选取一个高频维度对和一个低频维度对，在复平面上展示位置$t$从$0$到$T$时向量旋转轨迹的差异——高频对旋转多圈、低频对仅旋转小角度。}
 \label{fig:ch2_rope_frequency}
 \end{figure}

@@ -174,17 +179,17 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co

 综合上述三类方法，可以从适配机制、结构假设以及与后续章节的衔接关系等维度对现有适配方法进行系统比较，如表~\ref{tab:ch2_method_comparison}~所示。

-\begin{figure}[htbp]
-\centering
-% 占位：待替换为外部绘制的 2_peft_taxonomy.pdf
-% \includegraphics[width=0.88\textwidth]{assets/2_peft_taxonomy.pdf}
-\caption[参数高效适配方法的谱系结构与本文方法定位]{参数高效适配方法的谱系结构与本文方法定位。该图采用树形或层级分类布局：
-\textbf{第一层}按适配对象分为三大类——"参数更新结构"（低秩、稀疏）、"附加模块"（Adapter、前缀/提示）、"表示调制"（激活缩放、门控调制）。
-\textbf{第二层}在每个大类下列出代表性方法：低秩类（LoRA、DoRA、AdaLoRA）、稀疏类（BitFit、SHiRA、运动剪枝）、附加类（Adapter、Prefix-Tuning、Prompt Tuning）、调制类（(IA)$^3$）。
-\textbf{第三层}用虚线框或高亮标注本文五个方法（HyCAM、RoSA、DyPAM、CASCADE、MESSA）的定位，并用箭头标注其相对于现有方法的创新方向——从"均匀适配"指向"结构感知适配"。
-右侧用渐变色条标注"结构感知程度"从弱到强的演进趋势。}
-\label{fig:ch2_peft_taxonomy}
-\end{figure}
+% \begin{figure}[htbp]
+% \centering
+% % 占位：待替换为外部绘制的 2_peft_taxonomy.pdf
+% % \includegraphics[width=0.88\textwidth]{assets/2_peft_taxonomy.pdf}
+% \caption[参数高效适配方法的谱系结构与本文方法定位]{参数高效适配方法的谱系结构与本文方法定位。该图采用树形或层级分类布局：
+% \textbf{第一层}按适配对象分为三大类——"参数更新结构"（低秩、稀疏）、"附加模块"（Adapter、前缀/提示）、"表示调制"（激活缩放、门控调制）。
+% \textbf{第二层}在每个大类下列出代表性方法：低秩类（LoRA、DoRA、AdaLoRA）、稀疏类（BitFit、SHiRA、运动剪枝）、附加类（Adapter、Prefix-Tuning、Prompt Tuning）、调制类（(IA)$^3$）。
+% \textbf{第三层}用虚线框或高亮标注本文五个方法（HyCAM、RoSA、DyPAM、CASCADE、MESSA）的定位，并用箭头标注其相对于现有方法的创新方向——从"均匀适配"指向"结构感知适配"。
+% 右侧用渐变色条标注"结构感知程度"从弱到强的演进趋势。}
+% \label{fig:ch2_peft_taxonomy}
+% \end{figure}

 \begin{table}[htbp]
 \centering
@@ -307,21 +312,21 @@ RoPE 的频率结构为表示空间引入了额外的维度级异质性。由于

 然而，当问题推进到多任务条件下，复杂度进一步提升。此时不仅要回答"哪些参数值得更新"，还要回答"哪些更新应由所有任务共享，哪些应保留为任务特有"。现有方法多依赖预先设定的共享规则或简单的任务标识路由，缺乏能够在统一预算约束下同时学习共享结构与特有结构的系统化机制。如何将结构发现从"给定结构下的参数学习"提升为"结构与参数的联合优化"，仍是当前多任务适配研究中的开放问题。

-\begin{figure}[htbp]
-\centering
-% 占位：待替换为外部绘制的 2_heterogeneity_levels.pdf
-% \includegraphics[width=0.9\textwidth]{assets/2_heterogeneity_levels.pdf}
-\caption[大语言模型内部多层级结构异质性的表现与适配对应关系]{大语言模型内部多层级结构异质性的表现与适配对应关系。该图采用左右两栏布局：
-\textbf{左栏}（结构异质性层级）自上而下展示四个层级的异质性现象，每层配一个小型示意：
-（1）模块级（$\mathcal{R}_{mod}$）：MHSA与FFN功能分工示意（上下文路由 vs 知识存储），用不同色块标注；
-（2）维度级（$\mathcal{R}_{dim}$）：RoPE不同维度对的激活强度热图（高频维度弱激活、低频维度强激活）；
-（3）频谱级（$\mathcal{R}_{spec}$）：权重更新矩阵的频谱分解示意（低频全局平滑 + 高频局部修正）；
-（4）参数级（$\mathcal{R}_{param}$）：多任务参数分配示意（冻结/共享/专用三种状态的参数组）。
-\textbf{右栏}（对应适配方法）与左栏四个层级一一对齐，标注本文对应的方法名、调制形式与章节：
-HyCAM（乘性，Ch3）、RoSA$\to$DyPAM（乘性，Ch4$\to$Ch5）、CASCADE（组合式，Ch6）、MESSA（结构分解，Ch6）。
-左右栏之间用虚线箭头连接，表示"结构异质性$\to$结构感知适配"的映射关系。}
-\label{fig:ch2_heterogeneity_levels}
-\end{figure}
+% \begin{figure}[htbp]
+% \centering
+% % 占位：待替换为外部绘制的 2_heterogeneity_levels.pdf
+% % \includegraphics[width=0.9\textwidth]{assets/2_heterogeneity_levels.pdf}
+% \caption[大语言模型内部多层级结构异质性的表现与适配对应关系]{大语言模型内部多层级结构异质性的表现与适配对应关系。该图采用左右两栏布局：
+% \textbf{左栏}（结构异质性层级）自上而下展示四个层级的异质性现象，每层配一个小型示意：
+% （1）模块级（$\mathcal{R}_{mod}$）：MHSA与FFN功能分工示意（上下文路由 vs 知识存储），用不同色块标注；
+% （2）维度级（$\mathcal{R}_{dim}$）：RoPE不同维度对的激活强度热图（高频维度弱激活、低频维度强激活）；
+% （3）频谱级（$\mathcal{R}_{spec}$）：权重更新矩阵的频谱分解示意（低频全局平滑 + 高频局部修正）；
+% （4）参数级（$\mathcal{R}_{param}$）：多任务参数分配示意（冻结/共享/专用三种状态的参数组）。
+% \textbf{右栏}（对应适配方法）与左栏四个层级一一对齐，标注本文对应的方法名、调制形式与章节：
+% HyCAM（乘性，Ch3）、RoSA$\to$DyPAM（乘性，Ch4$\to$Ch5）、CASCADE（组合式，Ch6）、MESSA（结构分解，Ch6）。
+% 左右栏之间用虚线箭头连接，表示"结构异质性$\to$结构感知适配"的映射关系。}
+% \label{fig:ch2_heterogeneity_levels}
+% \end{figure}


 %======================================================================