Compare commits
3 Commits
| Author | SHA1 | Date | |
|---|---|---|---|
|
|
f4142b744c | ||
|
|
ac488f66df | ||
|
|
e7a2535d59 |
11
.claude/settings.local.json
Normal file
11
.claude/settings.local.json
Normal file
@@ -0,0 +1,11 @@
|
||||
{
|
||||
"permissions": {
|
||||
"allow": [
|
||||
"Bash(for f:*)",
|
||||
"Bash(do echo:*)",
|
||||
"Read(//Users/panda/Library/CloudStorage/OneDrive-个人/Publication/Graduate/Draft/**)",
|
||||
"Bash(done)",
|
||||
"Bash(cd:*)"
|
||||
]
|
||||
}
|
||||
}
|
||||
0
assets/3_ht.pdf
Executable file → Normal file
0
assets/3_ht.pdf
Executable file → Normal file
0
assets/3_loss.pdf
Executable file → Normal file
0
assets/3_loss.pdf
Executable file → Normal file
0
assets/3_model.pdf
Executable file → Normal file
0
assets/3_model.pdf
Executable file → Normal file
0
assets/3_sens.pdf
Executable file → Normal file
0
assets/3_sens.pdf
Executable file → Normal file
0
assets/3_tsne.pdf
Executable file → Normal file
0
assets/3_tsne.pdf
Executable file → Normal file
0
assets/4_AcrossLayer.pdf
Executable file → Normal file
0
assets/4_AcrossLayer.pdf
Executable file → Normal file
0
assets/4_SingleLayer10.pdf
Executable file → Normal file
0
assets/4_SingleLayer10.pdf
Executable file → Normal file
0
assets/4_dls_sensitivity.pdf
Executable file → Normal file
0
assets/4_dls_sensitivity.pdf
Executable file → Normal file
0
assets/4_layer_selection.pdf
Executable file → Normal file
0
assets/4_layer_selection.pdf
Executable file → Normal file
0
assets/4_rosa_arch.pdf
Executable file → Normal file
0
assets/4_rosa_arch.pdf
Executable file → Normal file
0
assets/unsorted/CASCADE/AcrossLayer.pdf
Executable file → Normal file
0
assets/unsorted/CASCADE/AcrossLayer.pdf
Executable file → Normal file
0
assets/unsorted/CASCADE/Layer10.pdf
Executable file → Normal file
0
assets/unsorted/CASCADE/Layer10.pdf
Executable file → Normal file
0
assets/unsorted/CASCADE/impact_larger.pdf
Executable file → Normal file
0
assets/unsorted/CASCADE/impact_larger.pdf
Executable file → Normal file
0
assets/unsorted/CASCADE/layer_sel.pdf
Executable file → Normal file
0
assets/unsorted/CASCADE/layer_sel.pdf
Executable file → Normal file
0
assets/unsorted/CASCADE/rosa_arch_deeper.pdf
Executable file → Normal file
0
assets/unsorted/CASCADE/rosa_arch_deeper.pdf
Executable file → Normal file
0
assets/unsorted/MESSA/AcrossLayer.pdf
Executable file → Normal file
0
assets/unsorted/MESSA/AcrossLayer.pdf
Executable file → Normal file
0
assets/unsorted/MESSA/Layer10.pdf
Executable file → Normal file
0
assets/unsorted/MESSA/Layer10.pdf
Executable file → Normal file
0
assets/unsorted/MESSA/impact.pdf
Executable file → Normal file
0
assets/unsorted/MESSA/impact.pdf
Executable file → Normal file
0
assets/unsorted/MESSA/impact_larger.pdf
Executable file → Normal file
0
assets/unsorted/MESSA/impact_larger.pdf
Executable file → Normal file
0
assets/unsorted/MESSA/layer_sel.pdf
Executable file → Normal file
0
assets/unsorted/MESSA/layer_sel.pdf
Executable file → Normal file
0
assets/unsorted/MESSA/rosa_arch.pdf
Executable file → Normal file
0
assets/unsorted/MESSA/rosa_arch.pdf
Executable file → Normal file
0
assets/unsorted/MESSA/rosa_arch_deeper.pdf
Executable file → Normal file
0
assets/unsorted/MESSA/rosa_arch_deeper.pdf
Executable file → Normal file
0
assets/unsorted/RoSA/AcrossLayer.pdf
Executable file → Normal file
0
assets/unsorted/RoSA/AcrossLayer.pdf
Executable file → Normal file
0
assets/unsorted/RoSA/Layer10.pdf
Executable file → Normal file
0
assets/unsorted/RoSA/Layer10.pdf
Executable file → Normal file
0
assets/unsorted/RoSA/impact.pdf
Executable file → Normal file
0
assets/unsorted/RoSA/impact.pdf
Executable file → Normal file
0
assets/unsorted/RoSA/impact_larger.pdf
Executable file → Normal file
0
assets/unsorted/RoSA/impact_larger.pdf
Executable file → Normal file
0
assets/unsorted/RoSA/layer_sel.pdf
Executable file → Normal file
0
assets/unsorted/RoSA/layer_sel.pdf
Executable file → Normal file
0
assets/unsorted/RoSA/rosa_arch.pdf
Executable file → Normal file
0
assets/unsorted/RoSA/rosa_arch.pdf
Executable file → Normal file
0
assets/unsorted/RoSA/rosa_arch_deeper.pdf
Executable file → Normal file
0
assets/unsorted/RoSA/rosa_arch_deeper.pdf
Executable file → Normal file
14
chap01.tex
14
chap01.tex
@@ -1,4 +1,4 @@
|
||||
% !TeX root = ../main.tex
|
||||
% !TeX root = main.tex
|
||||
% 第一章 绪论
|
||||
\chapter{绪论}
|
||||
\label{chap:introduction}
|
||||
@@ -17,7 +17,7 @@
|
||||
\begin{figure}[htbp]
|
||||
\centering
|
||||
% \includegraphics[width=0.85\textwidth]{fm_paradigm.pdf}
|
||||
\caption[基础模型范式下统一表示学习的示意图]{基础模型范式下统一表示学习的示意图。左侧表示传统任务特定建模方式,不同任务依赖独立模型与特征设计;右侧表示基础模型通过预训练形成统一表示空间,并通过适配机制支持多任务共享与迁移。}
|
||||
\caption[基础模型范式下统一表示学习的示意图]{基础模型范式下统一表示学习的示意图。\\左侧表示传统任务特定建模方式,不同任务依赖独立模型与特征设计;\\右侧表示基础模型通过预训练形成统一表示空间,并通过适配机制支持多任务共享与迁移。}
|
||||
\label{fig:ch1_fm_paradigm}
|
||||
\end{figure}
|
||||
|
||||
@@ -130,7 +130,7 @@
|
||||
\begin{figure}[htbp]
|
||||
\centering
|
||||
% \includegraphics[width=0.95\textwidth]{ch1_research_landscape.pdf}
|
||||
\caption{大语言模型表征适配研究现状与本文方法定位。左侧展示模型内部三个层面的结构异质性现象(模块级功能分化、维度级位置结构差异、参数空间多尺度与容量分配特征);中间为现有参数高效适配方法的均匀适配假设与三类局限;右侧为本文构建的统一分析框架与五种方法的对应关系。}
|
||||
\caption[大语言模型表征适配研究现状与本文方法定位]{大语言模型表征适配研究现状与本文方法定位。左侧展示模型内部三个层面的结构异质性现象(模块级功能分化、维度级位置结构差异、参数空间多尺度与容量分配特征);中间为现有参数高效适配方法的均匀适配假设与三类局限;右侧为本文构建的统一分析框架与五种方法的对应关系。}
|
||||
\label{fig:ch1_research_landscape}
|
||||
\end{figure}
|
||||
|
||||
@@ -217,7 +217,7 @@
|
||||
\centering
|
||||
% 占位:待替换为外部绘制的 modulation_forms.pdf
|
||||
% \includegraphics[width=0.9\textwidth]{modulation_forms.pdf}
|
||||
\caption{三种结构感知调制形式的示意图。该图采用三列并排布局,每列对应一种调制形式:
|
||||
\caption[三种结构感知调制形式的示意图]{三种结构感知调制形式的示意图。该图采用三列并排布局,每列对应一种调制形式:
|
||||
\textbf{左列}(乘性调制):输入表示$\mathbf{Z}^{(\ell)}$经过条件化信号生成模块$\mathbf{S}_\theta(\mathbf{X},\mathcal{R})$产生逐元素调制信号,通过Hadamard乘法$\odot$作用于原始表示,输出调制后表示$\tilde{\mathbf{Z}}^{(\ell)}$。下方标注"HyCAM / RoSA / DyPAM"及"表示空间"。
|
||||
\textbf{中列}(组合式调制):输入通过多个异构频域变换分解为$S$个频段分量$\mathbf{Z}_1, \mathbf{Z}_2, \ldots, \mathbf{Z}_S$,每个分量经路由权重$g_{\theta,s}$加权后通过$\bigoplus$重组。下方标注"CASCADE"及"参数空间"。
|
||||
\textbf{右列}(结构分解调制):参数更新被分解为共享增量$\Delta\Theta_{shared}$和经掩码$\mathbf{m}$选择的专用增量$\Delta\Theta_{specific}$,二者相加后与输入表示相乘。下方标注"MESSA"及"参数空间"。
|
||||
@@ -227,7 +227,7 @@
|
||||
|
||||
\begin{table}[h]
|
||||
\centering
|
||||
\caption{本文方法体系与结构异质性的对应关系。}
|
||||
\caption[本文方法体系与结构异质性的对应关系]{本文方法体系与结构异质性的对应关系。}
|
||||
\label{tab:ch1_method_overview}
|
||||
\resizebox{0.95\linewidth}{!}{
|
||||
\begin{tabular}{lllclc}
|
||||
@@ -267,7 +267,7 @@
|
||||
在统一形式化视角下,本文将模型适配理解为在结构角色描述符 $\mathcal{R}$ 约束下,对表示流与参数更新施加非均匀调制的过程。围绕这一建模思路,本文针对不同层级的结构异质性,设计相应形式的调制算子,并在表示空间与参数空间中形成相应的建模路径。本文的方法体系可概括为如下递进路径:
|
||||
|
||||
\begin{center}
|
||||
模块级功能结构 $\rightarrow$ 维度级位置结构(静态 $\rightarrow$ 动态) $\rightarrow$ 参数空间结构(频谱 $\rightarrow$ 容量分配)
|
||||
模块级功能结构 \\ $\downarrow$ \\维度级位置结构(静态 $\rightarrow$ 动态)\\ $\downarrow$ \\ 参数空间结构(频谱 $\rightarrow$ 容量分配)
|
||||
\end{center}
|
||||
|
||||
从适配作用对象的角度看,本文进一步将结构感知适配问题划分为表示空间与参数空间两个层面,并在不同结构层级上展开系统研究。其中:
|
||||
@@ -394,7 +394,7 @@
|
||||
\centering
|
||||
% 占位:待替换为外部绘制的 tech_route.pdf
|
||||
% \includegraphics[width=0.9\textwidth]{tech_route.pdf}
|
||||
\caption{本文整体技术路线示意图。该图采用自上而下的层级流程结构,共分为五层,见注释:}
|
||||
\caption[本文整体技术路线示意图]{本文整体技术路线示意图。该图采用自上而下的层级流程结构,共分为五层,见注释:}
|
||||
|
||||
% \textbf{第一层}(问题层)为全幅横条,标注"大语言模型内部多层级结构异质性",列出四类异质性——模块功能分化、维度位置结构差异、参数更新多尺度模式、容量分配需求不均匀。
|
||||
% \textbf{第二层}(框架层)为全幅横条(蓝色调),标注"结构感知表征适配统一分析框架",包含统一调制算子公式$\tilde{\mathbf{Z}}^{(\ell)}=\mathcal{M}_{\theta}(\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R})$,列出四类描述符$\mathcal{R}_{\mathrm{mod}}$/$\mathcal{R}_{\mathrm{dim}}$/$\mathcal{R}_{\mathrm{spec}}$/$\mathcal{R}_{\mathrm{param}}$与三种调制形式。
|
||||
|
||||
34
chap02.tex
34
chap02.tex
@@ -1,4 +1,4 @@
|
||||
% !TeX root = ../main.tex
|
||||
% !TeX root = main.tex
|
||||
% 第二章 大语言模型表征适配的相关理论与研究进展
|
||||
\chapter{大语言模型表征适配的相关理论与研究进展}
|
||||
\label{chap:related_work}
|
||||
@@ -48,7 +48,7 @@ Transformer 架构通过引入自注意力机制,实现了对序列内部全
|
||||
\centering
|
||||
% 占位:待替换为外部绘制的 2_transformer_block.pdf
|
||||
% \includegraphics[width=0.75\textwidth]{assets/2_transformer_block.pdf}
|
||||
\caption{基于Pre-LN结构的Transformer解码器块示意图。该图展示单个Transformer层的完整计算流程:
|
||||
\caption[基于Pre-LN结构的Transformer解码器块示意图]{基于Pre-LN结构的Transformer解码器块示意图。该图展示单个Transformer层的完整计算流程:
|
||||
输入隐藏状态$\mathbf{H}^{(\ell-1)}$首先经LayerNorm归一化,进入多头自注意力(MHSA)模块,其中Query/Key经RoPE旋转后计算带因果掩码的缩放点积注意力,Value不经旋转直接参与加权聚合;MHSA输出经残差连接后再经LayerNorm,进入采用SwiGLU结构的前馈网络(FFN)模块,最终经残差连接输出$\mathbf{H}^{(\ell)}$。
|
||||
图中应标注以下结构异质性关注点:(1)MHSA与FFN之间的功能分工(上下文路由 vs 知识存储)标注为$\mathcal{R}_{mod}$;(2)MHSA内部不同维度对的RoPE频率差异标注为$\mathcal{R}_{dim}$;(3)权重矩阵$\mathbf{W}$上的参数更新结构标注为$\mathcal{R}_{spec}$/$\mathcal{R}_{param}$。}
|
||||
\label{fig:ch2_transformer_block}
|
||||
@@ -83,7 +83,7 @@ RoPE 最显著的特性在于其呈现出一种频率分解结构(frequency de
|
||||
\centering
|
||||
% 占位:待替换为外部绘制的 2_rope_frequency.pdf
|
||||
% \includegraphics[width=0.85\textwidth]{assets/2_rope_frequency.pdf}
|
||||
\caption{RoPE旋转位置编码的频率分解结构示意图。该图分为三个子图:
|
||||
\caption[RoPE旋转位置编码的频率分解结构示意图]{RoPE旋转位置编码的频率分解结构示意图。该图分为三个子图:
|
||||
\textbf{(a)维度对旋转频率}:横轴为维度对索引$i$,纵轴为旋转频率$\theta_i = \omega^{-2i/d_h}$(对数刻度),展示频率随维度索引几何递减的趋势,标注低索引=高频(局部位置敏感)与高索引=低频(全局依赖)两个区域。
|
||||
\textbf{(b)位置响应衰减曲线}:横轴为相对位置距离$|t_1 - t_2|$,纵轴为注意力得分贡献,绘制3--4条代表性维度对的衰减曲线(高频对快速衰减、低频对缓慢衰减),直观展示不同维度对的多尺度位置感知特性。
|
||||
\textbf{(c)维度对旋转示意}:选取一个高频维度对和一个低频维度对,在复平面上展示位置$t$从$0$到$T$时向量旋转轨迹的差异——高频对旋转多圈、低频对仅旋转小角度。}
|
||||
@@ -94,7 +94,7 @@ RoPE 最显著的特性在于其呈现出一种频率分解结构(frequency de
|
||||
\subsection{预训练范式与大语言模型的表示能力}
|
||||
\label{subsec:rw_pretrain_paradigm}
|
||||
|
||||
现代大语言模型遵循"海量预训练—任务适配/对齐"的基本范式。通过在包含数万亿词元的大规模语料上进行自回归下一词预测训练,模型在统一的参数体系中构建具有较强表达能力的通用表示空间。BERT 通过掩码语言建模构建双向语境表示\cite{devlin2019bert};% 注:需补充到ref.bib: devlin2019bert (Devlin et al., BERT, NAACL 2019)
|
||||
现代大语言模型遵循"海量预训练—任务适配/对齐"的基本范式。通过在包含数万亿词元的大规模语料上进行自回归下一词预测训练,模型在统一的参数体系中构建具有较强表达能力的通用表示空间。BERT 通过掩码语言建模构建双向语境表示\cite{devlin2018bert};% 注:需补充到ref.bib: devlin2019bert (Devlin et al., BERT, NAACL 2019)
|
||||
GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-context learning 能力\cite{brown2020language}。随着模型规模的持续扩展,以 LLaMA\cite{touvron2023llama}、Qwen\cite{bai2023qwen} 和 Gemma\cite{gemma_2025} 为代表的开源大语言模型在语言理解、知识表达、多步推理与代码生成方面展现出显著能力。
|
||||
|
||||
大规模预训练使模型在表示空间中形成了高度抽象的通用知识结构,各层中间表示不仅捕获了浅层的词法与句法信息,还蕴含了深层的语义共现、常识推理乃至高阶逻辑关系\cite{bommasani2021opportunities}。然而,预训练能力强并不意味着可以直接替代任务适配:预训练目标与下游任务目标并不完全一致,面向特定领域、特定格式或特定推理模式的能力往往需要通过监督信号或偏好信号进行再组织;更重要的是,当模型规模达到百亿级别时,全参数微调不仅面临极高的计算与存储开销,还极易破坏预训练阶段积累的通用知识结构,导致灾难性遗忘(catastrophic forgetting)与表征退化。
|
||||
@@ -107,12 +107,12 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
|
||||
|
||||
越来越多的研究表明,Transformer 并非功能均匀的整体,其内部不同组件在信息处理中承担着差异化的角色。这些发现构成了理解模型结构异质性的重要基础。
|
||||
|
||||
\textbf{模块间的功能分化。}Geva 等人的开创性工作将前馈网络的两层线性映射解构为键值记忆结构:第一层权重(keys)负责识别输入残差流中的局部概念模式,第二层权重(values)则负责提取并注入与该模式相关的特征\cite{geva2021transformer}。Dong 等人从注意力与前馈网络的协同角度出发,揭示了二者在上下文信息路由与知识存储方面的互补关系\cite{dong2025attention}。Bogoychev 等人的参数冻结与消融实验进一步证实,冻结不同网络结构单元(嵌入层、注意力层或 FFN 层)会对模型性能造成完全不同程度的影响,从侧面说明"并非所有参数对任务贡献均等"\cite{}。% 注:需补充到ref.bib: bogoychev2021not (Bogoychev, Not All Parameters Are Born Equal: Attention Is Mostly What You Need, BlackboxNLP 2021)
|
||||
\textbf{模块间的功能分化。}Geva 等人的开创性工作将前馈网络的两层线性映射解构为键值记忆结构:第一层权重(keys)负责识别输入残差流中的局部概念模式,第二层权重(values)则负责提取并注入与该模式相关的特征\cite{geva2021transformer}。Dong 等人从注意力与前馈网络的协同角度出发,揭示了二者在上下文信息路由与知识存储方面的互补关系\cite{dong2025attention}。Bogoychev 等人的参数冻结与消融实验进一步证实,冻结不同网络结构单元(嵌入层、注意力层或 FFN 层)会对模型性能造成完全不同程度的影响,从侧面说明"并非所有参数对任务贡献均等"\cite{bogoychev2021not}。% 注:需补充到ref.bib: bogoychev2021not (Bogoychev, Not All Parameters Are Born Equal: Attention Is Mostly What You Need, BlackboxNLP 2021)
|
||||
这些发现表明,自注意力模块主要承担上下文关系的动态组织与信息路由功能,而前馈网络更多承担参数化知识表达与非线性映射功能。
|
||||
|
||||
\textbf{层间的角色梯度。}Belinkov 等人通过探针(probing)实验表明,浅层表示更多编码词汇与句法层面的局部信息,深层表示则更多反映语义与推理层面的全局关系,呈现出类似传统 NLP 流水线的层级进展\cite{belinkov2018evaluating}。这种层级功能梯度意味着不同深度的层对参数更新的需求强度与方式可能存在系统性差异——浅层可能更多需要局部模式的校准,深层可能更多需要语义关系的重组。
|
||||
|
||||
\textbf{头间的功能差异。}在多头注意力层面,Voita 等人发现不同注意力头在功能上存在明确分工,包括位置敏感头、语法关系头与稀有词汇头等不同类型\cite{voita2019bottom};Michel 等人的剪枝实验进一步表明,大量注意力头在推理阶段可被移除而不显著影响模型性能,暗示头之间存在功能冗余与角色差异\cite{michel2019sixteen}。在更深入的机制可解释性(mechanistic interpretability)研究中,Olsson 等人识别出与 in-context learning 能力增长密切相关的 induction heads,表明部分注意力头可被归纳为具有明确算法功能的"电路"(circuits)组件\cite{}。% 注:需补充到ref.bib: olsson2022context (Olsson et al., In-context Learning and Induction Heads, Anthropic 2022)
|
||||
\textbf{头间的功能差异。}在多头注意力层面,Voita 等人发现不同注意力头在功能上存在明确分工,包括位置敏感头、语法关系头与稀有词汇头等不同类型\cite{voita2019bottom};Michel 等人的剪枝实验进一步表明,大量注意力头在推理阶段可被移除而不显著影响模型性能,暗示头之间存在功能冗余与角色差异\cite{michel2019sixteen}。在更深入的机制可解释性(mechanistic interpretability)研究中,Olsson 等人识别出与 in-context learning 能力增长密切相关的 induction heads,表明部分注意力头可被归纳为具有明确算法功能的"电路"(circuits)组件\cite{olsson2022context}。% 注:需补充到ref.bib: olsson2022context (Olsson et al., In-context Learning and Induction Heads, Anthropic 2022)
|
||||
这些发现强化了"模型内部存在可分解子结构与角色分工"的认识。
|
||||
|
||||
\textbf{维度间的非均匀分布。}Jin 等人发现的"极端激活值"(Massive Activations)现象表明,少数特定维度在模型前向计算中产生远超其他维度的激活幅值,且这些维度承担着上下文信息编码的关键功能\cite{jin2025massive}。这些极端激活并非简单的数值异常,而是与注意力集中、量化稳定性乃至预测行为存在因果关联。结合第~\ref{subsec:rw_rope}~节所述 RoPE 位置编码引入的频率结构,模型表示在维度空间中呈现出系统性的结构分化。
|
||||
@@ -140,7 +140,7 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
|
||||
\end{equation}
|
||||
其中 $\mathbf{A}$ 采用随机高斯初始化,$\mathbf{B}$ 采用零初始化以保证训练起始时不改变预训练行为。在推理阶段,低秩增量可以直接被重新参数化合并回原始权重矩阵,不引入任何额外推理延迟。
|
||||
|
||||
在 LoRA 基础上,后续工作沿多个方向展开改进。在参数化与训练特性改进方面,DoRA 将权重更新进一步分解为方向(direction)与幅度(magnitude)两个分量,分别进行优化,以更好地模拟全参数微调的学习行为\cite{liu2024dora}。在预算分配方面,AdaLoRA 引入基于奇异值分解的重要性评估机制,在训练过程中动态分配各权重矩阵的秩,使模型自动为重要层级分配更高秩预算\cite{zhang2023adalora}。在参数规模进一步压缩方面,VeRA 通过在不同模块间共享冻结的随机矩阵,仅学习逐层的缩放向量,将微调参数量压缩至极致\cite{kopiczko2023vera};QLoRA 则通过4-bit量化底座权重并在其上训练 LoRA,使大模型在更低显存条件下可被高质量微调\cite{}。% 注:需补充到ref.bib: dettmers2023qlora (Dettmers et al., QLoRA, NeurIPS 2023)
|
||||
在 LoRA 基础上,后续工作沿多个方向展开改进。在参数化与训练特性改进方面,DoRA 将权重更新进一步分解为方向(direction)与幅度(magnitude)两个分量,分别进行优化,以更好地模拟全参数微调的学习行为\cite{liu2024dora}。在预算分配方面,AdaLoRA 引入基于奇异值分解的重要性评估机制,在训练过程中动态分配各权重矩阵的秩,使模型自动为重要层级分配更高秩预算\cite{zhang2023adalora}。在参数规模进一步压缩方面,VeRA 通过在不同模块间共享冻结的随机矩阵,仅学习逐层的缩放向量,将微调参数量压缩至极致\cite{kopiczko2023vera};QLoRA 则通过4-bit量化底座权重并在其上训练 LoRA,使大模型在更低显存条件下可被高质量微调\cite{dettmers2023qlora}。% 注:需补充到ref.bib: dettmers2023qlora (Dettmers et al., QLoRA, NeurIPS 2023)
|
||||
|
||||
低秩适配方法在参数效率方面表现优异,已成为当前最广泛使用的 PEFT 技术路径。然而,其标准实践通常在所有目标层的投影矩阵上施加相同秩约束,隐含假设模型不同层与不同模块在适配中的角色近似。即使 AdaLoRA 开始引入预算再分配,其建模对象也主要是矩阵重要性,而非更一般的结构角色异质性。因此,低秩适配在成本控制上极具优势,却仍保留了相对均匀的适配假设。
|
||||
|
||||
@@ -150,7 +150,7 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
|
||||
|
||||
附加式方法通过在模型内部插入轻量结构引入任务信息,而不修改原有权重。Adapter 在 Transformer 层间插入小型瓶颈网络,通过降维—非线性激活—升维结构实现表示调整\cite{houlsby2019parameter}。这种设计有效地阻断了误差梯度向预训练底座的传导,在多任务环境中按任务维护独立参数块。Compacter 进一步采用超复数乘法实现跨层参数共享,在降低参数量的同时保持表达能力\cite{karimi2021compacter}。
|
||||
|
||||
提示类方法则通过在输入或中间表示层引入额外可学习信号,引导模型调用已有知识结构。前缀微调(Prefix-tuning)在每层注意力计算的 Key 和 Value 前追加可学习的连续向量,使其充当"虚拟历史上下文",从而隐式地调制模型对后续序列的注意力分布\cite{li2021prefix};提示微调(Prompt-tuning)在嵌入层面引入可训练软提示向量\cite{lester2021power};P-Tuning v2 将可学习提示扩展到多层并系统改进优化策略,使提示类方法在更广泛的模型规模与任务类型上接近全参数微调效果\cite{}。% 注:需补充到ref.bib: liu2022ptuningv2 (Liu et al., P-Tuning v2, ACL 2022)
|
||||
提示类方法则通过在输入或中间表示层引入额外可学习信号,引导模型调用已有知识结构。前缀微调(Prefix-tuning)在每层注意力计算的 Key 和 Value 前追加可学习的连续向量,使其充当"虚拟历史上下文",从而隐式地调制模型对后续序列的注意力分布\cite{li2021prefix};提示微调(Prompt-tuning)在嵌入层面引入可训练软提示向量\cite{lester2021power};P-Tuning v2 将可学习提示扩展到多层并系统改进优化策略,使提示类方法在更广泛的模型规模与任务类型上接近全参数微调效果\cite{liu2022p}。% 注:需补充到ref.bib: liu2022ptuningv2 (Liu et al., P-Tuning v2, ACL 2022)
|
||||
|
||||
此外,激活调制类方法提供了另一种视角。(IA)$^3$ 通过训练少量缩放向量对注意力与 FFN 内部的关键激活进行抑制或放大,以极低参数量实现多任务适配\cite{liu2022few}。这类方法在形式上已更接近"对表示流进行乘性调制"的思想,为后续结构角色驱动的调制式框架提供了研究线索。
|
||||
|
||||
@@ -178,7 +178,7 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
|
||||
\centering
|
||||
% 占位:待替换为外部绘制的 2_peft_taxonomy.pdf
|
||||
% \includegraphics[width=0.88\textwidth]{assets/2_peft_taxonomy.pdf}
|
||||
\caption{参数高效适配方法的谱系结构与本文方法定位。该图采用树形或层级分类布局:
|
||||
\caption[参数高效适配方法的谱系结构与本文方法定位]{参数高效适配方法的谱系结构与本文方法定位。该图采用树形或层级分类布局:
|
||||
\textbf{第一层}按适配对象分为三大类——"参数更新结构"(低秩、稀疏)、"附加模块"(Adapter、前缀/提示)、"表示调制"(激活缩放、门控调制)。
|
||||
\textbf{第二层}在每个大类下列出代表性方法:低秩类(LoRA、DoRA、AdaLoRA)、稀疏类(BitFit、SHiRA、运动剪枝)、附加类(Adapter、Prefix-Tuning、Prompt Tuning)、调制类((IA)$^3$)。
|
||||
\textbf{第三层}用虚线框或高亮标注本文五个方法(HyCAM、RoSA、DyPAM、CASCADE、MESSA)的定位,并用箭头标注其相对于现有方法的创新方向——从"均匀适配"指向"结构感知适配"。
|
||||
@@ -188,7 +188,7 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
|
||||
|
||||
\begin{table}[htbp]
|
||||
\centering
|
||||
\caption{现有参数高效适配方法的谱系比较与后续章节衔接}
|
||||
\caption[现有参数高效适配方法的谱系比较与后续章节衔接]{现有参数高效适配方法的谱系比较与后续章节衔接}
|
||||
\label{tab:ch2_method_comparison}
|
||||
\renewcommand{\arraystretch}{1.15}
|
||||
\small
|
||||
@@ -223,9 +223,9 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
|
||||
\label{subsec:rw_multitask_gradient}
|
||||
|
||||
多任务学习通过在统一模型中同时优化多个相关目标,利用任务间的知识共享提升整体建模性能\cite{caruana1997multitask}。% 注:需补充到ref.bib: caruana1997multitask (Caruana, Multitask Learning, Machine Learning 1997)
|
||||
然而,多任务学习面临的核心困难在于梯度冲突与负迁移:不同任务的梯度在共享参数空间中可能指向相互对立的方向,导致优化过程中一个任务的改进以另一个任务的退化为代价,形成所谓的"跷跷板"(seesaw)现象。
|
||||
然而,多任务学习面临的核心困难在于梯度冲突与负迁移:不同任务的梯度在共享参数空间中可能指向相互对立的方向,导致优化过程中一个任务的改进以另一个任务的退化为代价,形成所谓的"跷跷板"现象。
|
||||
|
||||
针对梯度冲突问题,文献中涌现了一系列梯度干预方法。PCGrad 在检测到两个任务梯度向量夹角大于 $90^\circ$ 时,将冲突梯度投影到对方法平面上以消除破坏性分量\cite{yu2020gradient};CAGrad 将多任务冲突消解转化为带约束的极小极大优化问题,在邻域搜索空间内寻找使所有任务平均损失严格下降的更新方向\cite{liu2021conflict};GradNorm 通过动态调节各任务损失权重以平衡梯度幅度与训练速度\cite{}。% 注:需补充到ref.bib: chen2018gradnorm (Chen et al., GradNorm, ICML 2018)
|
||||
针对梯度冲突问题,文献中涌现了一系列梯度干预方法。PCGrad 在检测到两个任务梯度向量夹角大于 $90^\circ$ 时,将冲突梯度投影到对方法平面上以消除破坏性分量\cite{yu2020gradient};CAGrad 将多任务冲突消解转化为带约束的极小极大优化问题,在邻域搜索空间内寻找使所有任务平均损失严格下降的更新方向\cite{liu2021conflict};GradNorm 通过动态调节各任务损失权重以平衡梯度幅度与训练速度\cite{chen2018gradnorm}。% 注:需补充到ref.bib: chen2018gradnorm (Chen et al., GradNorm, ICML 2018)
|
||||
这些方法从优化层面缓解了任务间冲突,但并未从模型架构层面解决"哪些模块应当共享、哪些应当专用"的问题。
|
||||
|
||||
从模型内部结构来看,不同任务在模型中的激活模式往往存在系统性差异。注意力模块更多承担跨位置的上下文关联建模,而前馈网络更多负责知识表达与非线性映射\cite{standley2020tasks}。这种模块级的功能分工在均匀的参数共享策略下难以被有效利用,容易导致负迁移与知识干扰。因此,多任务场景的关键矛盾并非简单的"共享越多越好"或"隔离越多越好",而是在共享知识与任务特化之间需要结构层面的平衡机制。
|
||||
@@ -271,7 +271,7 @@ MoE 架构揭示了"动态路由"与"模块功能分化"在应对输入异质性
|
||||
|
||||
基于 Transformer 的大语言模型普遍存在表示各向异性(anisotropy)现象——隐藏层的激活值分布呈现显著的非均匀性,少数维度占据压倒性的方差比例\cite{jin2025massive}。进一步研究表明,这种各向异性并非训练偶发伪影,而是自注意力机制的内生特性\cite{godey2024anisotropy}。% 注:需补充到ref.bib: godey2024anisotropy (Godey et al., Anisotropy Is Inherent to Self-Attention, EACL 2024)
|
||||
|
||||
RoPE 的频率结构为表示空间引入了额外的维度级异质性。由于不同维度对被赋予不同频率的旋转角度,系统中的低频(高索引)维度承担着跨越较大序列跨度的长程语义获取功能——这些维度旋转周期长、角度变化缓慢,在深层网络中往往产生更密集且幅值更高的激活;而高频(低索引)维度由于剧烈旋转,更敏感于局部近距离的词元交互\cite{su2024roformer,barbero2024round}。有研究通过干预实验发现,在推理阶段屏蔽部分极高频维度特征对模型困惑度几乎无负面影响,甚至在长序列外推上有所提升;但一旦破坏关键低频维度,则直接引发性能崩溃\cite{}。% 注:需补充到ref.bib: gu2025unpacking (Gu et al., Unpacking Positional Encoding in Transformers: A Spectral Perspective, arXiv 2025)
|
||||
RoPE 的频率结构为表示空间引入了额外的维度级异质性。由于不同维度对被赋予不同频率的旋转角度,系统中的低频(高索引)维度承担着跨越较大序列跨度的长程语义获取功能——这些维度旋转周期长、角度变化缓慢,在深层网络中往往产生更密集且幅值更高的激活;而高频(低索引)维度由于剧烈旋转,更敏感于局部近距离的词元交互\cite{su2024roformer,barbero2024round}。有研究通过干预实验发现,在推理阶段屏蔽部分极高频维度特征对模型困惑度几乎无负面影响,甚至在长序列外推上有所提升;但一旦破坏关键低频维度,则直接引发性能崩溃\cite{gu2025unpacking}。% 注:需补充到ref.bib: gu2025unpacking (Gu et al., Unpacking Positional Encoding in Transformers: A Spectral Perspective, arXiv 2025)
|
||||
这一不对称性有力地说明不同维度对在功能上的重要性存在质的差异。
|
||||
|
||||
值得注意的是,这种维度级异质性在 Query/Key 表示中表现显著,而在 Value 表示中则弱得多——这与 RoPE 仅对 Query 和 Key 施加位置旋转的设计一致。同时,不同注意力头和不同层在激活分布上也呈现出差异化模式\cite{voita2019bottom},且激活模式还表现出对输入内容的依赖性:同一频率的特征维度在面对不同类型指令、不同领域分布或不同语义角色的输入时,其激活波峰与频率响应会产生显著波动。
|
||||
@@ -297,13 +297,13 @@ RoPE 的频率结构为表示空间引入了额外的维度级异质性。由于
|
||||
|
||||
当模型需要在多个异构任务间分配有限的可训练参数时,如何在容量约束下实现高效适配,本质上转化为一个结构学习问题。
|
||||
|
||||
在更广泛的神经网络结构学习文献中,神经架构搜索(NAS)提供了自动化的结构设计路径。DARTS 通过将离散的架构选择松弛为连续优化问题,实现了可微分的架构搜索\cite{liu2019darts},% 注:需补充到ref.bib: liu2019darts (Liu et al., DARTS, ICLR 2019)
|
||||
在更广泛的神经网络结构学习文献中,神经架构搜索(NAS)提供了自动化的结构设计路径。DARTS 通过将离散的架构选择松弛为连续优化问题,实现了可微分的架构搜索\cite{liu2018darts},% 注:需补充到ref.bib: liu2019darts (Liu et al., DARTS, ICLR 2019)
|
||||
其核心思想——将离散结构决策转化为连续松弛后通过梯度优化求解——对后续参数高效适配中的结构学习具有方法论启示。
|
||||
|
||||
在模型压缩方面,彩票假说(Lottery Ticket Hypothesis)指出,在密集网络中存在稀疏子网络能够达到甚至超越完整网络的性能\cite{frankle2019lottery}。% 注:需补充到ref.bib: frankle2019lottery (Frankle & Carlin, Lottery Ticket Hypothesis, ICLR 2019)
|
||||
在模型压缩方面,彩票假说(Lottery Ticket Hypothesis)指出,在密集网络中存在稀疏子网络能够达到甚至超越完整网络的性能\cite{frankle2019stabilizing}。% 注:需补充到ref.bib: frankle2019lottery (Frankle & Carlin, Lottery Ticket Hypothesis, ICLR 2019)
|
||||
这一发现表明模型参数空间中存在结构化的功能分布,有效容量可能集中在某些子结构上。在大语言模型场景下,运动剪枝通过训练过程中的参数重要性评估实现结构化稀疏\cite{sanh2020movement},SHiRA 则表明高秩稀疏更新在相同预算下可获得强于低秩稠密更新的表达能力\cite{shiracite}。
|
||||
|
||||
从更一般的视角看,参数高效适配本身也是一种"预算约束下的结构化容量分配"。AdaLoRA 通过在层/矩阵间非均匀分配低秩预算,已将"容量分配"显式化\cite{zhang2023adalora};LISA 通过层重要性采样与大量层冻结,在不增加额外模块的前提下实现"跨层容量重分布"\cite{pan2024lisa}。在多任务共享方面,任务向量(task vectors)与任务算术(task arithmetic)提出在权重空间用"微调差分向量"表征任务能力,并通过向量加减实现能力组合与编辑,为"共享—特有"的参数分解提供了另一类视角\cite{}。% 注:需补充到ref.bib: ilharco2023editing (Ilharco et al., Editing Models with Task Arithmetic, ICLR 2023)
|
||||
从更一般的视角看,参数高效适配本身也是一种"预算约束下的结构化容量分配"。AdaLoRA 通过在层/矩阵间非均匀分配低秩预算,已将"容量分配"显式化\cite{zhang2023adalora};LISA 通过层重要性采样与大量层冻结,在不增加额外模块的前提下实现"跨层容量重分布"\cite{pan2024lisa}。在多任务共享方面,任务向量(task vectors)与任务算术(task arithmetic)提出在权重空间用"微调差分向量"表征任务能力,并通过向量加减实现能力组合与编辑,为"共享—特有"的参数分解提供了另一类视角\cite{ilharco2022editing}。% 注:需补充到ref.bib: ilharco2023editing (Ilharco et al., Editing Models with Task Arithmetic, ICLR 2023)
|
||||
|
||||
然而,当问题推进到多任务条件下,复杂度进一步提升。此时不仅要回答"哪些参数值得更新",还要回答"哪些更新应由所有任务共享,哪些应保留为任务特有"。现有方法多依赖预先设定的共享规则或简单的任务标识路由,缺乏能够在统一预算约束下同时学习共享结构与特有结构的系统化机制。如何将结构发现从"给定结构下的参数学习"提升为"结构与参数的联合优化",仍是当前多任务适配研究中的开放问题。
|
||||
|
||||
@@ -311,7 +311,7 @@ RoPE 的频率结构为表示空间引入了额外的维度级异质性。由于
|
||||
\centering
|
||||
% 占位:待替换为外部绘制的 2_heterogeneity_levels.pdf
|
||||
% \includegraphics[width=0.9\textwidth]{assets/2_heterogeneity_levels.pdf}
|
||||
\caption{大语言模型内部多层级结构异质性的表现与适配对应关系。该图采用左右两栏布局:
|
||||
\caption[大语言模型内部多层级结构异质性的表现与适配对应关系]{大语言模型内部多层级结构异质性的表现与适配对应关系。该图采用左右两栏布局:
|
||||
\textbf{左栏}(结构异质性层级)自上而下展示四个层级的异质性现象,每层配一个小型示意:
|
||||
(1)模块级($\mathcal{R}_{mod}$):MHSA与FFN功能分工示意(上下文路由 vs 知识存储),用不同色块标注;
|
||||
(2)维度级($\mathcal{R}_{dim}$):RoPE不同维度对的激活强度热图(高频维度弱激活、低频维度强激活);
|
||||
|
||||
141
chap03.tex
141
chap03.tex
@@ -1,3 +1,4 @@
|
||||
% !TeX root = main.tex
|
||||
% 第三章 基于模块功能角色感知的多任务表征适配方法
|
||||
\chapter{基于模块功能角色感知的多任务表征适配方法}
|
||||
\label{chap:hycam}
|
||||
@@ -82,7 +83,7 @@
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.82\linewidth]{assets/3_model.pdf}
|
||||
\caption{基于模块功能角色感知的多任务表征适配总体框架示意图。}
|
||||
\caption[基于模块功能角色感知的多任务表征适配总体框架示意图]{基于模块功能角色感知的多任务表征适配总体框架示意图。}
|
||||
\label{fig:ch3_framework}
|
||||
\end{figure}
|
||||
|
||||
@@ -458,7 +459,7 @@ y_{i,t}
|
||||
|
||||
\RestyleAlgo{ruled}
|
||||
\begin{algorithm}[htp]
|
||||
\caption{HyCAM 多任务训练算法}
|
||||
\caption[HyCAM 多任务训练算法]{HyCAM 多任务训练算法}
|
||||
\label{alg:ch3_hycam}
|
||||
\KwIn{预训练大语言模型参数 $\Theta_0$,多任务训练集 $\mathcal{D}$,专用模块数 $N_s$,Gumbel-Softmax 温度 $\tau$,负载均衡系数 $\lambda_{balance}$,学习率 $\eta$}
|
||||
冻结骨干模型参数 $\Theta_0$\;
|
||||
@@ -511,9 +512,9 @@ y_{i,t}
|
||||
|
||||
\begin{table*}[ht]
|
||||
\centering
|
||||
\caption{多任务基准数据统计。}
|
||||
\caption[多任务基准数据统计]{多任务基准数据统计。}
|
||||
\label{tab:ch3_dataset_stat}
|
||||
\resizebox{0.88\linewidth}{!}{
|
||||
|
||||
\begin{tabular}{lccccc}
|
||||
\toprule
|
||||
数据集 & 样本数 & 总 Token 数 & 平均 Token 数 & 任务属性 & 数据来源 \\
|
||||
@@ -525,7 +526,7 @@ y_{i,t}
|
||||
WebGPT & 18,994 & 13,988,895 & 736.49 & 检索增强问答 & \cite{nakano2021webgpt} \\
|
||||
\bottomrule
|
||||
\end{tabular}
|
||||
}
|
||||
|
||||
\end{table*}
|
||||
|
||||
\subsubsection{基线方法}
|
||||
@@ -548,11 +549,11 @@ y_{i,t}
|
||||
|
||||
HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置为 0.5,负载均衡损失系数 $\lambda_{balance}$ 设置为 0.1。所有方法统一采用 AdamW 优化器,学习率设置为 $2 \times 10^{-5}$,并采用余弦退火(Cosine Annealing)学习率调度策略。为防止过拟合,训练过程中引入基于验证集损失的早停机制。具体实现细节汇总于表~\ref{tab:ch3_impl_details}。
|
||||
|
||||
\begin{table}[h]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{HyCAM 实验实现细节汇总。}
|
||||
\caption[HyCAM 实验实现细节汇总]{HyCAM 实验实现细节汇总。}
|
||||
\label{tab:ch3_impl_details}
|
||||
\resizebox{0.6\linewidth}{!}{
|
||||
|
||||
\begin{tabular}{ll}
|
||||
\toprule
|
||||
配置项 & 设置 \\
|
||||
@@ -572,7 +573,7 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置
|
||||
早停策略 & 基于验证集损失 \\
|
||||
\bottomrule
|
||||
\end{tabular}
|
||||
}
|
||||
|
||||
\end{table}
|
||||
|
||||
\subsection{实验结果与分析}
|
||||
@@ -580,13 +581,11 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置
|
||||
|
||||
\subsubsection{总体性能比较}
|
||||
|
||||
表~\ref{tab:ch3_overall_main} 给出了 HyCAM 与各基线方法在不同骨干模型上的总体结果。可以看出,HyCAM 在多数设置下均取得了最优结果,且相对最强基线呈现出稳定优势,平均相对提升约 3.65\%(双侧 $t$ 检验,$p < 0.05$)。这说明,在复杂多任务场景下,通过模块角色感知的方式对自注意力表示流进行定向调制,确实能够比传统低秩更新更有效地兼顾知识保持与任务特化。
|
||||
|
||||
\begin{table}[h]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{不同骨干模型上的总体实验结果。}
|
||||
\caption[不同骨干模型上的总体实验结果]{不同骨干模型上的总体实验结果。}
|
||||
\label{tab:ch3_overall_main}
|
||||
\resizebox{0.62\linewidth}{!}{
|
||||
|
||||
\begin{tabular}{llccc}
|
||||
\toprule
|
||||
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
|
||||
@@ -627,19 +626,27 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置
|
||||
& HyCAM & \textbf{2.757} & \textbf{0.172} & \textbf{0.248} \\
|
||||
\bottomrule
|
||||
\end{tabular}
|
||||
}
|
||||
|
||||
\end{table}
|
||||
|
||||
表~\ref{tab:ch3_overall_main} 给出了 HyCAM 与各基线方法在不同骨干模型上的总体结果。可以看出,HyCAM 在多数设置下均取得了最优结果,且相对最强基线呈现出稳定优势,平均相对提升约 3.65\%(双侧 $t$ 检验,$p < 0.05$)。这说明,在复杂多任务场景下,通过模块角色感知的方式对自注意力表示流进行定向调制,确实能够比传统低秩更新更有效地兼顾知识保持与任务特化。
|
||||
|
||||
这一结果可从三个层面理解。第一,相较于全参数微调,HyCAM 在仅引入少量适配参数的前提下取得了更优或相当的性能,表明其并不依赖对整个模型进行重写,而是通过更有效的上下文调制获得收益。第二,相较于 LoRA,HyCAM 的优势说明单纯依赖低秩参数增量并不足以充分应对复杂多任务场景中的结构差异,而围绕自注意力表示流构造输入条件化调制可以更直接地提升任务适配能力。第三,相较于 Multi-LoRA 与 RieMoE-LoRA,HyCAM 的优势说明“共享 + 专用 + 动态路由”的混合设计比单纯并行适配或一般专家融合更适合多任务协同建模。
|
||||
|
||||
对于本文的多任务适配主题而言,这一结论具有直接启发意义:面对多种异质任务同时建模时,模型的关键改进方向未必是持续扩大参数更新规模,而更可能是增强其对上下文进行任务感知组织的能力。本章实验虽然基于通用多任务集合,但其所验证的正是这种\emph{模块级结构调制}的普适有效性。
|
||||
|
||||
|
||||
\begin{table}[ht]
|
||||
|
||||
|
||||
\subsubsection{不同模型规模下的可扩展性分析}
|
||||
|
||||
为了进一步考察 HyCAM 在不同参数规模模型中的适用性,原始实验还在 Qwen2.5 与 Llama3.2 系列上进行了跨规模验证。结果如表~\ref{tab:ch3_qwen_scale} 与表~\ref{tab:ch3_llama_scale} 所示。总体来看,HyCAM 在从小模型到中大模型的多个规模区间内均表现出稳定优势,且在不少较大模型上其优势更为明显。
|
||||
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{Qwen2.5 系列不同规模下的可扩展性实验结果。最优结果加粗,次优结果加下划线。}
|
||||
\caption[Qwen2.5 系列不同规模下的可扩展性实验结果]{Qwen2.5 系列不同规模下的可扩展性实验结果。最优结果加粗,次优结果加下划线。}
|
||||
\label{tab:ch3_qwen_scale}
|
||||
\resizebox{0.42\linewidth}{!}{
|
||||
|
||||
\begin{tabular}{llccc}
|
||||
\toprule
|
||||
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
|
||||
@@ -680,18 +687,14 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置
|
||||
& HyCAM & \textbf{2.682} & \underline{0.160} & \textbf{0.242} \\
|
||||
\bottomrule
|
||||
\end{tabular}
|
||||
}
|
||||
|
||||
\end{table}
|
||||
|
||||
\subsubsection{不同模型规模下的可扩展性分析}
|
||||
|
||||
为了进一步考察 HyCAM 在不同参数规模模型中的适用性,原始实验还在 Qwen2.5 与 Llama3.2 系列上进行了跨规模验证。结果如表~\ref{tab:ch3_qwen_scale} 与表~\ref{tab:ch3_llama_scale} 所示。总体来看,HyCAM 在从小模型到中大模型的多个规模区间内均表现出稳定优势,且在不少较大模型上其优势更为明显。
|
||||
|
||||
\begin{table}[h]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{Llama3.2 系列不同规模下的可扩展性实验结果。最优结果加粗,次优结果加下划线。}
|
||||
\caption[Llama3.2 系列不同规模下的可扩展性实验结果]{Llama3.2 系列不同规模下的可扩展性实验结果。最优结果加粗,次优结果加下划线。}
|
||||
\label{tab:ch3_llama_scale}
|
||||
\resizebox{0.42\linewidth}{!}{
|
||||
|
||||
\begin{tabular}{llccc}
|
||||
\toprule
|
||||
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
|
||||
@@ -711,7 +714,7 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置
|
||||
& HyCAM & \underline{3.778} & \textbf{0.167} & \textbf{0.243} \\
|
||||
\bottomrule
|
||||
\end{tabular}
|
||||
}
|
||||
|
||||
\end{table}
|
||||
|
||||
这一现象说明,HyCAM 的收益并非依赖某个特定模型家族,而是与其核心建模机制有关。随着模型规模增大,预训练模型往往具备更丰富的知识储备与更复杂的表示空间,此时若仍采用简单统一的低秩更新,可能难以充分利用大模型内部潜在的功能结构;而 HyCAM 通过面向注意力表示流的调制,为大模型提供了更灵活的任务特化路径,因此更容易发挥其潜在能力。
|
||||
@@ -726,11 +729,11 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置
|
||||
|
||||
为了分析 HyCAM 是否仅在个别任务上获益,还是在整体上具有更均衡的多任务适配能力,表~\ref{tab:ch3_cross_task} 给出了基于 Llama2-7B 的跨任务细粒度结果。从结果可见,HyCAM 在多数任务上均取得了较优表现,尤其在 Auto CoT、CodeAlpaca 和 WebGPT 等任务上优势较明显。这表明,HyCAM 不是通过牺牲部分任务来换取整体平均性能提升,而是能够在较大程度上缓解多任务训练中的任务干扰问题。
|
||||
|
||||
\begin{table}[h]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{不同任务上的细粒度结果分析(骨干模型:Llama2-7B)。最优结果加粗,次优结果加下划线。}
|
||||
\caption[不同任务上的细粒度结果分析(骨干模型:Llama2-7B)]{不同任务上的细粒度结果分析(骨干模型:Llama2-7B)。\\ 最优结果加粗,次优结果加下划线。}
|
||||
\label{tab:ch3_cross_task}
|
||||
\resizebox{0.42\linewidth}{!}{
|
||||
|
||||
\begin{tabular}{llccc}
|
||||
\toprule
|
||||
任务 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
|
||||
@@ -746,15 +749,15 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置
|
||||
& Full Finetune & \textbf{7.497} & \textbf{0.053} & 0.123 \\
|
||||
& LoRA & 8.140 & 0.049 & \underline{0.124} \\
|
||||
& Multi LoRA & 8.846 & 0.037 & 0.122 \\
|
||||
& RieMoE-LoRA & 8.001 & 0.051 & 0.123 \\
|
||||
& RieMoE-LoRA & 8.001 & \underline{0.051} & 0.123 \\
|
||||
& HyCAM & \underline{7.546} & \textbf{0.053} & \textbf{0.125} \\
|
||||
\midrule
|
||||
\multirow{5}{*}{Dolly 2.0}
|
||||
& Full Finetune & 6.461 & 0.088 & \textbf{0.200} \\
|
||||
& LoRA & 6.029 & 0.070 & 0.181 \\
|
||||
& Multi LoRA & \textbf{5.743} & 0.101 & 0.177 \\
|
||||
& Multi LoRA & \textbf{5.743} & \underline{0.101} & 0.177 \\
|
||||
& RieMoE-LoRA & 5.954 & \textbf{0.106} & 0.183 \\
|
||||
& HyCAM & \underline{5.893} & \underline{0.093} & \underline{0.194} \\
|
||||
& HyCAM & \underline{5.893} & 0.093 & \underline{0.194} \\
|
||||
\midrule
|
||||
\multirow{5}{*}{CodeAlpaca}
|
||||
& Full Finetune & 2.532 & 0.138 & 0.195 \\
|
||||
@@ -771,7 +774,7 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置
|
||||
& HyCAM & \textbf{1.845} & \underline{0.180} & \underline{0.337} \\
|
||||
\bottomrule
|
||||
\end{tabular}
|
||||
}
|
||||
|
||||
\end{table}
|
||||
|
||||
需要指出的是,不同任务之间的性能水平本身存在显著差异。例如,医疗问答和部分开放式指令任务通常具有更高输出不确定性,因此其绝对指标可能整体较低。这一现象在多任务建模中普遍存在:例如,封闭式事实判断与开放式推理解释的难度本就不可简单等同。因此,更重要的不是要求所有任务在同一数值尺度上接近,而是观察方法能否在面对异质目标时保持相对稳定、均衡的适配能力。从这一意义上看,HyCAM 的结果具有较好的说服力。
|
||||
@@ -796,11 +799,11 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置
|
||||
|
||||
所有消融变体均在 Llama2-7B 上进行评估,实验结果如表~\ref{tab:ch3_ablation} 所示。
|
||||
|
||||
\begin{table}[htp]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{HyCAM 消融实验结果(以 PPL 为例)。}
|
||||
\caption[HyCAM 消融实验结果(以 PPL 为例)]{HyCAM 消融实验结果(以 PPL 为例)。}
|
||||
\label{tab:ch3_ablation}
|
||||
\resizebox{0.3\linewidth}{!}{
|
||||
|
||||
\begin{tabular}{lc}
|
||||
\toprule
|
||||
变体 & PPL$\downarrow$ \\
|
||||
@@ -812,7 +815,7 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置
|
||||
HyCAM & \textbf{3.081} \\
|
||||
\bottomrule
|
||||
\end{tabular}
|
||||
}
|
||||
|
||||
\end{table}
|
||||
|
||||
从表~\ref{tab:ch3_ablation} 可以看出,完整 HyCAM 取得了最优表现,这说明共享与专用分支之间确实具有互补性。仅使用共享 CAM 时,模型虽能学习跨任务共性调制,但缺乏足够的任务特化能力;仅使用专用 CAM 时,则由于缺乏统一共享底座,容易导致跨任务知识无法有效复用,反而降低整体性能。将所有专用模块都替换为全参数结构虽然也能取得较好结果,但会显著增加参数成本,与本章追求高效适配的目标不符。反向分配参数预算同样说明:让共享分支保持较强表达能力、让专用分支采用轻量结构,是当前框架下更合理的设计。
|
||||
@@ -828,7 +831,7 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.52\linewidth]{assets/3_sens.pdf}
|
||||
\caption{专用 CAM 模块数量 $N_s$ 对 HyCAM 性能的影响。}
|
||||
\caption[专用 CAM 模块数量 $N_s$ 对 HyCAM 性能的影响]{专用 CAM 模块数量 $N_s$ 对 HyCAM 性能的影响。}
|
||||
\label{fig:ch3_sens}
|
||||
\end{figure}
|
||||
|
||||
@@ -836,33 +839,33 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置
|
||||
|
||||
从训练过程来看,HyCAM 的损失收敛通常更快、更稳定。这与本章的建模思想是一致的:相比于直接在大规模参数空间内搜索任务适配方向,HyCAM 通过模块角色感知调制将适配空间限制在更具功能针对性的表示流层面,使优化过程更集中于”如何组织上下文”,而非”全面重写模型”。因此,其训练曲线往往具有更好的稳定性。
|
||||
|
||||
\subsubsection{参数效率分析}
|
||||
|
||||
为了全面评估 HyCAM 在参数效率方面的优势,本节对各方法的可训练参数量进行了系统比较。以 Llama2-7B 为例,各方法的参数量统计如表~\ref{tab:ch3_param_count} 所示。
|
||||
|
||||
% TODO: 此表中的参数量数值(如HyCAM 236.1M等)需要根据实际实现代码进行核实,原论文中未包含此表。
|
||||
\begin{table}[htp]
|
||||
\centering
|
||||
\caption{不同适配方法在 Llama2-7B 上的可训练参数量对比。}
|
||||
\label{tab:ch3_param_count}
|
||||
\resizebox{0.48\linewidth}{!}{
|
||||
\begin{tabular}{lccc}
|
||||
\toprule
|
||||
方法 & 可训练参数量 & 占比 & PPL$\downarrow$ \\
|
||||
\midrule
|
||||
Full Finetune & 6.74B & 100\% & 3.193 \\
|
||||
LoRA ($r$=64) & 159.9M & 2.37\% & 3.222 \\
|
||||
Multi LoRA & 319.8M & 4.75\% & 3.287 \\
|
||||
RieMoE-LoRA & 319.8M & 4.75\% & 3.171 \\
|
||||
HyCAM & 236.1M & 3.50\% & \textbf{3.081} \\
|
||||
\bottomrule
|
||||
\end{tabular}
|
||||
}
|
||||
\end{table}
|
||||
|
||||
从表~\ref{tab:ch3_param_count} 可以看出,HyCAM 在可训练参数量上介于 LoRA 与 Multi-LoRA/RieMoE-LoRA 之间,但在性能上显著优于所有基线方法。具体而言,HyCAM 的共享 CAM 模块贡献了主要参数量(每层一个 $d \times d$ 的投影矩阵),而各专用 CAM 模块通过 SLoRA 参数化仅引入少量额外参数(每个模块约为共享模块的 $r/d$ 倍)。路由器参数量更为微小(每层仅 $d \times N_s$ 个参数),几乎可以忽略不计。
|
||||
|
||||
这一参数分配策略与本章”强共享底座 + 轻量专用分支”的设计理念高度一致。共享分支承担主要的跨任务调制建模职责,因此赋予其充分的参数预算;专用分支仅需在共享基础上学习增量式的任务特化方向,因此采用参数高效形式即可满足需求。这种非对称的参数分配,使得 HyCAM 能够在保持较低参数成本的同时,实现比均匀分配策略更优的多任务适配效果。
|
||||
%\subsubsection{参数效率分析}
|
||||
%
|
||||
%为了全面评估 HyCAM 在参数效率方面的优势,本节对各方法的可训练参数量进行了系统比较。以 Llama2-7B 为例,各方法的参数量统计如表~\ref{tab:ch3_param_count} 所示。
|
||||
%
|
||||
%% TODO: 此表中的参数量数值(如HyCAM 236.1M等)需要根据实际实现代码进行核实,原论文中未包含此表。
|
||||
%\begin{table}[htp]
|
||||
% \centering
|
||||
% \caption[不同适配方法在 Llama2-7B 上的可训练参数量对比]{不同适配方法在 Llama2-7B 上的可训练参数量对比。}
|
||||
% \label{tab:ch3_param_count}
|
||||
% \resizebox{0.48\linewidth}{!}{
|
||||
% \begin{tabular}{lccc}
|
||||
% \toprule
|
||||
% 方法 & 可训练参数量 & 占比 & PPL$\downarrow$ \\
|
||||
% \midrule
|
||||
% Full Finetune & 6.74B & 100\% & 3.193 \\
|
||||
% LoRA ($r$=64) & 159.9M & 2.37\% & 3.222 \\
|
||||
% Multi LoRA & 319.8M & 4.75\% & 3.287 \\
|
||||
% RieMoE-LoRA & 319.8M & 4.75\% & 3.171 \\
|
||||
% HyCAM & 236.1M & 3.50\% & \textbf{3.081} \\
|
||||
% \bottomrule
|
||||
% \end{tabular}
|
||||
% }
|
||||
%\end{table}
|
||||
%
|
||||
%从表~\ref{tab:ch3_param_count} 可以看出,HyCAM 在可训练参数量上介于 LoRA 与 Multi-LoRA/RieMoE-LoRA 之间,但在性能上显著优于所有基线方法。具体而言,HyCAM 的共享 CAM 模块贡献了主要参数量(每层一个 $d \times d$ 的投影矩阵),而各专用 CAM 模块通过 SLoRA 参数化仅引入少量额外参数(每个模块约为共享模块的 $r/d$ 倍)。路由器参数量更为微小(每层仅 $d \times N_s$ 个参数),几乎可以忽略不计。
|
||||
%
|
||||
%这一参数分配策略与本章”强共享底座 + 轻量专用分支”的设计理念高度一致。共享分支承担主要的跨任务调制建模职责,因此赋予其充分的参数预算;专用分支仅需在共享基础上学习增量式的任务特化方向,因此采用参数高效形式即可满足需求。这种非对称的参数分配,使得 HyCAM 能够在保持较低参数成本的同时,实现比均匀分配策略更优的多任务适配效果。
|
||||
|
||||
\subsection{可解释性分析与方法讨论}
|
||||
\label{subsec:ch3_interpretability}
|
||||
@@ -876,7 +879,7 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.72\linewidth]{assets/3_tsne.pdf}
|
||||
\caption{注意力表示空间的可视化结果。上方为未施加 CAM 调制的基线表示,下方为经 HyCAM 调制后的表示。经调制后表示呈现更紧凑的簇结构与更高的区分度。}
|
||||
\caption[注意力表示空间的可视化结果]{注意力表示空间的可视化结果。\\ 上方为未施加 CAM 调制的基线表示,下方为经 HyCAM 调制后的表示。\\ 经调制后表示呈现更紧凑的簇结构与更高的区分度。}
|
||||
\label{fig:ch3_tsne}
|
||||
\end{figure}
|
||||
|
||||
@@ -889,7 +892,7 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.72\linewidth]{assets/3_ht.pdf}
|
||||
\caption{HyCAM 调制权重矩阵的可视化。不同 token 与维度上的调制强度呈现明显差异,说明 HyCAM 实现了细粒度的上下文感知调制。}
|
||||
\caption[HyCAM 调制权重矩阵的可视化]{HyCAM 调制权重矩阵的可视化。\\ 不同 token 与维度上的调制强度呈现明显差异,说明 HyCAM 实现了细粒度的上下文感知调制。}
|
||||
\label{fig:ch3_weights}
|
||||
\end{figure}
|
||||
|
||||
@@ -902,7 +905,7 @@ HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.72\linewidth]{assets/3_loss.pdf}
|
||||
\caption{不同方法的训练过程对比。HyCAM 相较基线方法表现出更快的收敛速度与更低的最终损失。}
|
||||
\caption[HyCAM 不同方法的训练过程对比]{不同方法的训练过程对比。\\ HyCAM 相较基线方法表现出更快的收敛速度与更低的最终损失。}
|
||||
\label{fig:ch3_loss}
|
||||
\end{figure}
|
||||
|
||||
|
||||
36
chap04.tex
36
chap04.tex
@@ -1,4 +1,4 @@
|
||||
% !TeX root = ../main.tex
|
||||
% !TeX root = main.tex
|
||||
% 第四章 基于位置结构感知的选择性表征适配方法
|
||||
\chapter{基于位置结构感知的选择性表征适配方法}
|
||||
\label{chap:rosa}
|
||||
@@ -69,7 +69,7 @@ RoPE的频率结构不仅是数学上的设计选择,更在实际模型中诱
|
||||
\hfill
|
||||
\subcaptionbox{跨层激活分布\label{fig:ch4_attn_layer}}{%
|
||||
\includegraphics[width=0.48\linewidth]{assets/4_AcrossLayer.pdf}}
|
||||
\caption{预训练模型(LLaMA-2-7B)中Query状态的激活强度可视化。通过计算每个注意力头各维度的平均L2范数来量化激活强度。低频维度(高索引)集中了更强的激活,且不同层之间呈现差异化的激活模式,体现了维度级和层级的双重异质性。}
|
||||
\caption[预训练模型(LLaMA-2-7B)中Query状态的激活强度可视化]{预训练模型(LLaMA-2-7B)中Query状态的激活强度可视化。\\ 通过计算每个注意力头各维度的平均L2范数来量化激活强度。\\ 低频维度(高索引)集中了更强的激活,且不同层之间呈现差异化的激活模式,体现了维度级和层级的双重异质性。}
|
||||
\label{fig:ch4_activation}
|
||||
\end{figure}
|
||||
|
||||
@@ -115,7 +115,7 @@ RoPE的频率结构不仅是数学上的设计选择,更在实际模型中诱
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.85\linewidth]{assets/4_rosa_arch.pdf}
|
||||
\caption{RoSA方法框架图。RoSA由两个核心模块组成:RoPE感知注意力增强(RoAE),选择性增强RoPE影响的Q/K状态中的低频成分;动态层选择(DLS),基于LayerNorm梯度信号动态选择重要层进行更新。}
|
||||
\caption[RoSA方法框架图]{RoSA方法框架图。\\ RoSA由两个核心模块组成:RoPE感知注意力增强(RoAE),选择性增强RoPE影响的Q/K状态中的低频成分;\\ 动态层选择(DLS),基于LayerNorm梯度信号动态选择重要层进行更新。}
|
||||
\label{fig:ch4_rosa_arch}
|
||||
\end{figure}
|
||||
|
||||
@@ -211,7 +211,7 @@ DLS通过动态识别和适配最关键的层来减少不必要的参数更新
|
||||
|
||||
\RestyleAlgo{ruled}
|
||||
\begin{algorithm}[htp]
|
||||
\caption{RoPE感知的选择性适配(RoSA)训练算法}
|
||||
\caption[RoPE感知的选择性适配(RoSA)训练算法]{RoPE感知的选择性适配(RoSA)训练算法}
|
||||
\label{alg:ch4_rosa}
|
||||
\KwIn{预训练大语言模型$\mathcal{M}$,数据集$\mathcal{D}$,RoAE超参数($\alpha$, $r_{\text{low}}$),DLS超参数($k_{\text{ratio}}$, $p_{\text{exploit}}$, $u$),学习率$\eta$,预热步数$T_{\text{warmup}}$}
|
||||
使用$\alpha$和$r_{\text{low}}$初始化RoAE模块并集成至$\mathcal{M}$\;
|
||||
@@ -275,12 +275,12 @@ RoSA的设计具有良好的模块化特性:RoAE和DLS各自独立运作,可
|
||||
|
||||
表~\ref{tab:ch4_rosa_common}展示了RoSA与基线方法在常识推理任务上的性能比较。
|
||||
|
||||
\begin{table}[htp]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{RoSA与基线方法在常识推理任务上的性能比较。在三种骨干模型上,RoSA在可比参数预算下均取得最优平均性能。*表示相比最优基线的统计显著提升(双侧t检验,$p<0.05$)。}
|
||||
\caption[RoSA与基线方法在常识推理任务上的性能比较]{RoSA与基线方法在常识推理任务上的性能比较。\\在三种骨干模型上,RoSA在可比参数预算下均取得最优平均性能。\\ *表示相比最优基线的统计显著提升(双侧t检验,$p<0.05$)。}
|
||||
\label{tab:ch4_rosa_common}
|
||||
\small
|
||||
\resizebox{\linewidth}{!}{
|
||||
|
||||
\renewcommand{\arraystretch}{0.96}
|
||||
\begin{tabular}{l|lcccccccccc}
|
||||
\toprule
|
||||
@@ -331,12 +331,12 @@ RoSA的设计具有良好的模块化特性:RoAE和DLS各自独立运作,可
|
||||
|
||||
表~\ref{tab:ch4_rosa_math}展示了RoSA在Qwen2.5-7B上数学推理任务的结果。
|
||||
|
||||
\begin{table}[htp]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{RoSA与基线方法在Qwen2.5-7B上数学推理任务的性能比较。}
|
||||
\caption[RoSA与基线方法在Qwen2.5-7B上数学推理任务的性能比较]{RoSA与基线方法在Qwen2.5-7B上数学推理任务的性能比较。}
|
||||
\label{tab:ch4_rosa_math}
|
||||
\small
|
||||
\resizebox{\linewidth}{!}{
|
||||
|
||||
\renewcommand{\arraystretch}{0.95}
|
||||
\begin{tabular}{lccccccccc}
|
||||
\toprule
|
||||
@@ -362,11 +362,11 @@ RoSA的设计具有良好的模块化特性:RoAE和DLS各自独立运作,可
|
||||
|
||||
表~\ref{tab:ch4_rosa_scale}展示了RoSA在不同规模Qwen2.5模型上的可扩展性。
|
||||
|
||||
\begin{table}[htp]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{RoSA在不同规模Qwen2.5模型上常识推理任务的可扩展性比较。}
|
||||
\caption[RoSA在不同规模Qwen2.5模型上常识推理任务的可扩展性比较]{RoSA在不同规模Qwen2.5模型上常识推理任务的可扩展性比较。}
|
||||
\label{tab:ch4_rosa_scale}
|
||||
\small
|
||||
|
||||
\begin{tabular}{lcccc}
|
||||
\toprule
|
||||
\textbf{方法} & \textbf{0.5B} & \textbf{1.5B} & \textbf{3B} & \textbf{7B} \\
|
||||
@@ -387,11 +387,11 @@ RoSA的设计具有良好的模块化特性:RoAE和DLS各自独立运作,可
|
||||
|
||||
表~\ref{tab:ch4_rosa_ablation}展示了RoSA各组件的消融分析,在Qwen2.5-7B常识推理任务上进行。
|
||||
|
||||
\begin{table}[htp]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{RoSA消融实验结果(Qwen2.5-7B常识推理Micro-Avg)。}
|
||||
\caption[RoSA消融实验结果(Qwen2.5-7B常识推理Micro-Avg)]{RoSA消融实验结果(Qwen2.5-7B常识推理Micro-Avg)。}
|
||||
\label{tab:ch4_rosa_ablation}
|
||||
\small
|
||||
|
||||
\begin{tabular}{lc}
|
||||
\toprule
|
||||
\textbf{变体} & \textbf{Micro-Avg$\uparrow$} \\
|
||||
@@ -412,7 +412,7 @@ RoSA的设计具有良好的模块化特性:RoAE和DLS各自独立运作,可
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.45\linewidth]{assets/4_dls_sensitivity.pdf}
|
||||
\caption{RoSA中层选择比例$k_{\text{ratio}}$的敏感性分析。}
|
||||
\caption[RoSA中层选择比例$k_{\text{ratio}}$的敏感性分析]{RoSA中层选择比例$k_{\text{ratio}}$的敏感性分析。}
|
||||
\label{fig:ch4_dls_sensitivity}
|
||||
\end{figure}
|
||||
|
||||
@@ -426,7 +426,7 @@ RoSA的设计具有良好的模块化特性:RoAE和DLS各自独立运作,可
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.6\linewidth]{assets/4_layer_selection.pdf}
|
||||
\caption{RoSA训练过程中各层被DLS选择的频率可视化(Qwen2.5-7B)。}
|
||||
\caption[RoSA训练过程中各层被DLS选择的频率可视化(Qwen2.5-7B)]{RoSA训练过程中各层被DLS选择的频率可视化(Qwen2.5-7B)。}
|
||||
\label{fig:ch4_layer_sel}
|
||||
\end{figure}
|
||||
|
||||
|
||||
67
chap05.tex
67
chap05.tex
@@ -1,4 +1,4 @@
|
||||
% !TeX root = ../main.tex
|
||||
% !TeX root = main.tex
|
||||
% 第五章 基于动态位置调制的维度级表征适配方法
|
||||
\chapter{基于动态位置调制的维度级表征适配方法}
|
||||
\label{chap:dypam}
|
||||
@@ -26,7 +26,7 @@ RoPE的频率结构不仅导致不同维度的激活强度差异(如第四章
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.9\linewidth]{assets/5_rope_response.pdf}
|
||||
\caption{不同维度对的位置响应函数。(a)低索引维度对(高频)的注意力得分随相对距离快速衰减,而高索引维度对(低频)在长距离上仍保持较高的注意力得分。(b)所有维度对的位置响应热图,展示非均匀的位置敏感性分布。这种差异化的位置响应特性为DyPAM的维度对级调制设计提供了直接动机。}
|
||||
\caption[不同维度对的位置响应函数]{不同维度对的位置响应函数。\\ (a)低索引维度对(高频)的注意力得分随相对距离快速衰减,而高索引维度对(低频)在长距离上仍保持较高的注意力得分。\\ (b)所有维度对的位置响应热图,展示非均匀的位置敏感性分布。这种差异化的位置响应特性为DyPAM的维度对级调制设计提供了直接动机。}
|
||||
\label{fig:ch5_rope_response}
|
||||
\end{figure}
|
||||
|
||||
@@ -38,7 +38,7 @@ RoPE的频率结构不仅导致不同维度的激活强度差异(如第四章
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.9\linewidth]{assets/5_token_heterogeneity.pdf}
|
||||
\caption{不同语义角色的输入token诱导的激活模式差异。具有不同语义角色的token在维度激活分布上呈现系统性差异。}
|
||||
\caption[不同语义角色的输入token诱导的激活模式差异]{不同语义角色的输入token诱导的激活模式差异。具有不同语义角色的token在维度激活分布上呈现系统性差异。}
|
||||
\label{fig:ch5_token_hetero}
|
||||
\end{figure}
|
||||
|
||||
@@ -72,7 +72,7 @@ RoSA通过低频维度选择性增强与动态层选择,初步实现了对维
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.85\linewidth]{assets/5_dypam_arch.pdf}
|
||||
\caption{DyPAM方法框架图。DyPAM在RoPE之前,将输入条件化的维度级调制与头级和层级结构偏置共同施加于Query和Key表示,实现对位置注意力的细粒度动态适配。}
|
||||
\caption[DyPAM方法框架图]{DyPAM方法框架图。DyPAM在RoPE之前,将输入条件化的维度级调制与头级和层级结构偏置共同施加于Query和Key表示,实现对位置注意力的细粒度动态适配。}
|
||||
\label{fig:ch5_dypam_arch}
|
||||
\end{figure}
|
||||
|
||||
@@ -195,7 +195,7 @@ DyPAM使用标准的语言建模交叉熵损失进行端到端训练。给定输
|
||||
|
||||
\RestyleAlgo{ruled}
|
||||
\begin{algorithm}[htp]
|
||||
\caption{动态位置注意力调制(DyPAM)训练算法}
|
||||
\caption[动态位置注意力调制(DyPAM)训练算法]{动态位置注意力调制(DyPAM)训练算法}
|
||||
\label{alg:ch5_dypam}
|
||||
\KwIn{输入序列$\mathbf{x}$,预训练RoPE大语言模型,DyPAM参数}
|
||||
\KwOut{模型输出分布与训练损失$\mathcal{L}$}
|
||||
@@ -235,11 +235,11 @@ RoSA和DyPAM均针对维度级位置结构异质性($\mathcal{R}_{dim}$),
|
||||
|
||||
表~\ref{tab:ch5_compare}从多个设计维度对两种方法进行了系统比较。
|
||||
|
||||
\begin{table}[htp]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{RoSA与DyPAM的设计维度对比}
|
||||
\caption[RoSA与DyPAM的设计维度对比]{RoSA与DyPAM的设计维度对比}
|
||||
\label{tab:ch5_compare}
|
||||
\small
|
||||
|
||||
\begin{tabular}{lcc}
|
||||
\toprule
|
||||
\textbf{设计维度} & \textbf{RoSA} & \textbf{DyPAM} \\
|
||||
@@ -261,7 +261,7 @@ RoSA和DyPAM均针对维度级位置结构异质性($\mathcal{R}_{dim}$),
|
||||
\centering
|
||||
% 占位:待替换为外部绘制的 5_rosa_dypam_compare.pdf
|
||||
% \includegraphics[width=0.9\textwidth]{assets/5_rosa_dypam_compare.pdf}
|
||||
\caption{RoSA与DyPAM在维度级位置结构适配上的设计演进对比。该图采用左右并排的双架构对比布局:
|
||||
\caption[RoSA与DyPAM在维度级位置结构适配上的设计演进对比]{RoSA与DyPAM在维度级位置结构适配上的设计演进对比。该图采用左右并排的双架构对比布局:
|
||||
\textbf{左半}(RoSA——静态选择性增强):展示RoSA的处理流程——Query/Key向量中,以虚线分割低频与高频维度区域,低频区域(由超参数$r_{\text{low}}$固定选定)高亮标注为"增强区域",高频区域灰显为"未增强区域";调制信号$\mathbf{S}$在所有头间共享;底部标注DLS的层选择机制(部分层激活、部分层掩码)。用标签强调:静态维度划分、跨头共享、层级二值选择。
|
||||
\textbf{右半}(DyPAM——动态条件化调制):展示DyPAM的处理流程——Query/Key向量的所有维度对均被调制因子$s_{t,h,i}$覆盖,调制强度用连续色阶(从浅到深)表示差异化程度;调制信号从输入隐藏状态经低秩投影动态生成,并叠加头级偏置$\boldsymbol{\beta}_h$和层级偏置$\boldsymbol{\beta}^{(\ell)}$;作用点标注在RoPE之前。用标签强调:全维度覆盖、输入条件化、头级独立、连续调制。
|
||||
\textbf{中间}用大箭头连接左右两半,标注递进关系:"静态$\to$动态"、"粗粒度$\to$细粒度"、"维度选择$\to$维度对调制"。}
|
||||
@@ -318,30 +318,29 @@ DyPAM实验在NVIDIA RTX 4090上使用DeepSpeed和BF16精度进行。DyPAM超参
|
||||
|
||||
表~\ref{tab:ch5_dypam_math}展示了DyPAM在数学推理任务上的性能。
|
||||
|
||||
\begin{table}[htp]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{DyPAM与基线方法在数学推理任务上的性能比较。*表示统计显著提升。}
|
||||
\caption[DyPAM与基线方法在数学推理任务上的性能比较]{DyPAM与基线方法在数学推理任务上的性能比较。*表示统计显著提升。}
|
||||
\label{tab:ch5_dypam_math}
|
||||
\small
|
||||
\resizebox{\linewidth}{!}{
|
||||
\renewcommand{\arraystretch}{0.9}
|
||||
\begin{tabular}{l|lcccccccccc}
|
||||
\toprule
|
||||
\textbf{骨干} & \textbf{方法} & \textbf{参数(\%)} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} & \textbf{Macro-Avg$\uparrow$} \\
|
||||
\midrule
|
||||
\multirow{10}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}}
|
||||
\multirow{10}{*}{\textbf{LLaMA3.2-3B}}
|
||||
& LoRA & 1.12 & 71.50 & 33.21 & 78.48 & 22.44 & 81.50 & 54.10 & 76.47 & 54.96 & 59.67 \\
|
||||
& AdaLoRA & 2.22 & 75.67 & 36.32 & 80.51 & 22.83 & 87.80 & 55.60 & 78.57 & 57.90 & 62.47 \\
|
||||
& OFT & 0.73 & 87.17 & \textbf{40.18} & \underline{85.82} & \underline{24.02} & 86.42 & 61.50 & \textbf{84.03} & \underline{62.75} & \underline{67.02} \\
|
||||
& Bone & 1.14 & \underline{87.50} & 39.73 & 85.57 & 23.62 & 86.61 & \textbf{63.70} & 81.93 & 63.03 & 66.95 \\
|
||||
& OFT & 0.73 & 87.17 & \textbf{40.18} & \underline{85.82} & \underline{24.02} & 86.42 & 61.50 & \textbf{84.03} & 62.75 & \underline{67.02} \\
|
||||
& Bone & 1.14 & \underline{87.50} & 39.73 & 85.57 & 23.62 & 86.61 & \textbf{63.70} & \underline{81.93} & \underline{63.03} & 66.95 \\
|
||||
& IA$^3$ & 0.02 & 58.33 & 27.37 & 68.61 & 20.47 & 72.83 & 47.90 & 58.82 & 46.89 & 50.62 \\
|
||||
& LN Tuning & 0.01 & 58.00 & 26.38 & 66.58 & 21.26 & 74.80 & 44.90 & 60.08 & 46.01 & 50.29 \\
|
||||
& FourierFT & 0.73 & 78.67 & 33.21 & 82.03 & 20.47 & 85.43 & 54.30 & 77.31 & 56.72 & 61.63 \\
|
||||
& SHiRA & 1.12 & 82.50 & 38.82 & 84.81 & \underline{24.02} & \underline{87.99} & 56.90 & 81.93 & 60.59 & 65.28 \\
|
||||
& SHiRA & 1.12 & 82.50 & 38.82 & 84.81 & \underline{24.02} & \underline{87.99} & 56.90 & \underline{81.93} & 60.59 & 65.28 \\
|
||||
& RoSA & 0.54 & 84.33 & 37.91 & 82.78 & 22.83 & 87.01 & 52.50 & 78.99 & 59.02 & 63.77 \\
|
||||
& \textbf{DyPAM} & 0.92 & \textbf{88.50} & \underline{39.88} & \textbf{86.33} & \textbf{25.20} & \textbf{88.78} & \underline{63.00} & \textbf{84.03} & \textbf{63.58*} & \textbf{67.96*} \\
|
||||
\midrule
|
||||
\multirow{10}{*}{\rotatebox{90}{\textbf{Qwen3-8B}}}
|
||||
\multirow{10}{*}{\textbf{Qwen3-8B}}
|
||||
& LoRA & 0.79 & 97.67 & 74.91 & 89.87 & 35.83 & 90.55 & 84.70 & 89.08 & 82.04 & 80.37 \\
|
||||
& AdaLoRA & 1.57 & 95.17 & 73.01 & 90.63 & 37.01 & 92.32 & 84.80 & 91.60 & 81.62 & 80.65 \\
|
||||
& OFT & 0.51 & 95.67 & 73.46 & 90.38 & 33.07 & 94.09 & 84.90 & 91.60 & 81.80 & 80.45 \\
|
||||
@@ -349,11 +348,11 @@ DyPAM实验在NVIDIA RTX 4090上使用DeepSpeed和BF16精度进行。DyPAM超参
|
||||
& IA$^3$ & 0.02 & 92.50 & 72.18 & 84.81 & 35.04 & 86.61 & 80.90 & 86.55 & 78.49 & 76.94 \\
|
||||
& LN Tuning & 0.00 & 91.67 & 68.69 & 85.32 & \underline{39.76} & 87.40 & 78.00 & 85.71 & 77.01 & 76.65 \\
|
||||
& FourierFT & 0.37 & 94.50 & 70.05 & 87.34 & 31.50 & 86.81 & 82.70 & 81.09 & 78.28 & 76.28 \\
|
||||
& SHiRA & 0.79 & 94.83 & \underline{75.36} & 90.13 & 37.01 & 93.90 & \textbf{85.70} & 90.34 & \underline{82.57} & \underline{81.04} \\
|
||||
& RoSA & 0.36 & 97.83 & 74.07 & 90.38 & 35.43 & \underline{94.49} & 84.80 & \underline{92.02} & 82.48 & 81.29 \\
|
||||
& SHiRA & 0.79 & 94.83 & \underline{75.36} & 90.13 & 37.01 & 93.90 & \textbf{85.70} & 90.34 & \underline{82.57} & 81.04 \\
|
||||
& RoSA & 0.36 & 97.83 & 74.07 & 90.38 & 35.43 & \underline{94.49} & 84.80 & \underline{92.02} & 82.48 & \underline{81.29} \\
|
||||
& \textbf{DyPAM} & 0.61 & \textbf{99.17} & \textbf{76.72} & \textbf{91.90} & \textbf{40.94} & \textbf{95.28} & \underline{85.50} & \textbf{92.86} & \textbf{84.24*} & \textbf{83.20*} \\
|
||||
\midrule
|
||||
\multirow{10}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}}
|
||||
\multirow{10}{*}{\textbf{Gemma3-4B}}
|
||||
& LoRA & 1.33 & 86.00 & 51.25 & 72.41 & 25.98 & 75.59 & 62.20 & 75.21 & 63.26 & 64.09 \\
|
||||
& AdaLoRA & 2.62 & 82.67 & 51.86 & 66.33 & 31.50 & 73.82 & 62.30 & 73.95 & 62.49 & 63.20 \\
|
||||
& OFT & 0.75 & 85.83 & \underline{54.28} & 72.91 & \underline{32.28} & 75.59 & \textbf{63.80} & \underline{76.47} & \underline{65.02} & \underline{65.88} \\
|
||||
@@ -377,18 +376,17 @@ DyPAM在所有三种骨干模型上均取得了最优的Macro-Avg和Micro-Avg性
|
||||
|
||||
表~\ref{tab:ch5_dypam_common}展示了DyPAM在常识推理任务上的性能。
|
||||
|
||||
\begin{table}[htp]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{DyPAM与基线方法在常识推理任务上的性能比较。*表示统计显著提升。}
|
||||
\caption[DyPAM与基线方法在常识推理任务上的性能比较]{DyPAM与基线方法在常识推理任务上的性能比较。*表示统计显著提升。}
|
||||
\label{tab:ch5_dypam_common}
|
||||
\small
|
||||
\resizebox{\linewidth}{!}{
|
||||
\renewcommand{\arraystretch}{0.9}
|
||||
\begin{tabular}{l|lccccccccccc}
|
||||
\toprule
|
||||
\textbf{骨干} & \textbf{方法} & \textbf{参数(\%)} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} & \textbf{Macro-Avg$\uparrow$} \\
|
||||
\midrule
|
||||
\multirow{10}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}}
|
||||
\multirow{10}{*}{\textbf{LLaMA3.2-3B}}
|
||||
& LoRA & 1.12 & 63.61 & \underline{79.71} & 66.94 & 69.45 & 84.05 & 67.00 & 73.94 & 55.56 & 71.94 & 70.03 \\
|
||||
& AdaLoRA & 2.22 & 63.52 & 78.94 & 67.09 & 68.94 & \underline{85.14} & 70.20 & 78.11 & 56.35 & 73.95 & 71.04 \\
|
||||
& OFT & 0.73 & \underline{65.63} & 79.54 & \underline{70.37} & \underline{70.39} & 85.06 & \textbf{71.80} & 83.15 & \textbf{66.38} & \underline{77.52} & \underline{74.04} \\
|
||||
@@ -396,12 +394,12 @@ DyPAM在所有三种骨干模型上均取得了最优的Macro-Avg和Micro-Avg性
|
||||
& IA$^3$ & 0.02 & 62.32 & 77.09 & 59.67 & 57.94 & 77.10 & 57.40 & 50.48 & 52.25 & 58.66 & 61.78 \\
|
||||
& LN Tuning & 0.01 & 62.51 & 76.99 & 59.52 & 59.81 & 76.52 & 59.00 & 52.02 & 52.17 & 59.42 & 62.32 \\
|
||||
& FourierFT & 0.73 & 62.14 & 79.49 & 61.98 & 61.86 & 80.93 & 62.40 & 73.21 & 49.09 & 69.75 & 66.39 \\
|
||||
& SHiRA & 1.12 & 65.23 & 79.65 & 69.14 & \textbf{71.16} & 84.97 & 71.20 & \underline{83.18} & 65.67 & 77.35 & 73.78 \\
|
||||
& SHiRA & 1.12 & 65.23 & 79.65 & 69.14 & \textbf{71.16} & 84.97 & \underline{71.20} & \underline{83.18} & 65.67 & 77.35 & 73.78 \\
|
||||
& RoSA & 0.54 & 64.53 & 79.65 & 69.86 & 69.28 & 84.43 & 70.80 & 83.12 & 63.54 & 77.00 & 73.15 \\
|
||||
& \textbf{DyPAM} & 0.92 & \textbf{65.93} & \textbf{79.76} & \textbf{70.88} & \underline{70.39} & \textbf{85.19} & \textbf{71.80} & \textbf{83.71} & 65.35 & \textbf{77.83*} & \textbf{74.13*} \\
|
||||
\midrule
|
||||
\multirow{10}{*}{\rotatebox{90}{\textbf{Qwen3-8B}}}
|
||||
& LoRA & 0.79 & 70.49 & 86.34 & 77.18 & 90.19 & 96.51 & 87.60 & 89.50 & 72.85 & 85.19 & 83.83 \\
|
||||
\multirow{10}{*}{\textbf{Qwen3-8B}}
|
||||
& LoRA & 0.79 & 70.49 & 86.34 & \underline{77.18} & 90.19 & 96.51 & 87.60 & 89.50 & 72.85 & 85.19 & 83.83 \\
|
||||
& AdaLoRA & 1.57 & 70.73 & 86.51 & 76.71 & \underline{90.36} & 96.55 & 87.20 & 88.92 & 72.38 & 84.91 & 83.67 \\
|
||||
& OFT & 0.51 & 69.97 & 86.83 & 76.56 & 89.93 & \underline{96.97} & 88.00 & 89.17 & 76.48 & 85.20 & 84.24 \\
|
||||
& Bone & 0.81 & 69.02 & 85.31 & 75.64 & 88.91 & 95.58 & 87.60 & 89.30 & \underline{76.56} & 84.71 & 83.49 \\
|
||||
@@ -412,7 +410,7 @@ DyPAM在所有三种骨干模型上均取得了最优的Macro-Avg和Micro-Avg性
|
||||
& RoSA & 0.36 & 68.96 & 86.94 & 75.33 & 89.85 & 96.38 & \underline{88.20} & 89.43 & 76.16 & 84.99 & 83.91 \\
|
||||
& \textbf{DyPAM} & 0.61 & \textbf{70.89} & \textbf{87.11} & \textbf{77.33} & \textbf{90.53} & \textbf{97.05} & \textbf{88.80} & \underline{89.53} & \textbf{76.80} & \textbf{85.66*} & \textbf{84.75*} \\
|
||||
\midrule
|
||||
\multirow{10}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}}
|
||||
\multirow{10}{*}{\textbf{Gemma3-4B}}
|
||||
& LoRA & 1.33 & 65.72 & 79.71 & 69.40 & 74.49 & 87.08 & 71.00 & 74.53 & 55.01 & 73.37 & 72.12 \\
|
||||
& AdaLoRA & 2.62 & \underline{66.09} & 79.49 & 68.73 & 76.54 & 89.02 & 74.00 & 73.20 & 58.09 & 73.30 & 73.14 \\
|
||||
& OFT & 0.75 & 65.69 & 81.99 & 74.51 & \underline{76.71} & 88.47 & 78.00 & \underline{83.86} & \underline{65.27} & \underline{79.17} & \underline{76.81} \\
|
||||
@@ -434,11 +432,10 @@ DyPAM在所有三种骨干模型的常识推理任务上均取得统计显著的
|
||||
|
||||
表~\ref{tab:ch5_dypam_scale}展示了DyPAM在Qwen3系列不同模型规模上的可扩展性分析。
|
||||
|
||||
\begin{table}[htp]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{DyPAM与主要基线方法在不同模型规模上的数学推理性能比较(Macro-Avg准确率\%)。}
|
||||
\caption[DyPAM与主要基线方法在不同模型规模上的数学推理性能比较(Macro-Avg准确率\%)]{DyPAM与主要基线方法在不同模型规模上的数学推理性能比较(Macro-Avg准确率\%)。}
|
||||
\label{tab:ch5_dypam_scale}
|
||||
\small
|
||||
\begin{tabular}{lcccc}
|
||||
\toprule
|
||||
\textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} & \textbf{Qwen3-8B} \\
|
||||
@@ -462,7 +459,7 @@ DyPAM在Qwen3系列四个规模(0.6B至8B)上均超越所有基线方法。
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.9\linewidth]{assets/5_dypam_ablation.pdf}
|
||||
\caption{DyPAM消融与超参数敏感性分析。(a)移除各组件后的性能变化;(b)调制强度$\alpha$的影响。}
|
||||
\caption[DyPAM消融与超参数敏感性分析]{DyPAM消融与超参数敏感性分析。(a)移除各组件后的性能变化;(b)调制强度$\alpha$的影响。}
|
||||
\label{fig:ch5_dypam_ablation}
|
||||
\end{figure}
|
||||
|
||||
@@ -480,7 +477,7 @@ DyPAM的消融实验(如图~\ref{fig:ch5_dypam_ablation}(a)所示)考察了
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.9\linewidth]{assets/5_bias_modulation.pdf}
|
||||
\caption{DyPAM学习到的位置调制模式。(a)层级偏置在Query维度上的分布,展示异构且结构化的偏置变化;(b)层级调制范围,显示稳定受控的缩放行为。}
|
||||
\caption[DyPAM学习到的位置调制模式]{DyPAM学习到的位置调制模式。(a)层级偏置在Query维度上的分布,展示异构且结构化的偏置变化;(b)层级调制范围,显示稳定受控的缩放行为。}
|
||||
\label{fig:ch5_modulation_pattern}
|
||||
\end{figure}
|
||||
|
||||
@@ -497,14 +494,14 @@ DyPAM的消融实验(如图~\ref{fig:ch5_dypam_ablation}(a)所示)考察了
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.9\linewidth]{assets/5_modulation_range.pdf}
|
||||
\caption{DyPAM学习到的调制因子范围在不同模型和不同任务上的分布。调制因子在所有设置下均围绕1.0保持适度方差,但不同架构和不同训练数据呈现出差异化的层间调制分布,表明DyPAM以架构依赖和数据依赖的方式适配位置注意力。}
|
||||
\caption[DyPAM学习到的调制因子范围在不同模型和不同任务上的分布]{DyPAM学习到的调制因子范围在不同模型和不同任务上的分布。调制因子在所有设置下均围绕1.0保持适度方差,但不同架构和不同训练数据呈现出差异化的层间调制分布,表明DyPAM以架构依赖和数据依赖的方式适配位置注意力。}
|
||||
\label{fig:ch5_modulation_range}
|
||||
\end{figure}
|
||||
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.9\linewidth]{assets/5_bias_comparison.pdf}
|
||||
\caption{不同模型在常识推理与数学推理任务上学习到的层级偏置模式对比。同一模型在不同任务上的偏置模式存在系统性差异,表明DyPAM的位置调制行为受训练数据特性的影响。}
|
||||
\caption[不同模型在常识推理与数学推理任务上学习到的层级偏置模式对比]{不同模型在常识推理与数学推理任务上学习到的层级偏置模式对比。同一模型在不同任务上的偏置模式存在系统性差异,表明DyPAM的位置调制行为受训练数据特性的影响。}
|
||||
\label{fig:ch5_bias_comparison}
|
||||
\end{figure}
|
||||
|
||||
|
||||
111
chap06.tex
111
chap06.tex
@@ -1,4 +1,4 @@
|
||||
% !TeX root = ../main.tex
|
||||
% !TeX root = main.tex
|
||||
% 第六章 多尺度频谱感知与参数自适应的表征适配方法
|
||||
\chapter{基于多尺度频谱结构与容量分配的参数空间适配方法}
|
||||
\label{chap:cascade_messa}
|
||||
@@ -36,7 +36,7 @@
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.9\linewidth]{assets/6_spectral_analysis.pdf}
|
||||
\caption{全量微调下权重更新的频谱特性。高频成分在频谱能量上占主导,但影响范围局限于少量参数;低频成分能量较小但影响权重矩阵的大部分区域。该模式在不同层和模块间保持一致。}
|
||||
\caption[全量微调下权重更新的频谱特性]{全量微调下权重更新的频谱特性。高频成分在频谱能量上占主导,但影响范围局限于少量参数;低频成分能量较小但影响权重矩阵的大部分区域。该模式在不同层和模块间保持一致。}
|
||||
\label{fig:ch6_spectral}
|
||||
\end{figure}
|
||||
|
||||
@@ -50,7 +50,7 @@
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.9\linewidth]{assets/6_task_activation.png}
|
||||
\caption{多任务微调中不同任务在注意力模块各层的激活差异。红色表示任务A激活更强,蓝色表示任务B激活更强,揭示了不同层和模块对共享/专用适配的差异化需求。}
|
||||
\caption[多任务微调中不同任务在注意力模块各层的激活差异]{多任务微调中不同任务在注意力模块各层的激活差异。红色表示任务A激活更强,蓝色表示任务B激活更强,揭示了不同层和模块对共享/专用适配的差异化需求。}
|
||||
\label{fig:ch6_task_diff}
|
||||
\end{figure}
|
||||
|
||||
@@ -90,7 +90,7 @@ CASCADE和MESSA分别回应了上述启示的前两点和后两点。
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.85\linewidth]{assets/6_cascade_arch.pdf}
|
||||
\caption{CASCADE方法框架图。CASCADE通过异构的频域和空域专家适配冻结的骨干模块,借助级联调制协调全局与局部更新,并通过频谱复杂度感知路由实现自适应专家组合。}
|
||||
\caption[CASCADE方法框架图]{CASCADE方法框架图。CASCADE通过异构的频域和空域专家适配冻结的骨干模块,借助级联调制协调全局与局部更新,并通过频谱复杂度感知路由实现自适应专家组合。}
|
||||
\label{fig:ch6_cascade_arch}
|
||||
\end{figure}
|
||||
|
||||
@@ -218,27 +218,57 @@ CASCADE在冻结骨干的基础上使用下游任务的标准监督目标进行
|
||||
|
||||
CASCADE的主要超参数包括:低频DCT系数20K个、小波系数10K个、空域残差专家秩$r=48$、负载均衡和正交性损失权重均为0.01。CASCADE的整体训练流程如算法~\ref{alg:ch6_cascade}所示。
|
||||
|
||||
%\RestyleAlgo{ruled}
|
||||
%\begin{algorithm}[htp]
|
||||
%\caption[CASCADE:从粗到细的频谱级联适配算法]{CASCADE:从粗到细的频谱级联适配算法}
|
||||
%\label{alg:ch6_cascade}
|
||||
%\KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$}
|
||||
%\KwOut{适配后的输出$\mathbf{y}$}
|
||||
%计算基础输出 $\mathbf{y}_0 \leftarrow \mathbf{W}_0 \mathbf{x}$\;
|
||||
%\textbf{低频专家:}\;
|
||||
%构建稀疏DCT频谱$\mathbf{S}_{\text{dct}}$(式~\ref{eq:ch6_dct_sparse})\;
|
||||
%重建全局更新$\Delta \mathbf{W}_{\text{dct}}$(式~\ref{eq:ch6_dct_inverse})\;
|
||||
%\textbf{高频专家:}\;
|
||||
%构建稀疏小波细节系数$\{\mathbf{B}_b\}_{b\in\mathcal{B}}$(式~\ref{eq:ch6_wavelet_sparse})\;
|
||||
%计算调制参数$(\gamma_b,\beta_b)_{b\in\mathcal{B}}$(式~\ref{eq:ch6_film_params})\;
|
||||
%应用频段级FiLM调制$\tilde{\mathbf{B}}_b$(式~\ref{eq:ch6_bandwise_film})\;
|
||||
%重建局部更新$\Delta \mathbf{W}_{\text{wav}}$(式~\ref{eq:ch6_wavelet_inverse})\;
|
||||
%\textbf{空域残差专家:}\;
|
||||
%计算残差更新$\Delta \mathbf{W}_{\text{spatial}}$(式~\ref{eq:ch6_spatial_update})\;
|
||||
%\textbf{路由与聚合:}\;
|
||||
%计算专家权重$\mathbf{w}$(式~\ref{eq:ch6_routing_weights})\;
|
||||
%聚合更新 $\Delta \mathbf{W} \leftarrow \sum_{e=1}^{E} w_e \cdot \Delta \mathbf{W}_e$\;
|
||||
%\Return{$\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$}
|
||||
%\end{algorithm}
|
||||
\RestyleAlgo{ruled}
|
||||
\begin{algorithm}[htp]
|
||||
\caption{CASCADE:从粗到细的频谱级联适配算法}
|
||||
\label{alg:ch6_cascade}
|
||||
\caption[CASCADE:从粗到细的频谱级联适配算法]{CASCADE:从粗到细的频谱级联适配算法}
|
||||
\label{alg:ch6_cascade_2}
|
||||
\KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$}
|
||||
\KwOut{适配后的输出$\mathbf{y}$}
|
||||
计算基础输出 $\mathbf{y}_0 \leftarrow \mathbf{W}_0 \mathbf{x}$\;
|
||||
\textbf{低频专家:}\;
|
||||
\Indp
|
||||
构建稀疏DCT频谱$\mathbf{S}_{\text{dct}}$(式~\ref{eq:ch6_dct_sparse})\;
|
||||
重建全局更新$\Delta \mathbf{W}_{\text{dct}}$(式~\ref{eq:ch6_dct_inverse})\;
|
||||
\Indm
|
||||
\textbf{高频专家:}\;
|
||||
\Indp
|
||||
构建稀疏小波细节系数$\{\mathbf{B}_b\}_{b\in\mathcal{B}}$(式~\ref{eq:ch6_wavelet_sparse})\;
|
||||
计算调制参数$(\gamma_b,\beta_b)_{b\in\mathcal{B}}$(式~\ref{eq:ch6_film_params})\;
|
||||
应用频段级FiLM调制$\tilde{\mathbf{B}}_b$(式~\ref{eq:ch6_bandwise_film})\;
|
||||
重建局部更新$\Delta \mathbf{W}_{\text{wav}}$(式~\ref{eq:ch6_wavelet_inverse})\;
|
||||
\Indm
|
||||
\textbf{空域残差专家:}\;
|
||||
\Indp
|
||||
计算残差更新$\Delta \mathbf{W}_{\text{spatial}}$(式~\ref{eq:ch6_spatial_update})\;
|
||||
\Indm
|
||||
\textbf{路由与聚合:}\;
|
||||
\Indp
|
||||
计算专家权重$\mathbf{w}$(式~\ref{eq:ch6_routing_weights})\;
|
||||
聚合更新 $\Delta \mathbf{W} \leftarrow \sum_{e=1}^{E} w_e \cdot \Delta \mathbf{W}_e$\;
|
||||
\Return{$\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$}
|
||||
\Indm
|
||||
\textbf{计算适配后的输出 $\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$}\;
|
||||
\end{algorithm}
|
||||
|
||||
|
||||
@@ -250,7 +280,7 @@ CASCADE解决了单一适配中的频谱级多尺度异质性问题。本节进
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.85\linewidth]{assets/6_messa_arch.pdf}
|
||||
\caption{MESSA方法框架图。MESSA将适配分解为共享和任务特有的稀疏更新,通过预算感知的软门控学习稀疏结构,并通过软到硬的训练过程在统一参数预算下生成可部署的稀疏模型。}
|
||||
\caption[MESSA方法框架图]{MESSA方法框架图。MESSA将适配分解为共享和任务特有的稀疏更新,通过预算感知的软门控学习稀疏结构,并通过软到硬的训练过程在统一参数预算下生成可部署的稀疏模型。}
|
||||
\label{fig:ch6_messa_arch}
|
||||
\end{figure}
|
||||
|
||||
@@ -332,7 +362,7 @@ MESSA将每个任务$t$的适配增量分解为共享成分和任务特有成分
|
||||
|
||||
\RestyleAlgo{ruled}
|
||||
\begin{algorithm}[htp]
|
||||
\caption{MESSA:软到硬的多任务稀疏微调算法}
|
||||
\caption[MESSA:软到硬的多任务稀疏微调算法]{MESSA:软到硬的多任务稀疏微调算法}
|
||||
\label{alg:ch6_messa}
|
||||
\KwIn{冻结骨干模型$\mathcal{M}$,任务集合$\{\mathcal{T}_t\}_{t=1}^T$,全局预算$B$,训练步数$S$}
|
||||
\KwOut{共享稀疏更新$\Delta_{\mathrm{sh}}$,各任务特有稀疏更新$\{\Delta_{\mathrm{sp}}^{(t)}\}_{t=1}^T$}
|
||||
@@ -406,7 +436,7 @@ CASCADE和MESSA从不同角度应对参数空间的结构异质性挑战,两
|
||||
\centering
|
||||
% 占位:待替换为外部绘制的 6_cascade_messa_relation.pdf
|
||||
% \includegraphics[width=0.85\textwidth]{assets/6_cascade_messa_relation.pdf}
|
||||
\caption{CASCADE与MESSA在参数空间适配中的互补关系。该图采用双轴矩阵布局:
|
||||
\caption[CASCADE与MESSA在参数空间适配中的互补关系]{CASCADE与MESSA在参数空间适配中的互补关系。该图采用双轴矩阵布局:
|
||||
\textbf{横轴}为"适配问题维度",标注两个正交方向——"单任务内部的多尺度结构"(左)和"多任务间的容量分配"(右)。
|
||||
\textbf{纵轴}为"调制机制",标注两种形式——"组合式调制"(上)和"结构分解调制"(下)。
|
||||
CASCADE定位于左上象限,用小型示意图展示其核心机制:权重更新$\Delta\mathbf{W}$通过DCT和小波分解为低频全局成分与高频局部成分,经级联调制后由路由权重$w_e$加权重组。
|
||||
@@ -439,18 +469,17 @@ MESSA定位于右下象限,用小型示意图展示其核心机制:参数组
|
||||
|
||||
表~\ref{tab:ch6_cascade_common}展示了CASCADE在常识推理任务上的性能。
|
||||
|
||||
\begin{table}[htp]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{CASCADE与基线方法在常识推理任务上的性能比较(Micro-Avg准确率\%)。*表示统计显著提升。}
|
||||
\caption[CASCADE与基线方法在常识推理任务上的性能比较(Micro-Avg准确率\%)]{CASCADE与基线方法在常识推理任务上的性能比较(Micro-Avg准确率\%)。\\ *表示统计显著提升。}
|
||||
\label{tab:ch6_cascade_common}
|
||||
\small
|
||||
\resizebox{\linewidth}{!}{
|
||||
\renewcommand{\arraystretch}{1.05}
|
||||
\begin{tabular}{l|lcccccccccc}
|
||||
\toprule
|
||||
\textbf{骨干} & \textbf{方法} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} \\
|
||||
\midrule
|
||||
\multirow{7}{*}{\rotatebox{90}{\textbf{Qwen3-4B}}}
|
||||
\multirow{7}{*}{\textbf{Qwen3-4B}}
|
||||
& LoRA & 66.88 & 82.97 & \underline{73.59} & 86.86 & 92.21 & \underline{83.60} & 85.37 & \underline{68.75} & 81.27 \\
|
||||
& AdaLoRA & \underline{67.34} & 82.64 & 73.44 & 87.03 & 92.89 & 82.00 & 79.99 & 67.88 & 78.89 \\
|
||||
& BONE & 66.15 & 81.61 & 72.62 & 85.24 & 92.55 & 75.40 & 78.85 & 68.11 & 77.78 \\
|
||||
@@ -459,7 +488,7 @@ MESSA定位于右下象限,用小型示意图展示其核心机制:参数组
|
||||
& FlyLoRA & 66.51 & \underline{83.35} & 73.54 & \underline{87.20} & 93.06 & 78.20 & \underline{85.63} & 68.35 & \underline{81.33} \\
|
||||
& \textbf{CASCADE} & \textbf{67.74} & \textbf{83.46} & \textbf{75.49} & \textbf{87.88} & \textbf{93.64} & \textbf{86.40} & \textbf{85.75} & \textbf{71.98} & \textbf{82.22*} \\
|
||||
\midrule
|
||||
\multirow{7}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}}
|
||||
\multirow{7}{*}{\textbf{LLaMA3.2-3B}}
|
||||
& LoRA & 61.41 & 78.62 & 66.79 & 68.26 & 84.05 & 70.20 & 79.49 & \underline{56.35} & \underline{74.05} \\
|
||||
& AdaLoRA & \underline{61.53} & 78.89 & 67.04 & \underline{69.71} & 83.63 & 69.60 & 79.31 & 54.78 & 73.96 \\
|
||||
& BONE & 60.61 & 76.17 & 66.53 & 67.24 & 79.88 & 63.20 & 79.28 & 50.04 & 72.61 \\
|
||||
@@ -468,7 +497,7 @@ MESSA定位于右下象限,用小型示意图展示其核心机制:参数组
|
||||
& FlyLoRA & 59.02 & 78.94 & \underline{67.14} & 67.58 & \underline{84.22} & \underline{71.80} & \underline{79.66} & 52.49 & 73.64 \\
|
||||
& \textbf{CASCADE} & \textbf{62.66} & \textbf{80.69} & \textbf{67.40} & \textbf{69.97} & \textbf{84.68} & \textbf{73.60} & \textbf{79.94} & \textbf{62.59} & \textbf{75.25*} \\
|
||||
\midrule
|
||||
\multirow{7}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}}
|
||||
\multirow{7}{*}{\textbf{Gemma3-4B}}
|
||||
& LoRA & 64.34 & 78.07 & \underline{70.21} & 75.26 & \underline{87.37} & 75.60 & \underline{77.97} & \underline{61.88} & \underline{75.21} \\
|
||||
& AdaLoRA & \underline{64.86} & \underline{79.16} & 69.91 & 75.68 & 86.87 & 72.00 & 77.19 & 61.17 & 74.84 \\
|
||||
& BONE & 63.67 & 78.35 & 69.19 & \underline{76.11} & 86.95 & 70.60 & 73.97 & 48.22 & 72.37 \\
|
||||
@@ -489,19 +518,18 @@ CASCADE在所有三种骨干模型上均取得了统计显著的最优Micro-Avg
|
||||
|
||||
表~\ref{tab:ch6_cascade_math}展示了CASCADE在数学推理任务上的性能。
|
||||
|
||||
\begin{table}[htp]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{CASCADE与基线方法在数学推理任务上的性能比较(Qwen3-4B,Micro-Avg准确率\%)。*表示统计显著提升。}
|
||||
\caption[CASCADE与基线方法在数学推理任务上的性能比较(Qwen3-4B,Micro-Avg准确率\%)]{CASCADE与基线方法在数学推理任务上的性能比较(Qwen3-4B,Micro-Avg准确率\%)。*表示统计显著提升。}
|
||||
\label{tab:ch6_cascade_math}
|
||||
\small
|
||||
\resizebox{\linewidth}{!}{
|
||||
\renewcommand{\arraystretch}{1.05}
|
||||
\begin{tabular}{lcccccccc}
|
||||
\toprule
|
||||
\textbf{方法} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} \\
|
||||
\midrule
|
||||
LoRA & \underline{77.50} & \underline{36.16} & \underline{83.80} & 26.77 & 85.83 & 55.90 & \underline{79.41} & \underline{58.53} \\
|
||||
AdaLoRA & 80.50 & 33.81 & 75.95 & 22.83 & 74.41 & 48.80 & 74.37 & 54.01 \\
|
||||
LoRA & 77.50 & \underline{36.16} & \underline{83.80} & 26.77 & 85.83 & 55.90 & \underline{79.41} & \underline{58.53} \\
|
||||
AdaLoRA & \underline{80.50} & 33.81 & 75.95 & 22.83 & 74.41 & 48.80 & 74.37 & 54.01 \\
|
||||
BONE & 79.50 & 31.69 & 78.99 & \underline{27.17} & 80.71 & 50.30 & 76.05 & 54.94 \\
|
||||
FourierFT & 68.67 & 31.08 & 76.46 & 23.62 & 78.54 & \underline{57.30} & 74.34 & 54.02 \\
|
||||
LoCA & 73.33 & 30.63 & 72.15 & 21.65 & 75.98 & 48.30 & 69.33 & 51.41 \\
|
||||
@@ -518,11 +546,10 @@ CASCADE在Qwen3-4B上取得了60.29\%的最优Micro-Avg性能,显著优于所
|
||||
|
||||
表~\ref{tab:ch6_cascade_scale}展示了CASCADE在Qwen3系列不同模型规模上的常识推理性能。
|
||||
|
||||
\begin{table}[htp]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{CASCADE与基线方法在不同模型规模上的常识推理性能比较(Micro-Avg准确率\%)。}
|
||||
\caption[CASCADE与基线方法在不同模型规模上的常识推理性能比较(Micro-Avg准确率\%)]{CASCADE与基线方法在不同模型规模上的常识推理性能比较(Micro-Avg准确率\%)。}
|
||||
\label{tab:ch6_cascade_scale}
|
||||
\small
|
||||
\begin{tabular}{lccc}
|
||||
\toprule
|
||||
\textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} \\
|
||||
@@ -546,7 +573,7 @@ CASCADE在所有模型规模上均取得最优性能,且在较小模型(0.6B
|
||||
\hfill
|
||||
\subcaptionbox{路由权重分布\label{fig:ch6_cascade_ablation_b}}{%
|
||||
\includegraphics[width=0.48\linewidth]{assets/6_cascade_ablation_b.pdf}}
|
||||
\caption{CASCADE的消融实验与路由行为分析。(a)移除各组件后的性能变化;(b)不同层中各专家的路由权重分布。}
|
||||
\caption[CASCADE的消融实验与路由行为分析]{CASCADE的消融实验与路由行为分析。(a)移除各组件后的性能变化;(b)不同层中各专家的路由权重分布。}
|
||||
\label{fig:ch6_cascade_ablation}
|
||||
\end{figure}
|
||||
|
||||
@@ -571,11 +598,10 @@ CASCADE在所有模型规模上均取得最优性能,且在较小模型(0.6B
|
||||
|
||||
表~\ref{tab:ch6_messa_overall}展示了MESSA在多任务总体性能上的结果。
|
||||
|
||||
\begin{table}[htp]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{MESSA与基线方法在多任务总体性能上的比较。Avg为宏平均,Geo为几何平均,Worst为最差任务性能。*表示统计显著提升。}
|
||||
\caption[MESSA与基线方法在多任务总体性能上的比较]{MESSA与基线方法在多任务总体性能上的比较。Avg为宏平均,Geo为几何平均,Worst为最差任务性能。*表示统计显著提升。}
|
||||
\label{tab:ch6_messa_overall}
|
||||
\small
|
||||
\resizebox{\linewidth}{!}{
|
||||
\renewcommand{\arraystretch}{1.05}
|
||||
\begin{tabular}{l|c|ccc|ccc|ccc}
|
||||
@@ -585,7 +611,7 @@ CASCADE在所有模型规模上均取得最优性能,且在较小模型(0.6B
|
||||
& & Avg & Geo & Worst & Avg & Geo & Worst & Avg & Geo & Worst \\
|
||||
\midrule
|
||||
LoRA (shared) & 2.25 & 76.47 & 75.56 & 59.81 & 67.05 & 65.99 & 53.03 & 71.22 & 69.53 & 50.08 \\
|
||||
LoRA (specific) & 2.25 & \underline{76.66} & \underline{75.76} & 60.75 & 64.70 & 63.29 & 52.75 & \underline{71.86} & \underline{70.09} & 49.45 \\
|
||||
LoRA (specific) & 2.25 & 76.66 & 75.76 & 60.75 & 64.70 & 63.29 & 52.75 & \underline{71.86} & \underline{70.09} & 49.45 \\
|
||||
AdaLoRA (shared) & 2.50 & 74.82 & 73.94 & 58.24 & 63.02 & 62.10 & 51.18 & 65.39 & 62.85 & 42.27 \\
|
||||
AdaLoRA (specific) & 2.50 & 75.45 & 74.61 & 59.18 & 62.94 & 61.99 & 53.03 & 66.57 & 64.00 & 43.33 \\
|
||||
\midrule
|
||||
@@ -610,29 +636,29 @@ MESSA在所有三种骨干模型上均取得统计显著的最优多任务性能
|
||||
|
||||
表~\ref{tab:ch6_messa_pertask}进一步展示了MESSA在Qwen3-4B上五个任务的逐任务性能。
|
||||
|
||||
\begin{table}[htp]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{MESSA与基线方法在各任务上的逐项性能比较(Qwen3-4B)。}
|
||||
\caption[MESSA与基线方法在各任务上的逐项性能比较(Qwen3-4B)]{MESSA与基线方法在各任务上的逐项性能比较(Qwen3-4B)。}
|
||||
\label{tab:ch6_messa_pertask}
|
||||
\small
|
||||
\resizebox{\linewidth}{!}{
|
||||
|
||||
|
||||
\renewcommand{\arraystretch}{1.05}
|
||||
\begin{tabular}{lccccccc}
|
||||
\toprule
|
||||
\textbf{方法} & \textbf{BoolQ} & \textbf{CodeAlpaca} & \textbf{MedQA} & \textbf{GSM8K} & \textbf{HellaSwag} & \textbf{Avg} & \textbf{Geo} \\
|
||||
\midrule
|
||||
LoRA (shared) & 86.79 & \underline{67.45} & 59.81 & 77.27 & 91.02 & 76.47 & 75.56 \\
|
||||
LoRA (shared) & 86.79 & 67.45 & 59.81 & 77.27 & 91.02 & 76.47 & 75.56 \\
|
||||
LoRA (specific) & \underline{87.89} & 67.40 & 60.75 & 76.06 & 91.20 & 76.66 & 75.76 \\
|
||||
AdaLoRA (shared) & 85.81 & 66.55 & 58.24 & 75.61 & 87.89 & 74.82 & 73.94 \\
|
||||
AdaLoRA (specific) & 85.02 & 66.75 & 59.18 & \underline{77.42} & 88.89 & 75.45 & 74.61 \\
|
||||
AdaLoRA (specific) & 85.02 & 66.75 & 59.18 & 77.42 & 88.89 & 75.45 & 74.61 \\
|
||||
SHiRA (shared) & 86.79 & 64.65 & 56.99 & 74.85 & 89.70 & 74.60 & 73.51 \\
|
||||
SHiRA (specific) & 87.40 & 63.50 & \underline{62.64} & 77.73 & \underline{91.83} & 76.62 & 75.67 \\
|
||||
SHiRA (specific) & 87.40 & 63.50 & \underline{62.64} & \underline{77.73} & \underline{91.83} & 76.62 & 75.67 \\
|
||||
MTLoRA & 86.42 & 66.35 & 62.01 & \textbf{78.33} & 90.92 & \underline{76.81} & \underline{75.98} \\
|
||||
MOELoRA & 86.24 & \underline{67.65} & 60.91 & 75.61 & 89.92 & 76.07 & 75.27 \\
|
||||
\textbf{MESSA} & \textbf{88.07} & \textbf{68.30} & \textbf{62.79} & \textbf{78.33} & \textbf{92.57} & \textbf{78.01} & \textbf{77.18} \\
|
||||
\bottomrule
|
||||
\end{tabular}
|
||||
}
|
||||
|
||||
\end{table}
|
||||
|
||||
逐任务分析揭示了MESSA在所有五个任务上均取得最优或并列最优的性能。特别地,在跨领域差异最大的任务对(如编程类CodeAlpaca与医学类MedQA)上,MESSA均显著优于所有基线,表明共享-特有稀疏分解有效地在异质任务之间实现了知识的选择性复用与差异化适配。
|
||||
@@ -641,12 +667,11 @@ MESSA在所有三种骨干模型上均取得统计显著的最优多任务性能
|
||||
|
||||
表~\ref{tab:ch6_messa_scale}展示了MESSA在Qwen3系列不同模型规模上的多任务性能。
|
||||
|
||||
\begin{table}[htp]
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption{MESSA与基线方法在不同模型规模上的多任务性能比较。}
|
||||
\caption[MESSA与基线方法在不同模型规模上的多任务性能比较]{MESSA与基线方法在不同模型规模上的多任务性能比较。}
|
||||
\label{tab:ch6_messa_scale}
|
||||
\small
|
||||
\resizebox{\linewidth}{!}{
|
||||
|
||||
\renewcommand{\arraystretch}{1.05}
|
||||
\begin{tabular}{lcccccc}
|
||||
\toprule
|
||||
@@ -662,7 +687,7 @@ MESSA在所有三种骨干模型上均取得统计显著的最优多任务性能
|
||||
\textbf{MESSA} & \textbf{61.77} & \textbf{58.65} & \textbf{71.93} & \textbf{70.18} & \textbf{78.01} & \textbf{77.18} \\
|
||||
\bottomrule
|
||||
\end{tabular}
|
||||
}
|
||||
|
||||
\end{table}
|
||||
|
||||
MESSA在所有模型规模上均取得最优性能。随着模型规模从0.6B增大到4B,MESSA相对于基线的优势保持稳定(Avg差距约0.6--1.9个百分点),表明共享-特有分解的结构分配策略在不同参数容量下均能有效运作。
|
||||
@@ -672,7 +697,7 @@ MESSA在所有模型规模上均取得最优性能。随着模型规模从0.6B
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.9\linewidth]{assets/6_messa_analysis.pdf}
|
||||
\caption{MESSA的消融实验与结构分析。(a)各组件对多任务性能的贡献;(b)共享和任务特有更新在注意力模块间的分配比例。}
|
||||
\caption[MESSA的消融实验与结构分析]{MESSA的消融实验与结构分析。(a)各组件对多任务性能的贡献;(b)共享和任务特有更新在注意力模块间的分配比例。}
|
||||
\label{fig:ch6_messa_analysis}
|
||||
\end{figure}
|
||||
|
||||
|
||||
@@ -1,3 +1,4 @@
|
||||
% !TeX root = ../main.tex
|
||||
% \chapter*{总结与展望}
|
||||
\summary
|
||||
|
||||
|
||||
2
main.tex
2
main.tex
@@ -96,7 +96,7 @@
|
||||
|
||||
% 在此修改 论文类型,密级,打印设置,系统类型,标题长短,学科类型
|
||||
% 学科类型需填写“STEM”或者“HSS”,该项会影响章节条标题的形式
|
||||
\documentclass[doctor,public,library,mac,short,STEM,AutoFakeBold]{def/buaa}
|
||||
\documentclass[doctor,public,library,win,short,STEM,AutoFakeBold]{def/buaa}
|
||||
% \documentclass[doctor,public,library,mac,short,STEM,AutoFakeBold=true]{def/buaa}
|
||||
|
||||
%\setlength{\abovedisplayskip}{1pt}
|
||||
|
||||
0
mypaper/AAAI2026_RoSA.bib
Executable file → Normal file
0
mypaper/AAAI2026_RoSA.bib
Executable file → Normal file
0
mypaper/AAAI2026_RoSA.tex
Executable file → Normal file
0
mypaper/AAAI2026_RoSA.tex
Executable file → Normal file
0
mypaper/CIKM2025_HyCAM.bib
Executable file → Normal file
0
mypaper/CIKM2025_HyCAM.bib
Executable file → Normal file
0
mypaper/CIKM2025_HyCAM.tex
Executable file → Normal file
0
mypaper/CIKM2025_HyCAM.tex
Executable file → Normal file
0
mypaper/IJCAI2026_CASCADE.bib
Executable file → Normal file
0
mypaper/IJCAI2026_CASCADE.bib
Executable file → Normal file
0
mypaper/IJCAI2026_MESSA.bib
Executable file → Normal file
0
mypaper/IJCAI2026_MESSA.bib
Executable file → Normal file
98
ref.bib
98
ref.bib
@@ -2563,3 +2563,101 @@ LargeST(引过了)
|
||||
archivePrefix = {arXiv},
|
||||
year = {2024}
|
||||
}
|
||||
|
||||
@inproceedings{bogoychev2021not,
|
||||
title={Not all parameters are born equal: Attention is mostly what you need},
|
||||
author={Bogoychev, Nikolay},
|
||||
booktitle={Proceedings of the fourth blackboxnlp workshop on analyzing and interpreting neural networks for nlp},
|
||||
pages={363--374},
|
||||
year={2021}
|
||||
}
|
||||
|
||||
@article{olsson2022context,
|
||||
title={In-context learning and induction heads},
|
||||
author={Olsson, Catherine and Elhage, Nelson and Nanda, Neel and Joseph, Nicholas and DasSarma, Nova and Henighan, Tom and Mann, Ben and Askell, Amanda and Bai, Yuntao and Chen, Anna and others},
|
||||
journal={arXiv preprint arXiv:2209.11895},
|
||||
year={2022}
|
||||
}
|
||||
|
||||
@inproceedings{rahaman2019spectral,
|
||||
title={On the spectral bias of neural networks},
|
||||
author={Rahaman, Nasim and Baratin, Aristide and Arpit, Devansh and Draxler, Felix and Lin, Min and Hamprecht, Fred and Bengio, Yoshua and Courville, Aaron},
|
||||
booktitle={International conference on machine learning},
|
||||
pages={5301--5310},
|
||||
year={2019},
|
||||
organization={PMLR}
|
||||
}
|
||||
|
||||
@inproceedings{liu2022p,
|
||||
title={P-tuning: Prompt tuning can be comparable to fine-tuning across scales and tasks},
|
||||
author={Liu, Xiao and Ji, Kaixuan and Fu, Yicheng and Tam, Weng and Du, Zhengxiao and Yang, Zhilin and Tang, Jie},
|
||||
booktitle={Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)},
|
||||
pages={61--68},
|
||||
year={2022}
|
||||
}
|
||||
|
||||
@article{dettmers2023qlora,
|
||||
title={Qlora: Efficient finetuning of quantized llms},
|
||||
author={Dettmers, Tim and Pagnoni, Artidoro and Holtzman, Ari and Zettlemoyer, Luke},
|
||||
journal={Advances in neural information processing systems},
|
||||
volume={36},
|
||||
pages={10088--10115},
|
||||
year={2023}
|
||||
}
|
||||
|
||||
@article{caruana1997multitask,
|
||||
title={Multitask learning},
|
||||
author={Caruana, Rich},
|
||||
journal={Machine learning},
|
||||
volume={28},
|
||||
number={1},
|
||||
pages={41--75},
|
||||
year={1997},
|
||||
publisher={Springer}
|
||||
}
|
||||
|
||||
@inproceedings{chen2018gradnorm,
|
||||
title={Gradnorm: Gradient normalization for adaptive loss balancing in deep multitask networks},
|
||||
author={Chen, Zhao and Badrinarayanan, Vijay and Lee, Chen-Yu and Rabinovich, Andrew},
|
||||
booktitle={International conference on machine learning},
|
||||
pages={794--803},
|
||||
year={2018},
|
||||
organization={PMLR}
|
||||
}
|
||||
|
||||
@inproceedings{godey2024anisotropy,
|
||||
title={Anisotropy is inherent to self-attention in transformers},
|
||||
author={Godey, Nathan and Clergerie, {\'E}ric and Sagot, Beno{\^\i}t},
|
||||
booktitle={Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers)},
|
||||
pages={35--48},
|
||||
year={2024}
|
||||
}
|
||||
|
||||
@article{liu2018darts,
|
||||
title={Darts: Differentiable architecture search},
|
||||
author={Liu, Hanxiao and Simonyan, Karen and Yang, Yiming},
|
||||
journal={arXiv preprint arXiv:1806.09055},
|
||||
year={2018}
|
||||
}
|
||||
|
||||
@article{frankle2019stabilizing,
|
||||
title={Stabilizing the lottery ticket hypothesis},
|
||||
author={Frankle, Jonathan and Dziugaite, Gintare Karolina and Roy, Daniel M and Carbin, Michael},
|
||||
journal={arXiv preprint arXiv:1903.01611},
|
||||
year={2019}
|
||||
}
|
||||
|
||||
@article{ilharco2022editing,
|
||||
title={Editing models with task arithmetic},
|
||||
author={Ilharco, Gabriel and Ribeiro, Marco Tulio and Wortsman, Mitchell and Gururangan, Suchin and Schmidt, Ludwig and Hajishirzi, Hannaneh and Farhadi, Ali},
|
||||
journal={arXiv preprint arXiv:2212.04089},
|
||||
year={2022}
|
||||
}
|
||||
|
||||
@article{devlin2018bert,
|
||||
title={BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding},
|
||||
author={Devlin, Jacob and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina},
|
||||
journal={arXiv preprint arXiv:1810.04805},
|
||||
year={2018}
|
||||
}
|
||||
|
||||
|
||||
Reference in New Issue
Block a user