Compare commits

4 Commits

Author SHA1 Message Date
panda361
1fd3c5771f Rev for Pre 2026-03-23 22:07:08 +08:00
panda361
de3d1598b0 Fix abbr 2026-03-23 15:43:13 +08:00
D调E点
21707be041 1.fix table & pic title;2.fix table; 2026-03-23 15:13:20 +08:00
D调E点
965f2790dc 1.fix all table size;2.fix some table max/2nd-max mark error;3.add fig & table caption mark;4.add some ref bibs 2026-03-23 15:13:11 +08:00
52 changed files with 723 additions and 406 deletions

View File

@@ -0,0 +1,11 @@
{
"permissions": {
"allow": [
"Bash(for f:*)",
"Bash(do echo:*)",
"Read(//Users/panda/Library/CloudStorage/OneDrive-个人/Publication/Graduate/Draft/**)",
"Bash(done)",
"Bash(cd:*)"
]
}
}

View File

@@ -1,24 +1,24 @@
% 摘要-{中文}{英文} % 摘要-{中文}{英文}
\Abstract{% \Abstract{%
论文摘要是对论文研究内容的高度概括,应体现论文工作的核心思想。博士学 随着大语言模型在推理、问答、生成与多任务协同场景中的广泛应用,如何在有限参数预算下高效完成下游适配,已成为基础模型落地中的关键问题。现有参数高效微调方法大多对不同层、不同模块或不同参数子空间施加形式一致的更新,默认模型内部结构是均匀的,因而难以充分利用大语言模型在模块功能、表示维度和参数组织等方面普遍存在的结构异质性。围绕这一问题,本文以结构异质性分析为切入点,研究面向大语言模型的结构感知表征适配方法,构建了由统一分析框架到多层级方法设计的系统技术路线。
位论文的中文摘要一般约8001200字硕士学位论文的中文摘要一般约500字。摘
要内容应涉及本项科研工作的目的和意义、研究思想和方法、研究成果和结论,博
士学位论文应突出论文的创造性成果,硕士学位论文应突出论文的新见解。应具有
独立性和自含性,即应是一篇简短但意义完整的文章。论文摘要中不要出现图片、
图表、表格或其他插图材料。
论文的关键词,是为了文献标引工作从论文中选取出来用以表示全文主题内容 首先,本文从表示流与参数更新两个视角出发,将模型适配统一刻画为在结构角色约束下的非均匀调制过程,构建了结构感知调制的统一分析框架,并将结构异质性归纳为模块级功能异质性、维度级位置结构异质性、频谱级多尺度异质性和参数级容量分配异质性四类,进一步对应乘性调制、组合式调制和结构分解调制三种基本形式。
信息的单词或术语关键词一般为35个按词条的外延层次排列外延大的排在
前面)。每个关键词之间用逗号间隔,最后一个关键词后不缀标点符号。
论文摘要的中文版与英文版文字内容要对应。从中文摘要开始编写页码并采用 其次,围绕表示空间中的结构异质性,本文提出三类递进式方法:针对多任务场景中自注意力与前馈网络的功能分工差异,提出基于模块功能角色感知的混合上下文注意力调制方法 HyCAM通过共享调制、专用调制与动态路由协同实现知识共享与任务特化针对 RoPE 诱导的维度级位置结构异质性,提出静态选择性适配方法 RoSA通过低频维度增强与动态层选择提升对关键位置结构的利用效率在此基础上进一步提出动态位置注意力调制方法 DyPAM通过输入条件化的维度对调制以及头级、层级结构偏置实现由静态选择向动态细粒度调制的扩展。
双面印刷。“Keywords”与中文摘要部分的关键词对应每个关键词之间用逗号间隔。
再次,围绕参数空间中的结构异质性,本文提出两类结构化适配方法:针对权重更新中的多尺度频谱结构,提出基于频谱级联的多尺度参数适配方法 CASCADE通过 DCT 低频专家、小波高频专家与空域残差专家的协同建模,实现从全局平滑调整到局部精细修正的级联适配;针对多任务适配中的容量分配问题,提出基于共享-特有稀疏分解的多任务适配方法 MESSA通过预算感知的软到硬结构学习在统一参数预算下实现共享能力与任务特化能力之间的高效分配。
最后,本文在常识推理、数学推理和多任务联合适配等多类基准任务上进行了系统实验,覆盖 LLaMA、Qwen、Gemma、Mistral 等多个主流模型家族以及 0.5B 至 14B 的不同参数规模。实验结果表明,本文提出的五种方法在各自适用场景下均能稳定优于 LoRA、DoRA、AdaLoRA、FourierFT、MTLoRA 等代表性基线,验证了显式建模并利用大语言模型内部结构异质性对于提升参数高效适配性能与资源利用效率的有效性。本文的研究为大语言模型结构感知适配提供了统一的分析视角和系统的方法支撑。
}{ }{
The abstract is a concise summary of the research content of the thesis, reflecting the core ideas of the work. For a doctoral dissertation, the Chinese abstract is typically around 8001,200 words, while for a master's thesis, it is generally about 500 words. The abstract should address the purpose and significance of the research, the methodology and approach, as well as the key findings and conclusions. Doctoral dissertations should emphasize original contributions, while master's theses should highlight novel insights. The abstract must be self-contained and independent, functioning as a complete yet concise standalone text. Figures, charts, tables, or other illustrative materials should not appear in the abstract. As large language models are increasingly deployed in reasoning, question answering, generation, and multi-task scenarios, parameter-efficient adaptation under limited budgets has become a central problem for practical use. Most existing parameter-efficient fine-tuning methods apply updates with largely uniform forms across layers, modules, or parameter subspaces, implicitly assuming structural homogeneity inside the model. Such designs cannot fully exploit the structural heterogeneity that widely exists in module functions, representation dimensions, and parameter organization. To address this problem, this dissertation studies structure-aware representation adaptation for large language models and develops a systematic technical route from a unified analytical framework to multi-level method design.
Keywords are terms or phrases selected from the thesis to represent the main thematic content for indexing purposes. Typically, 35 keywords are required, arranged in hierarchical order of scope (with broader terms listed first). Keywords are separated by semicolons, with no punctuation following the last keyword. First, from the dual perspectives of representation flow and parameter updates, this dissertation formulates model adaptation as a non-uniform modulation process constrained by structural roles, and establishes a unified framework for structure-aware modulation. Structural heterogeneity is summarized into four types: module-level functional heterogeneity, dimension-level positional heterogeneity, spectrum-level multi-scale heterogeneity, and parameter-level capacity-allocation heterogeneity. These types are further associated with three basic modulation forms, namely multiplicative modulation, compositional modulation, and structural-decomposition modulation.
The Chinese and English versions of the abstract must align in content. Page numbering begins with the Chinese abstract, and the document should be printed double-sided. The "Keywords" section in the English abstract corresponds to the Chinese version, with terms similarly separated by semicolons. Second, for heterogeneity in the representation space, three progressively refined methods are proposed. HyCAM addresses the functional-role differences between self-attention and feed-forward networks in multi-task adaptation by coordinating shared modulation, task-specific modulation, and dynamic routing to balance knowledge sharing and task specialization. RoSA targets the dimension-level positional heterogeneity induced by RoPE, and improves the utilization of critical positional structure through selective low-frequency enhancement and dynamic layer selection. Building on this, DyPAM further extends static selection to fine-grained dynamic modulation by introducing input-conditioned modulation over RoPE-aligned dimension pairs together with head-level and layer-level structural biases.
Third, for heterogeneity in the parameter space, two structured adaptation methods are proposed. CASCADE addresses the multi-scale spectral structure of weight updates by combining a DCT-based low-frequency expert, a wavelet-based high-frequency expert, and a spatial residual expert, thereby realizing cascading adaptation from global smooth adjustment to local fine-grained correction. MESSA addresses capacity allocation in multi-task adaptation through a shared-specific sparse decomposition and a budget-aware soft-to-hard structure learning strategy, enabling efficient allocation between shared capability and task-specific capability under a unified parameter budget.
Finally, comprehensive experiments are conducted on commonsense reasoning, mathematical reasoning, and joint multi-task adaptation benchmarks, covering multiple mainstream model families including LLaMA, Qwen, Gemma, and Mistral, with model sizes ranging from 0.5B to 14B parameters. Experimental results show that the five proposed methods consistently outperform representative baselines such as LoRA, DoRA, AdaLoRA, FourierFT, and MTLoRA in their respective settings, validating the effectiveness of explicitly modeling and utilizing the structural heterogeneity inside large language models for improving adaptation performance and parameter efficiency. This dissertation provides both a unified analytical perspective and a systematic methodological foundation for structure-aware adaptation of large language models.
} }
% 关键字-{中文}{英文} % 关键字-{中文}{英文}
\Keyword{大语言模型,参数高效微调,结构异质性,表征适配,结构感知调制}{Large Language Model, Parameter-Efficient Fine-Tuning, Structural Heterogeneity, Representation Adaptation, Structure-Aware Modulation} \Keyword{大语言模型,参数高效微调,结构异质性,结构感知适配,表征适配}{Large Language Models, Parameter-Efficient Fine-Tuning, Structural Heterogeneity, Structure-Aware Adaptation, Representation Adaptation}

BIN
assets/2_rope_frequency.pdf Normal file

Binary file not shown.

Binary file not shown.

0
assets/3_ht.pdf Executable file → Normal file
View File

0
assets/3_loss.pdf Executable file → Normal file
View File

0
assets/3_model.pdf Executable file → Normal file
View File

0
assets/3_sens.pdf Executable file → Normal file
View File

0
assets/3_tsne.pdf Executable file → Normal file
View File

0
assets/4_AcrossLayer.pdf Executable file → Normal file
View File

0
assets/4_SingleLayer10.pdf Executable file → Normal file
View File

0
assets/4_dls_sensitivity.pdf Executable file → Normal file
View File

0
assets/4_layer_selection.pdf Executable file → Normal file
View File

0
assets/4_rosa_arch.pdf Executable file → Normal file
View File

BIN
assets/route.pdf Normal file

Binary file not shown.

0
assets/unsorted/CASCADE/AcrossLayer.pdf Executable file → Normal file
View File

0
assets/unsorted/CASCADE/Layer10.pdf Executable file → Normal file
View File

0
assets/unsorted/CASCADE/impact_larger.pdf Executable file → Normal file
View File

0
assets/unsorted/CASCADE/layer_sel.pdf Executable file → Normal file
View File

0
assets/unsorted/CASCADE/rosa_arch_deeper.pdf Executable file → Normal file
View File

0
assets/unsorted/MESSA/AcrossLayer.pdf Executable file → Normal file
View File

0
assets/unsorted/MESSA/Layer10.pdf Executable file → Normal file
View File

0
assets/unsorted/MESSA/impact.pdf Executable file → Normal file
View File

0
assets/unsorted/MESSA/impact_larger.pdf Executable file → Normal file
View File

0
assets/unsorted/MESSA/layer_sel.pdf Executable file → Normal file
View File

0
assets/unsorted/MESSA/rosa_arch.pdf Executable file → Normal file
View File

0
assets/unsorted/MESSA/rosa_arch_deeper.pdf Executable file → Normal file
View File

0
assets/unsorted/RoSA/AcrossLayer.pdf Executable file → Normal file
View File

0
assets/unsorted/RoSA/Layer10.pdf Executable file → Normal file
View File

0
assets/unsorted/RoSA/impact.pdf Executable file → Normal file
View File

0
assets/unsorted/RoSA/impact_larger.pdf Executable file → Normal file
View File

0
assets/unsorted/RoSA/layer_sel.pdf Executable file → Normal file
View File

0
assets/unsorted/RoSA/rosa_arch.pdf Executable file → Normal file
View File

0
assets/unsorted/RoSA/rosa_arch_deeper.pdf Executable file → Normal file
View File

BIN
assets/三类方法.pdf Normal file

Binary file not shown.

BIN
assets/研究内容.pdf Normal file

Binary file not shown.

View File

@@ -1,4 +1,4 @@
% !TeX root = ../main.tex % !TeX root = main.tex
% 第一章 绪论 % 第一章 绪论
\chapter{绪论} \chapter{绪论}
\label{chap:introduction} \label{chap:introduction}
@@ -14,12 +14,12 @@
与传统面向特定任务构建模型的范式相比,基础模型强调在统一表示空间中对多任务进行建模与迁移。模型不再针对每一类任务独立学习特定结构,而是通过预训练阶段形成通用表示,并在下游任务中通过适配机制对已有表示进行重组与调用。这一由“任务特定建模”向“通用表示学习”的转变,使模型能够在不同任务之间复用已有知识结构,并在新任务场景中实现高效迁移。 与传统面向特定任务构建模型的范式相比,基础模型强调在统一表示空间中对多任务进行建模与迁移。模型不再针对每一类任务独立学习特定结构,而是通过预训练阶段形成通用表示,并在下游任务中通过适配机制对已有表示进行重组与调用。这一由“任务特定建模”向“通用表示学习”的转变,使模型能够在不同任务之间复用已有知识结构,并在新任务场景中实现高效迁移。
\begin{figure}[htbp] % \begin{figure}[htbp]
\centering % \centering
% \includegraphics[width=0.85\textwidth]{fm_paradigm.pdf} % % \includegraphics[width=0.85\textwidth]{fm_paradigm.pdf}
\caption[基础模型范式下统一表示学习的示意图]{基础模型范式下统一表示学习的示意图。左侧表示传统任务特定建模方式,不同任务依赖独立模型与特征设计;右侧表示基础模型通过预训练形成统一表示空间,并通过适配机制支持多任务共享与迁移。} % \caption[基础模型范式下统一表示学习的示意图]{基础模型范式下统一表示学习的示意图。\\左侧表示传统任务特定建模方式,不同任务依赖独立模型与特征设计;\\右侧表示基础模型通过预训练形成统一表示空间,并通过适配机制支持多任务共享与迁移。}
\label{fig:ch1_fm_paradigm} % \label{fig:ch1_fm_paradigm}
\end{figure} % \end{figure}
在这一范式下,模型能力不再仅由单一任务性能刻画,而更多取决于其在统一的表示空间中整合多源信息与支持多类型推理的能力。这种能力依赖于表示空间的内部组织方式,即不同语义成分、结构信息与知识模式在表示中的编码与分布形式。 在这一范式下,模型能力不再仅由单一任务性能刻画,而更多取决于其在统一的表示空间中整合多源信息与支持多类型推理的能力。这种能力依赖于表示空间的内部组织方式,即不同语义成分、结构信息与知识模式在表示中的编码与分布形式。
@@ -81,11 +81,11 @@
这一具有内在一致性的分层方法体系,有助于从整体视角理解不同适配策略之间的关系,使模型改进从局部结构优化拓展为在统一框架下的系统化建模。同时,该体系为多任务场景中的表示迁移与能力协同提供了方法基础,并为后续结构感知建模研究提供了可扩展的技术路径。 这一具有内在一致性的分层方法体系,有助于从整体视角理解不同适配策略之间的关系,使模型改进从局部结构优化拓展为在统一框架下的系统化建模。同时,该体系为多任务场景中的表示迁移与能力协同提供了方法基础,并为后续结构感知建模研究提供了可扩展的技术路径。
{\heiti \underline{应用与工程价值}} {\heiti \underline{应用与工程价值}}
从应用角度看,大语言模型正由离线研究环境逐步走向多任务协同与持续部署的复杂系统场景。在这一过程中,模型适配方法不仅需要具备性能提升能力,还需要在计算开销、参数规模与部署稳定性等方面满足工程约束。在保持预训练模型主体能力的前提下,通过有限参数更新实现高效适配,已成为基础模型落地应用的关键问题。 从应用角度看,大语言模型正由离线研究环境逐步走向多任务协同与持续部署的复杂系统场景。在这一过程中,模型适配方法不仅需要面向性能,还需要在计算开销、参数规模与部署稳定性等方面满足工程约束。在保持预训练模型原有能力的前提下,通过有限参数更新实现高效适配,已成为基础模型落地应用的关键问题。
本文提出的结构感知适配方法,通过在模型内部关键结构单元上进行针对性的表示调制与参数组织,使适配过程更加聚焦于对任务能力形成具有关键作用的表示成分,从而在有限适配预算条件下提升模型性能与资源利用效率。这种建模方式有助于降低大模型在实际部署中的适配成本,并提升其在多任务环境中的持续适应能力。 本文提出的结构感知适配方法,通过在模型内部关键结构单元上进行针对性的表示调制与参数组织,使适配过程更加聚焦于对任务能力形成具有关键作用的表示成分,从而在有限适配预算条件下提升模型性能与资源利用效率。这种建模方式有助于降低大模型在实际部署中的适配成本,并提升其在多任务环境中的持续适应能力。
此外,通过对不同结构适配策略进行系统验证,可以在多任务与多场景条件下评估方法性能表现,从而更全面分析结构感知适配机制的有效性。方法设计与实验分析的结合,有助于形成从结构建模到性能验证的完整研究闭环。 此外,通过对不同结构适配策略进行系统验证,可以在多任务与多场景条件下评估方法性能表现,从而更全面分析结构感知适配机制的有效性。方法设计与实验分析的结合,有助于形成从结构建模到性能验证的完整研究闭环。
总体而言,围绕结构感知表征适配问题开展系统研究,有助于深化对基础模型适配机制的理解,推动模型适配方法由均匀更新向结构驱动调制演进,并为复杂任务场景下的大语言模型高效应用提供方法支撑。 总体而言,围绕结构感知表征适配问题开展系统研究,有助于深化对基础模型适配机制的理解,推动模型适配方法由均匀更新向结构驱动调制演进,并为复杂任务场景下的大语言模型高效应用提供方法支撑。
\section{大语言模型表征适配研究现状与关键问题分析} \section{大语言模型表征适配研究现状与关键问题分析}
@@ -125,14 +125,15 @@
在参数空间层面,模型训练与微调过程中的参数更新通常呈现出非均匀分布与多尺度特征\cite{rahaman2019spectral}% 注需补充到ref.bib: rahaman2019spectral (Rahaman et al., On the Spectral Bias of Neural Networks, ICML 2019) 在参数空间层面,模型训练与微调过程中的参数更新通常呈现出非均匀分布与多尺度特征\cite{rahaman2019spectral}% 注需补充到ref.bib: rahaman2019spectral (Rahaman et al., On the Spectral Bias of Neural Networks, ICML 2019)
部分参数子空间对模型整体行为具有更显著影响,而多任务场景中不同任务对共享与专用参数的依赖程度也存在差异。这些现象表明,参数组织方式本身也具有结构属性,并对适配效果产生重要影响。 部分参数子空间对模型整体行为具有更显著影响,而多任务场景中不同任务对共享与专用参数的依赖程度也存在差异。这些现象表明,参数组织方式本身也具有结构属性,并对适配效果产生重要影响。
总体来看,现有研究已从模块、维度与参数等多个角度揭示了大语言模型内部的结构复杂性。然而,这些工作多围绕局部结构特征展开,其分析对象、建模方式及方法形式尚未形成统一描述框架,不同层级结构异质性之间的内在联系仍有待系统刻画。图~\ref{fig:ch1_research_landscape}~概括了上述研究现状及其与本文方法体系的关系。 总体来看,现有研究已从模块、维度与参数等多个角度揭示了大语言模型内部的结构复杂性。然而,这些工作多围绕局部结构特征展开,其分析对象、建模方式及方法形式尚未形成统一描述框架,不同层级结构异质性之间的内在联系仍有待系统刻画。
% 图~\ref{fig:ch1_research_landscape}~概括了上述研究现状及其与本文方法体系的关系。
\begin{figure}[htbp] % \begin{figure}[htbp]
\centering % \centering
% \includegraphics[width=0.95\textwidth]{ch1_research_landscape.pdf} % % \includegraphics[width=0.95\textwidth]{ch1_research_landscape.pdf}
\caption{大语言模型表征适配研究现状与本文方法定位。左侧展示模型内部三个层面的结构异质性现象(模块级功能分化、维度级位置结构差异、参数空间多尺度与容量分配特征);中间为现有参数高效适配方法的均匀适配假设与三类局限;右侧为本文构建的统一分析框架与五种方法的对应关系。} % \caption[大语言模型表征适配研究现状与本文方法定位]{大语言模型表征适配研究现状与本文方法定位。左侧展示模型内部三个层面的结构异质性现象(模块级功能分化、维度级位置结构差异、参数空间多尺度与容量分配特征);中间为现有参数高效适配方法的均匀适配假设与三类局限;右侧为本文构建的统一分析框架与五种方法的对应关系。}
\label{fig:ch1_research_landscape} % \label{fig:ch1_research_landscape}
\end{figure} % \end{figure}
\subsection{现有研究的关键问题总结} \subsection{现有研究的关键问题总结}
\label{subsec:status_summary} \label{subsec:status_summary}
@@ -215,19 +216,18 @@
\begin{figure}[htbp] \begin{figure}[htbp]
\centering \centering
% 占位:待替换为外部绘制的 modulation_forms.pdf \includegraphics[width=0.9\textwidth]{assets/三类方法.pdf}
% \includegraphics[width=0.9\textwidth]{modulation_forms.pdf} \caption[三种结构感知调制形式的示意图]{三种结构感知调制形式的示意图。
\caption{三种结构感知调制形式的示意图。该图采用三列并排布局,每列对应一种调制形式: \textbf{左列}(乘性调制):输入表示经过条件化信号生成模块$\mathbf{S}_\theta(\mathbf{X},\mathcal{R})$产生逐元素调制信号通过Hadamard乘法作用于原始表示。
\textbf{}乘性调制):输入表示$\mathbf{Z}^{(\ell)}$经过条件化信号生成模块$\mathbf{S}_\theta(\mathbf{X},\mathcal{R})$产生逐元素调制信号通过Hadamard乘法$\odot$作用于原始表示,输出调制后表示$\tilde{\mathbf{Z}}^{(\ell)}$。下方标注"HyCAM / RoSA / DyPAM"及"表示空间" \textbf{}组合式调制):输入通过多个异构频域变换分解为$S$个频段分量,每个分量经路由权重$g_{\theta,s}$加权后通过$\bigoplus$重组
\textbf{}组合式调制):输入通过多个异构频域变换分解为$S$个频段分量$\mathbf{Z}_1, \mathbf{Z}_2, \ldots, \mathbf{Z}_S$,每个分量经路由权重$g_{\theta,s}$加权后通过$\bigoplus$重组。下方标注"CASCADE"及"参数空间" \textbf{}结构分解调制):参数更新被分解为共享增量和经掩码选择的专用增量,二者相加后与输入表示相乘
\textbf{右列}(结构分解调制):参数更新被分解为共享增量$\Delta\Theta_{shared}$和经掩码$\mathbf{m}$选择的专用增量$\Delta\Theta_{specific}$,二者相加后与输入表示相乘。下方标注"MESSA"及"参数空间"。 }
三列顶部统一标注公式$\tilde{\mathbf{Z}}^{(\ell)}=\mathcal{M}_{\theta}(\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R})$作为统一母式。每列使用与方法体系表一致的配色(表示空间青色调、参数空间橙色调)。} \label{fig:ch1_method_system}
\label{fig:ch1_modulation_forms}
\end{figure} \end{figure}
\begin{table}[h] \begin{table}[h]
\centering \centering
\caption{本文方法体系与结构异质性的对应关系。} \caption[本文方法体系与结构异质性的对应关系]{本文方法体系与结构异质性的对应关系。}
\label{tab:ch1_method_overview} \label{tab:ch1_method_overview}
\resizebox{0.95\linewidth}{!}{ \resizebox{0.95\linewidth}{!}{
\begin{tabular}{lllclc} \begin{tabular}{lllclc}
@@ -254,6 +254,14 @@
在此划分下,本文的方法体系沿着由表示空间到参数空间的路径递进展开:第三至第五章在表示空间中,从模块级功能差异出发,逐步深入到维度级位置结构的静态选择与动态调制;第六章则转向参数空间,从多尺度频谱结构与参数容量分配两个方面对适配机制进行建模。 在此划分下,本文的方法体系沿着由表示空间到参数空间的路径递进展开:第三至第五章在表示空间中,从模块级功能差异出发,逐步深入到维度级位置结构的静态选择与动态调制;第六章则转向参数空间,从多尺度频谱结构与参数容量分配两个方面对适配机制进行建模。
\begin{figure}[htbp]
\centering
\includegraphics[width=0.9\textwidth]{assets/研究内容.pdf}
\caption[本文方法体系的整体构成]{本文方法体系的整体构成。从表示流调制与参数更新组织两个研究视角出发,分别针对四类结构异质性(模块级功能异质性、维度级位置结构异质性、频谱级参数异质性、参数角色分配异质性)构建相应的适配方法,形成覆盖模块级、静态维度级、动态维度级、频谱参数级与结构参数级五个适配层级的递进式方法体系。
}
\label{fig:ch1_modulation_forms}
\end{figure}
综上,本文在统一的结构感知调制框架下,将模型适配刻画为在不同结构角色约束下对表示流与参数更新的非均匀调制过程,并据此形成由表示空间到参数空间逐层展开的方法体系。该框架为后续各章方法的设计与分析提供了统一的建模基础。 综上,本文在统一的结构感知调制框架下,将模型适配刻画为在不同结构角色约束下对表示流与参数更新的非均匀调制过程,并据此形成由表示空间到参数空间逐层展开的方法体系。该框架为后续各章方法的设计与分析提供了统一的建模基础。
\section{研究内容与技术路线} \section{研究内容与技术路线}
@@ -267,7 +275,7 @@
在统一形式化视角下,本文将模型适配理解为在结构角色描述符 $\mathcal{R}$ 约束下,对表示流与参数更新施加非均匀调制的过程。围绕这一建模思路,本文针对不同层级的结构异质性,设计相应形式的调制算子,并在表示空间与参数空间中形成相应的建模路径。本文的方法体系可概括为如下递进路径: 在统一形式化视角下,本文将模型适配理解为在结构角色描述符 $\mathcal{R}$ 约束下,对表示流与参数更新施加非均匀调制的过程。围绕这一建模思路,本文针对不同层级的结构异质性,设计相应形式的调制算子,并在表示空间与参数空间中形成相应的建模路径。本文的方法体系可概括为如下递进路径:
\begin{center} \begin{center}
模块级功能结构 $\rightarrow$ 维度级位置结构(静态 $\rightarrow$ 动态) $\rightarrow$ 参数空间结构(频谱 $\rightarrow$ 容量分配) 模块级功能结构 \\ $\downarrow$ \\维度级位置结构(静态 $\rightarrow$ 动态)\\ $\downarrow$ \\ 参数空间结构(频谱 $\rightarrow$ 容量分配)
\end{center} \end{center}
从适配作用对象的角度看,本文进一步将结构感知适配问题划分为表示空间与参数空间两个层面,并在不同结构层级上展开系统研究。其中: 从适配作用对象的角度看,本文进一步将结构感知适配问题划分为表示空间与参数空间两个层面,并在不同结构层级上展开系统研究。其中:
@@ -393,8 +401,8 @@
\begin{figure}[htbp] \begin{figure}[htbp]
\centering \centering
% 占位:待替换为外部绘制的 tech_route.pdf % 占位:待替换为外部绘制的 tech_route.pdf
% \includegraphics[width=0.9\textwidth]{tech_route.pdf} \includegraphics[width=0.9\textwidth]{assets/route.pdf}
\caption{本文整体技术路线示意图。该图采用自上而下的层级流程结构,共分为五层,见注释:} \caption[本文整体技术路线示意图]{本文整体技术路线示意图。}
% \textbf{第一层}(问题层)为全幅横条,标注"大语言模型内部多层级结构异质性",列出四类异质性——模块功能分化、维度位置结构差异、参数更新多尺度模式、容量分配需求不均匀。 % \textbf{第一层}(问题层)为全幅横条,标注"大语言模型内部多层级结构异质性",列出四类异质性——模块功能分化、维度位置结构差异、参数更新多尺度模式、容量分配需求不均匀。
% \textbf{第二层}(框架层)为全幅横条(蓝色调),标注"结构感知表征适配统一分析框架",包含统一调制算子公式$\tilde{\mathbf{Z}}^{(\ell)}=\mathcal{M}_{\theta}(\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R})$,列出四类描述符$\mathcal{R}_{\mathrm{mod}}$/$\mathcal{R}_{\mathrm{dim}}$/$\mathcal{R}_{\mathrm{spec}}$/$\mathcal{R}_{\mathrm{param}}$与三种调制形式。 % \textbf{第二层}(框架层)为全幅横条(蓝色调),标注"结构感知表征适配统一分析框架",包含统一调制算子公式$\tilde{\mathbf{Z}}^{(\ell)}=\mathcal{M}_{\theta}(\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R})$,列出四类描述符$\mathcal{R}_{\mathrm{mod}}$/$\mathcal{R}_{\mathrm{dim}}$/$\mathcal{R}_{\mathrm{spec}}$/$\mathcal{R}_{\mathrm{param}}$与三种调制形式。

View File

@@ -1,9 +1,10 @@
% !TeX root = ../main.tex % !TeX root = main.tex
% 第二章 大语言模型表征适配的相关理论与研究进展 % 第二章 大语言模型表征适配的相关理论与研究进展
\chapter{大语言模型表征适配的相关理论与研究进展} \chapter{大语言模型表征适配的相关理论与研究进展}
\label{chap:related_work} \label{chap:related_work}
本章围绕大语言模型的架构基础、参数高效适配方法、多任务学习机制以及结构异质性感知建模四个方面,对相关领域的研究进展进行系统梳理。第~\ref{sec:rw_llm_arch}~节介绍 Transformer 架构、旋转位置编码、预训练范式以及模型内部功能分化的研究基础;第~\ref{sec:rw_peft}~节综述参数高效微调方法的主要类别及其均匀适配局限;第~\ref{sec:rw_multitask}~节梳理多任务学习与模块级功能适配的相关工作;第~\ref{sec:rw_structure_aware}~节回顾围绕维度级异质性、频谱结构与参数容量分配的结构感知适配研究。上述梳理为第~\ref{sec:unified_framework}~节提出的统一分析框架以及后续各章方法设计提供文献基础与问题定位 本章围绕大语言模型的架构基础、参数高效适配方法、多任务学习机制以及结构异质性感知建模四个方面,对相关领域的研究进展进行系统梳理。第~\ref{sec:rw_llm_arch}~节介绍Transformer架构、旋转位置编码、预训练范式以及模型内部功能分化的研究基础第~\ref{sec:rw_peft}~节综述参数高效微调方法的主要类别及其适配局限;第~\ref{sec:rw_multitask}~节梳理多任务学习与模块级功能适配的相关工作;第~\ref{sec:rw_structure_aware}~节回顾围绕维度级异质性、频谱结构与参数容量分配的结构感知适配研究。上述梳理为第~\ref{sec:unified_framework}~节提出的统一分析框架以及后续各章方法提供理论基础
% 与问题定位。
%====================================================================== %======================================================================
@@ -36,7 +37,7 @@ Transformer 架构通过引入自注意力机制,实现了对序列内部全
\end{equation} \end{equation}
各头输出拼接后经线性投影得到 MHSA 最终输出。现代大语言模型还广泛采用分组查询注意力Grouped Query Attention, GQA以在保持模型容量的同时降低推理开销\cite{ainslie2023gqa} 各头输出拼接后经线性投影得到 MHSA 最终输出。现代大语言模型还广泛采用分组查询注意力Grouped Query Attention, GQA以在保持模型容量的同时降低推理开销\cite{ainslie2023gqa}
前馈网络模块通常采用门控线性单元Gated Linear Unit结构以 SwiGLU 为典型代表 前馈网络模块通常采用门控线性单元Gated Linear Unit结构以 SiLU 为典型:
\begin{equation} \begin{equation}
\mathrm{FFN}(\mathbf{x}) = (\mathrm{SiLU}(\mathbf{x}\mathbf{W}_1) \odot \mathbf{x}\mathbf{W}_3) \mathbf{W}_2, \mathrm{FFN}(\mathbf{x}) = (\mathrm{SiLU}(\mathbf{x}\mathbf{W}_1) \odot \mathbf{x}\mathbf{W}_3) \mathbf{W}_2,
\end{equation} \end{equation}
@@ -47,10 +48,11 @@ Transformer 架构通过引入自注意力机制,实现了对序列内部全
\begin{figure}[htbp] \begin{figure}[htbp]
\centering \centering
% 占位:待替换为外部绘制的 2_transformer_block.pdf % 占位:待替换为外部绘制的 2_transformer_block.pdf
% \includegraphics[width=0.75\textwidth]{assets/2_transformer_block.pdf} \includegraphics[width=0.9\textwidth]{assets/2_transformer_block.pdf}
\caption{基于Pre-LN结构的Transformer解码器块示意图。该图展示单个Transformer层的完整计算流程 \caption[基于Pre-LN结构的Transformer解码器块示意图]{基于Pre-LN结构的Transformer解码器块示意图。输入$\mathbf{H}^{(\ell-1)}$依次经LayerNorm、多头自注意力MHSAQuery/Key施加RoPE旋转、残差连接、LayerNorm、SwiGLU前馈网络FFN及残差连接输出$\mathbf{H}^{(\ell)}$。图中标注了本文关注的三类结构异质性MHSA与FFN的模块级功能分工$\mathcal{R}_{mod}$、MHSA内部RoPE维度对的频率差异$\mathcal{R}_{dim}$)、以及权重矩阵的参数更新结构($\mathcal{R}_{spec}$/$\mathcal{R}_{param}$)。}
输入隐藏状态$\mathbf{H}^{(\ell-1)}$首先经LayerNorm归一化进入多头自注意力MHSA模块其中Query/Key经RoPE旋转后计算带因果掩码的缩放点积注意力Value不经旋转直接参与加权聚合MHSA输出经残差连接后再经LayerNorm进入采用SwiGLU结构的前馈网络FFN模块最终经残差连接输出$\mathbf{H}^{(\ell)}$ % \caption[基于Pre-LN结构的Transformer解码器块示意图]{基于Pre-LN结构的Transformer解码器块示意图。该图展示单个Transformer层的完整计算流程
图中应标注以下结构异质性关注点1MHSA与FFN之间的功能分工上下文路由 vs 知识存储)标注为$\mathcal{R}_{mod}$2MHSA内部不同维度对的RoPE频率差异标注为$\mathcal{R}_{dim}$3权重矩阵$\mathbf{W}$上的参数更新结构标注为$\mathcal{R}_{spec}$/$\mathcal{R}_{param}$} % 输入隐藏状态$\mathbf{H}^{(\ell-1)}$首先经LayerNorm归一化进入多头自注意力MHSA模块其中Query/Key经RoPE旋转后计算带因果掩码的缩放点积注意力Value不经旋转直接参与加权聚合MHSA输出经残差连接后再经LayerNorm进入采用SwiGLU结构的前馈网络FFN模块最终经残差连接输出$\mathbf{H}^{(\ell)}$。
% 图中应标注以下结构异质性关注点1MHSA与FFN之间的功能分工上下文路由 vs 知识存储)标注为$\mathcal{R}_{mod}$2MHSA内部不同维度对的RoPE频率差异标注为$\mathcal{R}_{dim}$3权重矩阵$\mathbf{W}$上的参数更新结构标注为$\mathcal{R}_{spec}$/$\mathcal{R}_{param}$。}
\label{fig:ch2_transformer_block} \label{fig:ch2_transformer_block}
\end{figure} \end{figure}
@@ -82,11 +84,14 @@ RoPE 最显著的特性在于其呈现出一种频率分解结构frequency de
\begin{figure}[htbp] \begin{figure}[htbp]
\centering \centering
% 占位:待替换为外部绘制的 2_rope_frequency.pdf % 占位:待替换为外部绘制的 2_rope_frequency.pdf
% \includegraphics[width=0.85\textwidth]{assets/2_rope_frequency.pdf} \includegraphics[width=0.85\textwidth]{assets/2_rope_frequency.pdf}
\caption{RoPE旋转位置编码的频率分解结构示意图。该图分为三个子图 \caption[RoPE旋转位置编码的频率分解结构示意图]{RoPE旋转位置编码的频率分解结构示意图。\textbf{a}旋转频率$\theta_i$随维度对索引$i$几何递减,低索引对应高频(局部位置敏感),高索引
\textbf{a维度对旋转频率}:横轴为维度对索引$i$,纵轴为旋转频率$\theta_i = \omega^{-2i/d_h}$(对数刻度),展示频率随维度索引几何递减的趋势,标注低索引=高频(局部位置敏感)与高索引=低频(全局依赖)两个区域。 对应低频(全局依赖)。\textbf{b}不同维度对的注意力得分随相对位置距离的衰减曲线,高频维度对快速衰减,低频维度对缓慢衰减,体现多尺度位置感知特性。\textbf{c}高频与低频维度对在
\textbf{b位置响应衰减曲线}:横轴为相对位置距离$|t_1 - t_2|$纵轴为注意力得分贡献绘制3--4条代表性维度对的衰减曲线高频对快速衰减、低频对缓慢衰减直观展示不同维度对的多尺度位置感知特性。 复平面上的旋转轨迹对比,高频对旋转多圈,低频对仅旋转小角度。}
\textbf{c维度对旋转示意}:选取一个高频维度对和一个低频维度对,在复平面上展示位置$t$$0$$T$时向量旋转轨迹的差异——高频对旋转多圈、低频对仅旋转小角度。} % \caption[RoPE旋转位置编码的频率分解结构示意图]{RoPE旋转位置编码的频率分解结构示意图。该图分为三个子图
% \textbf{a维度对旋转频率}:横轴为维度对索引$i$,纵轴为旋转频率$\theta_i = \omega^{-2i/d_h}$(对数刻度),展示频率随维度索引几何递减的趋势,标注低索引=高频(局部位置敏感)与高索引=低频(全局依赖)两个区域。
% \textbf{b位置响应衰减曲线}:横轴为相对位置距离$|t_1 - t_2|$纵轴为注意力得分贡献绘制3--4条代表性维度对的衰减曲线高频对快速衰减、低频对缓慢衰减直观展示不同维度对的多尺度位置感知特性。
% \textbf{c维度对旋转示意}:选取一个高频维度对和一个低频维度对,在复平面上展示位置$t$从$0$到$T$时向量旋转轨迹的差异——高频对旋转多圈、低频对仅旋转小角度。}
\label{fig:ch2_rope_frequency} \label{fig:ch2_rope_frequency}
\end{figure} \end{figure}
@@ -94,7 +99,7 @@ RoPE 最显著的特性在于其呈现出一种频率分解结构frequency de
\subsection{预训练范式与大语言模型的表示能力} \subsection{预训练范式与大语言模型的表示能力}
\label{subsec:rw_pretrain_paradigm} \label{subsec:rw_pretrain_paradigm}
现代大语言模型遵循"海量预训练—任务适配/对齐"的基本范式。通过在包含数万亿词元的大规模语料上进行自回归下一词预测训练模型在统一的参数体系中构建具有较强表达能力的通用表示空间。BERT 通过掩码语言建模构建双向语境表示\cite{devlin2019bert}% 注需补充到ref.bib: devlin2019bert (Devlin et al., BERT, NAACL 2019) 现代大语言模型遵循"海量预训练—任务适配/对齐"的基本范式。通过在包含数万亿词元的大规模语料上进行自回归下一词预测训练模型在统一的参数体系中构建具有较强表达能力的通用表示空间。BERT 通过掩码语言建模构建双向语境表示\cite{devlin2018bert}% 注需补充到ref.bib: devlin2019bert (Devlin et al., BERT, NAACL 2019)
GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-context learning 能力\cite{brown2020language}。随着模型规模的持续扩展,以 LLaMA\cite{touvron2023llama}、Qwen\cite{bai2023qwen} 和 Gemma\cite{gemma_2025} 为代表的开源大语言模型在语言理解、知识表达、多步推理与代码生成方面展现出显著能力。 GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-context learning 能力\cite{brown2020language}。随着模型规模的持续扩展,以 LLaMA\cite{touvron2023llama}、Qwen\cite{bai2023qwen} 和 Gemma\cite{gemma_2025} 为代表的开源大语言模型在语言理解、知识表达、多步推理与代码生成方面展现出显著能力。
大规模预训练使模型在表示空间中形成了高度抽象的通用知识结构,各层中间表示不仅捕获了浅层的词法与句法信息,还蕴含了深层的语义共现、常识推理乃至高阶逻辑关系\cite{bommasani2021opportunities}。然而预训练能力强并不意味着可以直接替代任务适配预训练目标与下游任务目标并不完全一致面向特定领域、特定格式或特定推理模式的能力往往需要通过监督信号或偏好信号进行再组织更重要的是当模型规模达到百亿级别时全参数微调不仅面临极高的计算与存储开销还极易破坏预训练阶段积累的通用知识结构导致灾难性遗忘catastrophic forgetting与表征退化。 大规模预训练使模型在表示空间中形成了高度抽象的通用知识结构,各层中间表示不仅捕获了浅层的词法与句法信息,还蕴含了深层的语义共现、常识推理乃至高阶逻辑关系\cite{bommasani2021opportunities}。然而预训练能力强并不意味着可以直接替代任务适配预训练目标与下游任务目标并不完全一致面向特定领域、特定格式或特定推理模式的能力往往需要通过监督信号或偏好信号进行再组织更重要的是当模型规模达到百亿级别时全参数微调不仅面临极高的计算与存储开销还极易破坏预训练阶段积累的通用知识结构导致灾难性遗忘catastrophic forgetting与表征退化。
@@ -107,12 +112,12 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
越来越多的研究表明Transformer 并非功能均匀的整体,其内部不同组件在信息处理中承担着差异化的角色。这些发现构成了理解模型结构异质性的重要基础。 越来越多的研究表明Transformer 并非功能均匀的整体,其内部不同组件在信息处理中承担着差异化的角色。这些发现构成了理解模型结构异质性的重要基础。
\textbf{模块间的功能分化。}Geva 等人的开创性工作将前馈网络的两层线性映射解构为键值记忆结构第一层权重keys负责识别输入残差流中的局部概念模式第二层权重values则负责提取并注入与该模式相关的特征\cite{geva2021transformer}。Dong 等人从注意力与前馈网络的协同角度出发,揭示了二者在上下文信息路由与知识存储方面的互补关系\cite{dong2025attention}。Bogoychev 等人的参数冻结与消融实验进一步证实,冻结不同网络结构单元(嵌入层、注意力层或 FFN 层)会对模型性能造成完全不同程度的影响,从侧面说明"并非所有参数对任务贡献均等"\cite{}% 注需补充到ref.bib: bogoychev2021not (Bogoychev, Not All Parameters Are Born Equal: Attention Is Mostly What You Need, BlackboxNLP 2021) \textbf{模块间的功能分化。}Geva 等人的开创性工作将前馈网络的两层线性映射解构为键值记忆结构第一层权重keys负责识别输入残差流中的局部概念模式第二层权重values则负责提取并注入与该模式相关的特征\cite{geva2021transformer}。Dong 等人从注意力与前馈网络的协同角度出发,揭示了二者在上下文信息路由与知识存储方面的互补关系\cite{dong2025attention}。Bogoychev 等人的参数冻结与消融实验进一步证实,冻结不同网络结构单元(嵌入层、注意力层或 FFN 层)会对模型性能造成完全不同程度的影响,从侧面说明"并非所有参数对任务贡献均等"\cite{bogoychev2021not}% 注需补充到ref.bib: bogoychev2021not (Bogoychev, Not All Parameters Are Born Equal: Attention Is Mostly What You Need, BlackboxNLP 2021)
这些发现表明,自注意力模块主要承担上下文关系的动态组织与信息路由功能,而前馈网络更多承担参数化知识表达与非线性映射功能。 这些发现表明,自注意力模块主要承担上下文关系的动态组织与信息路由功能,而前馈网络更多承担参数化知识表达与非线性映射功能。
\textbf{层间的角色梯度。}Belinkov 等人通过探针probing实验表明浅层表示更多编码词汇与句法层面的局部信息深层表示则更多反映语义与推理层面的全局关系呈现出类似传统 NLP 流水线的层级进展\cite{belinkov2018evaluating}。这种层级功能梯度意味着不同深度的层对参数更新的需求强度与方式可能存在系统性差异——浅层可能更多需要局部模式的校准,深层可能更多需要语义关系的重组。 \textbf{层间的角色梯度。}Belinkov 等人通过探针probing实验表明浅层表示更多编码词汇与句法层面的局部信息深层表示则更多反映语义与推理层面的全局关系呈现出类似传统 NLP 流水线的层级进展\cite{belinkov2018evaluating}。这种层级功能梯度意味着不同深度的层对参数更新的需求强度与方式可能存在系统性差异——浅层可能更多需要局部模式的校准,深层可能更多需要语义关系的重组。
\textbf{头间的功能差异。}在多头注意力层面Voita 等人发现不同注意力头在功能上存在明确分工,包括位置敏感头、语法关系头与稀有词汇头等不同类型\cite{voita2019bottom}Michel 等人的剪枝实验进一步表明,大量注意力头在推理阶段可被移除而不显著影响模型性能,暗示头之间存在功能冗余与角色差异\cite{michel2019sixteen}。在更深入的机制可解释性mechanistic interpretability研究中Olsson 等人识别出与 in-context learning 能力增长密切相关的 induction heads表明部分注意力头可被归纳为具有明确算法功能的"电路"circuits组件\cite{}% 注需补充到ref.bib: olsson2022context (Olsson et al., In-context Learning and Induction Heads, Anthropic 2022) \textbf{头间的功能差异。}在多头注意力层面Voita 等人发现不同注意力头在功能上存在明确分工,包括位置敏感头、语法关系头与稀有词汇头等不同类型\cite{voita2019bottom}Michel 等人的剪枝实验进一步表明,大量注意力头在推理阶段可被移除而不显著影响模型性能,暗示头之间存在功能冗余与角色差异\cite{michel2019sixteen}。在更深入的机制可解释性mechanistic interpretability研究中Olsson 等人识别出与 in-context learning 能力增长密切相关的 induction heads表明部分注意力头可被归纳为具有明确算法功能的"电路"circuits组件\cite{olsson2022context}% 注需补充到ref.bib: olsson2022context (Olsson et al., In-context Learning and Induction Heads, Anthropic 2022)
这些发现强化了"模型内部存在可分解子结构与角色分工"的认识。 这些发现强化了"模型内部存在可分解子结构与角色分工"的认识。
\textbf{维度间的非均匀分布。}Jin 等人发现的"极端激活值"Massive Activations现象表明少数特定维度在模型前向计算中产生远超其他维度的激活幅值且这些维度承担着上下文信息编码的关键功能\cite{jin2025massive}。这些极端激活并非简单的数值异常,而是与注意力集中、量化稳定性乃至预测行为存在因果关联。结合第~\ref{subsec:rw_rope}~节所述 RoPE 位置编码引入的频率结构,模型表示在维度空间中呈现出系统性的结构分化。 \textbf{维度间的非均匀分布。}Jin 等人发现的"极端激活值"Massive Activations现象表明少数特定维度在模型前向计算中产生远超其他维度的激活幅值且这些维度承担着上下文信息编码的关键功能\cite{jin2025massive}。这些极端激活并非简单的数值异常,而是与注意力集中、量化稳定性乃至预测行为存在因果关联。结合第~\ref{subsec:rw_rope}~节所述 RoPE 位置编码引入的频率结构,模型表示在维度空间中呈现出系统性的结构分化。
@@ -140,7 +145,7 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
\end{equation} \end{equation}
其中 $\mathbf{A}$ 采用随机高斯初始化,$\mathbf{B}$ 采用零初始化以保证训练起始时不改变预训练行为。在推理阶段,低秩增量可以直接被重新参数化合并回原始权重矩阵,不引入任何额外推理延迟。 其中 $\mathbf{A}$ 采用随机高斯初始化,$\mathbf{B}$ 采用零初始化以保证训练起始时不改变预训练行为。在推理阶段,低秩增量可以直接被重新参数化合并回原始权重矩阵,不引入任何额外推理延迟。
在 LoRA 基础上后续工作沿多个方向展开改进。在参数化与训练特性改进方面DoRA 将权重更新进一步分解为方向direction与幅度magnitude两个分量分别进行优化以更好地模拟全参数微调的学习行为\cite{liu2024dora}。在预算分配方面AdaLoRA 引入基于奇异值分解的重要性评估机制,在训练过程中动态分配各权重矩阵的秩,使模型自动为重要层级分配更高秩预算\cite{zhang2023adalora}。在参数规模进一步压缩方面VeRA 通过在不同模块间共享冻结的随机矩阵,仅学习逐层的缩放向量,将微调参数量压缩至极致\cite{kopiczko2023vera}QLoRA 则通过4-bit量化底座权重并在其上训练 LoRA使大模型在更低显存条件下可被高质量微调\cite{}% 注需补充到ref.bib: dettmers2023qlora (Dettmers et al., QLoRA, NeurIPS 2023) 在 LoRA 基础上后续工作沿多个方向展开改进。在参数化与训练特性改进方面DoRA 将权重更新进一步分解为方向direction与幅度magnitude两个分量分别进行优化以更好地模拟全参数微调的学习行为\cite{liu2024dora}。在预算分配方面AdaLoRA 引入基于奇异值分解的重要性评估机制,在训练过程中动态分配各权重矩阵的秩,使模型自动为重要层级分配更高秩预算\cite{zhang2023adalora}。在参数规模进一步压缩方面VeRA 通过在不同模块间共享冻结的随机矩阵,仅学习逐层的缩放向量,将微调参数量压缩至极致\cite{kopiczko2023vera}QLoRA 则通过4-bit量化底座权重并在其上训练 LoRA使大模型在更低显存条件下可被高质量微调\cite{dettmers2023qlora}% 注需补充到ref.bib: dettmers2023qlora (Dettmers et al., QLoRA, NeurIPS 2023)
低秩适配方法在参数效率方面表现优异,已成为当前最广泛使用的 PEFT 技术路径。然而,其标准实践通常在所有目标层的投影矩阵上施加相同秩约束,隐含假设模型不同层与不同模块在适配中的角色近似。即使 AdaLoRA 开始引入预算再分配,其建模对象也主要是矩阵重要性,而非更一般的结构角色异质性。因此,低秩适配在成本控制上极具优势,却仍保留了相对均匀的适配假设。 低秩适配方法在参数效率方面表现优异,已成为当前最广泛使用的 PEFT 技术路径。然而,其标准实践通常在所有目标层的投影矩阵上施加相同秩约束,隐含假设模型不同层与不同模块在适配中的角色近似。即使 AdaLoRA 开始引入预算再分配,其建模对象也主要是矩阵重要性,而非更一般的结构角色异质性。因此,低秩适配在成本控制上极具优势,却仍保留了相对均匀的适配假设。
@@ -150,7 +155,7 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
附加式方法通过在模型内部插入轻量结构引入任务信息而不修改原有权重。Adapter 在 Transformer 层间插入小型瓶颈网络,通过降维—非线性激活—升维结构实现表示调整\cite{houlsby2019parameter}。这种设计有效地阻断了误差梯度向预训练底座的传导在多任务环境中按任务维护独立参数块。Compacter 进一步采用超复数乘法实现跨层参数共享,在降低参数量的同时保持表达能力\cite{karimi2021compacter} 附加式方法通过在模型内部插入轻量结构引入任务信息而不修改原有权重。Adapter 在 Transformer 层间插入小型瓶颈网络,通过降维—非线性激活—升维结构实现表示调整\cite{houlsby2019parameter}。这种设计有效地阻断了误差梯度向预训练底座的传导在多任务环境中按任务维护独立参数块。Compacter 进一步采用超复数乘法实现跨层参数共享,在降低参数量的同时保持表达能力\cite{karimi2021compacter}
提示类方法则通过在输入或中间表示层引入额外可学习信号引导模型调用已有知识结构。前缀微调Prefix-tuning在每层注意力计算的 Key 和 Value 前追加可学习的连续向量,使其充当"虚拟历史上下文",从而隐式地调制模型对后续序列的注意力分布\cite{li2021prefix}提示微调Prompt-tuning在嵌入层面引入可训练软提示向量\cite{lester2021power}P-Tuning v2 将可学习提示扩展到多层并系统改进优化策略,使提示类方法在更广泛的模型规模与任务类型上接近全参数微调效果\cite{}% 注需补充到ref.bib: liu2022ptuningv2 (Liu et al., P-Tuning v2, ACL 2022) 提示类方法则通过在输入或中间表示层引入额外可学习信号引导模型调用已有知识结构。前缀微调Prefix-tuning在每层注意力计算的 Key 和 Value 前追加可学习的连续向量,使其充当"虚拟历史上下文",从而隐式地调制模型对后续序列的注意力分布\cite{li2021prefix}提示微调Prompt-tuning在嵌入层面引入可训练软提示向量\cite{lester2021power}P-Tuning v2 将可学习提示扩展到多层并系统改进优化策略,使提示类方法在更广泛的模型规模与任务类型上接近全参数微调效果\cite{liu2022p}% 注需补充到ref.bib: liu2022ptuningv2 (Liu et al., P-Tuning v2, ACL 2022)
此外,激活调制类方法提供了另一种视角。(IA)$^3$ 通过训练少量缩放向量对注意力与 FFN 内部的关键激活进行抑制或放大,以极低参数量实现多任务适配\cite{liu2022few}。这类方法在形式上已更接近"对表示流进行乘性调制"的思想,为后续结构角色驱动的调制式框架提供了研究线索。 此外,激活调制类方法提供了另一种视角。(IA)$^3$ 通过训练少量缩放向量对注意力与 FFN 内部的关键激活进行抑制或放大,以极低参数量实现多任务适配\cite{liu2022few}。这类方法在形式上已更接近"对表示流进行乘性调制"的思想,为后续结构角色驱动的调制式框架提供了研究线索。
@@ -174,21 +179,21 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
综合上述三类方法,可以从适配机制、结构假设以及与后续章节的衔接关系等维度对现有适配方法进行系统比较,如表~\ref{tab:ch2_method_comparison}~所示。 综合上述三类方法,可以从适配机制、结构假设以及与后续章节的衔接关系等维度对现有适配方法进行系统比较,如表~\ref{tab:ch2_method_comparison}~所示。
\begin{figure}[htbp] % \begin{figure}[htbp]
\centering % \centering
% 占位:待替换为外部绘制的 2_peft_taxonomy.pdf % % 占位:待替换为外部绘制的 2_peft_taxonomy.pdf
% \includegraphics[width=0.88\textwidth]{assets/2_peft_taxonomy.pdf} % % \includegraphics[width=0.88\textwidth]{assets/2_peft_taxonomy.pdf}
\caption{参数高效适配方法的谱系结构与本文方法定位。该图采用树形或层级分类布局: % \caption[参数高效适配方法的谱系结构与本文方法定位]{参数高效适配方法的谱系结构与本文方法定位。该图采用树形或层级分类布局:
\textbf{第一层}按适配对象分为三大类——"参数更新结构"(低秩、稀疏)、"附加模块"Adapter、前缀/提示)、"表示调制"(激活缩放、门控调制)。 % \textbf{第一层}按适配对象分为三大类——"参数更新结构"(低秩、稀疏)、"附加模块"Adapter、前缀/提示)、"表示调制"(激活缩放、门控调制)。
\textbf{第二层}在每个大类下列出代表性方法低秩类LoRA、DoRA、AdaLoRA、稀疏类BitFit、SHiRA、运动剪枝、附加类Adapter、Prefix-Tuning、Prompt Tuning、调制类(IA)$^3$)。 % \textbf{第二层}在每个大类下列出代表性方法低秩类LoRA、DoRA、AdaLoRA、稀疏类BitFit、SHiRA、运动剪枝、附加类Adapter、Prefix-Tuning、Prompt Tuning、调制类(IA)$^3$)。
\textbf{第三层}用虚线框或高亮标注本文五个方法HyCAM、RoSA、DyPAM、CASCADE、MESSA的定位并用箭头标注其相对于现有方法的创新方向——从"均匀适配"指向"结构感知适配"。 % \textbf{第三层}用虚线框或高亮标注本文五个方法HyCAM、RoSA、DyPAM、CASCADE、MESSA的定位并用箭头标注其相对于现有方法的创新方向——从"均匀适配"指向"结构感知适配"。
右侧用渐变色条标注"结构感知程度"从弱到强的演进趋势。} % 右侧用渐变色条标注"结构感知程度"从弱到强的演进趋势。}
\label{fig:ch2_peft_taxonomy} % \label{fig:ch2_peft_taxonomy}
\end{figure} % \end{figure}
\begin{table}[htbp] \begin{table}[htbp]
\centering \centering
\caption{现有参数高效适配方法的谱系比较与后续章节衔接} \caption[现有参数高效适配方法的谱系比较与后续章节衔接]{现有参数高效适配方法的谱系比较与后续章节衔接}
\label{tab:ch2_method_comparison} \label{tab:ch2_method_comparison}
\renewcommand{\arraystretch}{1.15} \renewcommand{\arraystretch}{1.15}
\small \small
@@ -223,9 +228,9 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
\label{subsec:rw_multitask_gradient} \label{subsec:rw_multitask_gradient}
多任务学习通过在统一模型中同时优化多个相关目标,利用任务间的知识共享提升整体建模性能\cite{caruana1997multitask}% 注需补充到ref.bib: caruana1997multitask (Caruana, Multitask Learning, Machine Learning 1997) 多任务学习通过在统一模型中同时优化多个相关目标,利用任务间的知识共享提升整体建模性能\cite{caruana1997multitask}% 注需补充到ref.bib: caruana1997multitask (Caruana, Multitask Learning, Machine Learning 1997)
然而,多任务学习面临的核心困难在于梯度冲突与负迁移:不同任务的梯度在共享参数空间中可能指向相互对立的方向,导致优化过程中一个任务的改进以另一个任务的退化为代价,形成所谓的"跷跷板"seesaw现象。 然而,多任务学习面临的核心困难在于梯度冲突与负迁移:不同任务的梯度在共享参数空间中可能指向相互对立的方向,导致优化过程中一个任务的改进以另一个任务的退化为代价,形成所谓的"跷跷板"现象。
针对梯度冲突问题文献中涌现了一系列梯度干预方法。PCGrad 在检测到两个任务梯度向量夹角大于 $90^\circ$ 时,将冲突梯度投影到对方法平面上以消除破坏性分量\cite{yu2020gradient}CAGrad 将多任务冲突消解转化为带约束的极小极大优化问题,在邻域搜索空间内寻找使所有任务平均损失严格下降的更新方向\cite{liu2021conflict}GradNorm 通过动态调节各任务损失权重以平衡梯度幅度与训练速度\cite{}% 注需补充到ref.bib: chen2018gradnorm (Chen et al., GradNorm, ICML 2018) 针对梯度冲突问题文献中涌现了一系列梯度干预方法。PCGrad 在检测到两个任务梯度向量夹角大于 $90^\circ$ 时,将冲突梯度投影到对方法平面上以消除破坏性分量\cite{yu2020gradient}CAGrad 将多任务冲突消解转化为带约束的极小极大优化问题,在邻域搜索空间内寻找使所有任务平均损失严格下降的更新方向\cite{liu2021conflict}GradNorm 通过动态调节各任务损失权重以平衡梯度幅度与训练速度\cite{chen2018gradnorm}% 注需补充到ref.bib: chen2018gradnorm (Chen et al., GradNorm, ICML 2018)
这些方法从优化层面缓解了任务间冲突,但并未从模型架构层面解决"哪些模块应当共享、哪些应当专用"的问题。 这些方法从优化层面缓解了任务间冲突,但并未从模型架构层面解决"哪些模块应当共享、哪些应当专用"的问题。
从模型内部结构来看,不同任务在模型中的激活模式往往存在系统性差异。注意力模块更多承担跨位置的上下文关联建模,而前馈网络更多负责知识表达与非线性映射\cite{standley2020tasks}。这种模块级的功能分工在均匀的参数共享策略下难以被有效利用,容易导致负迁移与知识干扰。因此,多任务场景的关键矛盾并非简单的"共享越多越好"或"隔离越多越好",而是在共享知识与任务特化之间需要结构层面的平衡机制。 从模型内部结构来看,不同任务在模型中的激活模式往往存在系统性差异。注意力模块更多承担跨位置的上下文关联建模,而前馈网络更多负责知识表达与非线性映射\cite{standley2020tasks}。这种模块级的功能分工在均匀的参数共享策略下难以被有效利用,容易导致负迁移与知识干扰。因此,多任务场景的关键矛盾并非简单的"共享越多越好"或"隔离越多越好",而是在共享知识与任务特化之间需要结构层面的平衡机制。
@@ -271,7 +276,7 @@ MoE 架构揭示了"动态路由"与"模块功能分化"在应对输入异质性
基于 Transformer 的大语言模型普遍存在表示各向异性anisotropy现象——隐藏层的激活值分布呈现显著的非均匀性少数维度占据压倒性的方差比例\cite{jin2025massive}。进一步研究表明,这种各向异性并非训练偶发伪影,而是自注意力机制的内生特性\cite{godey2024anisotropy}% 注需补充到ref.bib: godey2024anisotropy (Godey et al., Anisotropy Is Inherent to Self-Attention, EACL 2024) 基于 Transformer 的大语言模型普遍存在表示各向异性anisotropy现象——隐藏层的激活值分布呈现显著的非均匀性少数维度占据压倒性的方差比例\cite{jin2025massive}。进一步研究表明,这种各向异性并非训练偶发伪影,而是自注意力机制的内生特性\cite{godey2024anisotropy}% 注需补充到ref.bib: godey2024anisotropy (Godey et al., Anisotropy Is Inherent to Self-Attention, EACL 2024)
RoPE 的频率结构为表示空间引入了额外的维度级异质性。由于不同维度对被赋予不同频率的旋转角度,系统中的低频(高索引)维度承担着跨越较大序列跨度的长程语义获取功能——这些维度旋转周期长、角度变化缓慢,在深层网络中往往产生更密集且幅值更高的激活;而高频(低索引)维度由于剧烈旋转,更敏感于局部近距离的词元交互\cite{su2024roformer,barbero2024round}。有研究通过干预实验发现,在推理阶段屏蔽部分极高频维度特征对模型困惑度几乎无负面影响,甚至在长序列外推上有所提升;但一旦破坏关键低频维度,则直接引发性能崩溃\cite{}% 注需补充到ref.bib: gu2025unpacking (Gu et al., Unpacking Positional Encoding in Transformers: A Spectral Perspective, arXiv 2025) RoPE 的频率结构为表示空间引入了额外的维度级异质性。由于不同维度对被赋予不同频率的旋转角度,系统中的低频(高索引)维度承担着跨越较大序列跨度的长程语义获取功能——这些维度旋转周期长、角度变化缓慢,在深层网络中往往产生更密集且幅值更高的激活;而高频(低索引)维度由于剧烈旋转,更敏感于局部近距离的词元交互\cite{su2024roformer,barbero2024round}。有研究通过干预实验发现,在推理阶段屏蔽部分极高频维度特征对模型困惑度几乎无负面影响,甚至在长序列外推上有所提升;但一旦破坏关键低频维度,则直接引发性能崩溃\cite{gu2025unpacking}% 注需补充到ref.bib: gu2025unpacking (Gu et al., Unpacking Positional Encoding in Transformers: A Spectral Perspective, arXiv 2025)
这一不对称性有力地说明不同维度对在功能上的重要性存在质的差异。 这一不对称性有力地说明不同维度对在功能上的重要性存在质的差异。
值得注意的是,这种维度级异质性在 Query/Key 表示中表现显著,而在 Value 表示中则弱得多——这与 RoPE 仅对 Query 和 Key 施加位置旋转的设计一致。同时,不同注意力头和不同层在激活分布上也呈现出差异化模式\cite{voita2019bottom},且激活模式还表现出对输入内容的依赖性:同一频率的特征维度在面对不同类型指令、不同领域分布或不同语义角色的输入时,其激活波峰与频率响应会产生显著波动。 值得注意的是,这种维度级异质性在 Query/Key 表示中表现显著,而在 Value 表示中则弱得多——这与 RoPE 仅对 Query 和 Key 施加位置旋转的设计一致。同时,不同注意力头和不同层在激活分布上也呈现出差异化模式\cite{voita2019bottom},且激活模式还表现出对输入内容的依赖性:同一频率的特征维度在面对不同类型指令、不同领域分布或不同语义角色的输入时,其激活波峰与频率响应会产生显著波动。
@@ -297,31 +302,31 @@ RoPE 的频率结构为表示空间引入了额外的维度级异质性。由于
当模型需要在多个异构任务间分配有限的可训练参数时,如何在容量约束下实现高效适配,本质上转化为一个结构学习问题。 当模型需要在多个异构任务间分配有限的可训练参数时,如何在容量约束下实现高效适配,本质上转化为一个结构学习问题。
在更广泛的神经网络结构学习文献中神经架构搜索NAS提供了自动化的结构设计路径。DARTS 通过将离散的架构选择松弛为连续优化问题,实现了可微分的架构搜索\cite{liu2019darts}% 注需补充到ref.bib: liu2019darts (Liu et al., DARTS, ICLR 2019) 在更广泛的神经网络结构学习文献中神经架构搜索NAS提供了自动化的结构设计路径。DARTS 通过将离散的架构选择松弛为连续优化问题,实现了可微分的架构搜索\cite{liu2018darts}% 注需补充到ref.bib: liu2019darts (Liu et al., DARTS, ICLR 2019)
其核心思想——将离散结构决策转化为连续松弛后通过梯度优化求解——对后续参数高效适配中的结构学习具有方法论启示。 其核心思想——将离散结构决策转化为连续松弛后通过梯度优化求解——对后续参数高效适配中的结构学习具有方法论启示。
在模型压缩方面彩票假说Lottery Ticket Hypothesis指出在密集网络中存在稀疏子网络能够达到甚至超越完整网络的性能\cite{frankle2019lottery}% 注需补充到ref.bib: frankle2019lottery (Frankle & Carlin, Lottery Ticket Hypothesis, ICLR 2019) 在模型压缩方面彩票假说Lottery Ticket Hypothesis指出在密集网络中存在稀疏子网络能够达到甚至超越完整网络的性能\cite{frankle2019stabilizing}% 注需补充到ref.bib: frankle2019lottery (Frankle & Carlin, Lottery Ticket Hypothesis, ICLR 2019)
这一发现表明模型参数空间中存在结构化的功能分布,有效容量可能集中在某些子结构上。在大语言模型场景下,运动剪枝通过训练过程中的参数重要性评估实现结构化稀疏\cite{sanh2020movement}SHiRA 则表明高秩稀疏更新在相同预算下可获得强于低秩稠密更新的表达能力\cite{shiracite} 这一发现表明模型参数空间中存在结构化的功能分布,有效容量可能集中在某些子结构上。在大语言模型场景下,运动剪枝通过训练过程中的参数重要性评估实现结构化稀疏\cite{sanh2020movement}SHiRA 则表明高秩稀疏更新在相同预算下可获得强于低秩稠密更新的表达能力\cite{shiracite}
从更一般的视角看,参数高效适配本身也是一种"预算约束下的结构化容量分配"。AdaLoRA 通过在层/矩阵间非均匀分配低秩预算,已将"容量分配"显式化\cite{zhang2023adalora}LISA 通过层重要性采样与大量层冻结,在不增加额外模块的前提下实现"跨层容量重分布"\cite{pan2024lisa}。在多任务共享方面任务向量task vectors与任务算术task arithmetic提出在权重空间用"微调差分向量"表征任务能力,并通过向量加减实现能力组合与编辑,为"共享—特有"的参数分解提供了另一类视角\cite{}% 注需补充到ref.bib: ilharco2023editing (Ilharco et al., Editing Models with Task Arithmetic, ICLR 2023) 从更一般的视角看,参数高效适配本身也是一种"预算约束下的结构化容量分配"。AdaLoRA 通过在层/矩阵间非均匀分配低秩预算,已将"容量分配"显式化\cite{zhang2023adalora}LISA 通过层重要性采样与大量层冻结,在不增加额外模块的前提下实现"跨层容量重分布"\cite{pan2024lisa}。在多任务共享方面任务向量task vectors与任务算术task arithmetic提出在权重空间用"微调差分向量"表征任务能力,并通过向量加减实现能力组合与编辑,为"共享—特有"的参数分解提供了另一类视角\cite{ilharco2022editing}% 注需补充到ref.bib: ilharco2023editing (Ilharco et al., Editing Models with Task Arithmetic, ICLR 2023)
然而,当问题推进到多任务条件下,复杂度进一步提升。此时不仅要回答"哪些参数值得更新",还要回答"哪些更新应由所有任务共享,哪些应保留为任务特有"。现有方法多依赖预先设定的共享规则或简单的任务标识路由,缺乏能够在统一预算约束下同时学习共享结构与特有结构的系统化机制。如何将结构发现从"给定结构下的参数学习"提升为"结构与参数的联合优化",仍是当前多任务适配研究中的开放问题。 然而,当问题推进到多任务条件下,复杂度进一步提升。此时不仅要回答"哪些参数值得更新",还要回答"哪些更新应由所有任务共享,哪些应保留为任务特有"。现有方法多依赖预先设定的共享规则或简单的任务标识路由,缺乏能够在统一预算约束下同时学习共享结构与特有结构的系统化机制。如何将结构发现从"给定结构下的参数学习"提升为"结构与参数的联合优化",仍是当前多任务适配研究中的开放问题。
\begin{figure}[htbp] % \begin{figure}[htbp]
\centering % \centering
% 占位:待替换为外部绘制的 2_heterogeneity_levels.pdf % % 占位:待替换为外部绘制的 2_heterogeneity_levels.pdf
% \includegraphics[width=0.9\textwidth]{assets/2_heterogeneity_levels.pdf} % % \includegraphics[width=0.9\textwidth]{assets/2_heterogeneity_levels.pdf}
\caption{大语言模型内部多层级结构异质性的表现与适配对应关系。该图采用左右两栏布局: % \caption[大语言模型内部多层级结构异质性的表现与适配对应关系]{大语言模型内部多层级结构异质性的表现与适配对应关系。该图采用左右两栏布局:
\textbf{左栏}(结构异质性层级)自上而下展示四个层级的异质性现象,每层配一个小型示意: % \textbf{左栏}(结构异质性层级)自上而下展示四个层级的异质性现象,每层配一个小型示意:
1模块级$\mathcal{R}_{mod}$MHSA与FFN功能分工示意上下文路由 vs 知识存储),用不同色块标注; % 1模块级$\mathcal{R}_{mod}$MHSA与FFN功能分工示意上下文路由 vs 知识存储),用不同色块标注;
2维度级$\mathcal{R}_{dim}$RoPE不同维度对的激活强度热图高频维度弱激活、低频维度强激活 % 2维度级$\mathcal{R}_{dim}$RoPE不同维度对的激活强度热图高频维度弱激活、低频维度强激活
3频谱级$\mathcal{R}_{spec}$):权重更新矩阵的频谱分解示意(低频全局平滑 + 高频局部修正); % 3频谱级$\mathcal{R}_{spec}$):权重更新矩阵的频谱分解示意(低频全局平滑 + 高频局部修正);
4参数级$\mathcal{R}_{param}$):多任务参数分配示意(冻结/共享/专用三种状态的参数组)。 % 4参数级$\mathcal{R}_{param}$):多任务参数分配示意(冻结/共享/专用三种状态的参数组)。
\textbf{右栏}(对应适配方法)与左栏四个层级一一对齐,标注本文对应的方法名、调制形式与章节: % \textbf{右栏}(对应适配方法)与左栏四个层级一一对齐,标注本文对应的方法名、调制形式与章节:
HyCAM乘性Ch3、RoSA$\to$DyPAM乘性Ch4$\to$Ch5、CASCADE组合式Ch6、MESSA结构分解Ch6 % HyCAM乘性Ch3、RoSA$\to$DyPAM乘性Ch4$\to$Ch5、CASCADE组合式Ch6、MESSA结构分解Ch6
左右栏之间用虚线箭头连接,表示"结构异质性$\to$结构感知适配"的映射关系。} % 左右栏之间用虚线箭头连接,表示"结构异质性$\to$结构感知适配"的映射关系。}
\label{fig:ch2_heterogeneity_levels} % \label{fig:ch2_heterogeneity_levels}
\end{figure} % \end{figure}
%====================================================================== %======================================================================

View File

@@ -1,3 +1,4 @@
% !TeX root = main.tex
% 第三章 基于模块功能角色感知的多任务表征适配方法 % 第三章 基于模块功能角色感知的多任务表征适配方法
\chapter{基于模块功能角色感知的多任务表征适配方法} \chapter{基于模块功能角色感知的多任务表征适配方法}
\label{chap:hycam} \label{chap:hycam}
@@ -82,7 +83,7 @@
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.82\linewidth]{assets/3_model.pdf} \includegraphics[width=0.82\linewidth]{assets/3_model.pdf}
\caption{基于模块功能角色感知的多任务表征适配总体框架示意图。} \caption[基于模块功能角色感知的多任务表征适配总体框架示意图]{基于模块功能角色感知的多任务表征适配总体框架示意图。}
\label{fig:ch3_framework} \label{fig:ch3_framework}
\end{figure} \end{figure}
@@ -458,7 +459,7 @@ y_{i,t}
\RestyleAlgo{ruled} \RestyleAlgo{ruled}
\begin{algorithm}[htp] \begin{algorithm}[htp]
\caption{HyCAM 多任务训练算法} \caption[HyCAM 多任务训练算法]{HyCAM 多任务训练算法}
\label{alg:ch3_hycam} \label{alg:ch3_hycam}
\KwIn{预训练大语言模型参数 $\Theta_0$,多任务训练集 $\mathcal{D}$,专用模块数 $N_s$Gumbel-Softmax 温度 $\tau$,负载均衡系数 $\lambda_{balance}$,学习率 $\eta$} \KwIn{预训练大语言模型参数 $\Theta_0$,多任务训练集 $\mathcal{D}$,专用模块数 $N_s$Gumbel-Softmax 温度 $\tau$,负载均衡系数 $\lambda_{balance}$,学习率 $\eta$}
冻结骨干模型参数 $\Theta_0$\; 冻结骨干模型参数 $\Theta_0$\;
@@ -510,22 +511,22 @@ y_{i,t}
具体数据统计可整理如表~\ref{tab:ch3_dataset_stat} 所示。训练、验证与测试采用 $7:2:1$ 划分,并进行五折交叉验证以增强结果稳定性。实验骨干模型覆盖多个主流开源大语言模型系列,包括 Llama、Mistral 与 Qwen 家族,从而考察方法的跨模型泛化性。 具体数据统计可整理如表~\ref{tab:ch3_dataset_stat} 所示。训练、验证与测试采用 $7:2:1$ 划分,并进行五折交叉验证以增强结果稳定性。实验骨干模型覆盖多个主流开源大语言模型系列,包括 Llama、Mistral 与 Qwen 家族,从而考察方法的跨模型泛化性。
\begin{table*}[ht] \begin{table*}[ht]
\centering \centering
\caption{多任务基准数据统计。} \caption[多任务基准数据统计]{多任务基准数据统计。}
\label{tab:ch3_dataset_stat} \label{tab:ch3_dataset_stat}
\resizebox{0.88\linewidth}{!}{
\begin{tabular}{lccccc} \begin{tabular}{lccccc}
\toprule \toprule
数据集 & 样本数 & 总 Token 数 & 平均 Token 数 & 任务属性 & 数据来源 \\ 数据集 & 样本数 & 总 Token 数 & 平均 Token 数 & 任务属性 & 数据来源 \\
\midrule \midrule
Auto CoT & 5,816 & 943,474 & 162.22 & 推理与复杂逻辑 & \cite{zhang2023automatic} \\ Auto CoT & 5,816 & 943,474 & 162.22 & 推理与复杂逻辑 & \cite{zhang2023automatic} \\
iCliniq & 7,321 & 1,826,306 & 249.46 & 医疗问答 & \cite{li2023chatdoctor} \\ iCliniq & 7,321 & 1,826,306 & 249.46 & 医疗问答 & \cite{li2023chatdoctor} \\
Dolly 2.0 & 15,015 & 3,061,007 & 203.86 & 通用指令与问答 & \cite{DatabricksBlog2023DollyV2} \\ Dolly 2.0 & 15,015 & 3,061,007 & 203.86 & 通用指令与问答 & \cite{DatabricksBlog2023DollyV2} \\
CodeAlpaca & 20,222 & 2,195,523 & 109.66 & 代码生成 & \cite{codealpaca} \\ CodeAlpaca & 20,222 & 2,195,523 & 109.66 & 代码生成 & \cite{codealpaca} \\
WebGPT & 18,994 & 13,988,895 & 736.49 & 检索增强问答 & \cite{nakano2021webgpt} \\ WebGPT & 18,994 & 13,988,895 & 736.49 & 检索增强问答 & \cite{nakano2021webgpt} \\
\bottomrule \bottomrule
\end{tabular} \end{tabular}
}
\end{table*} \end{table*}
\subsubsection{基线方法} \subsubsection{基线方法}
@@ -548,11 +549,11 @@ y_{i,t}
HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置为 0.5,负载均衡损失系数 $\lambda_{balance}$ 设置为 0.1。所有方法统一采用 AdamW 优化器,学习率设置为 $2 \times 10^{-5}$并采用余弦退火Cosine Annealing学习率调度策略。为防止过拟合训练过程中引入基于验证集损失的早停机制。具体实现细节汇总于表~\ref{tab:ch3_impl_details} HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置为 0.5,负载均衡损失系数 $\lambda_{balance}$ 设置为 0.1。所有方法统一采用 AdamW 优化器,学习率设置为 $2 \times 10^{-5}$并采用余弦退火Cosine Annealing学习率调度策略。为防止过拟合训练过程中引入基于验证集损失的早停机制。具体实现细节汇总于表~\ref{tab:ch3_impl_details}
\begin{table}[h] \begin{table}[!htbp]
\centering \centering
\caption{HyCAM 实验实现细节汇总。} \caption[HyCAM 实验实现细节汇总]{HyCAM 实验实现细节汇总。}
\label{tab:ch3_impl_details} \label{tab:ch3_impl_details}
\resizebox{0.6\linewidth}{!}{
\begin{tabular}{ll} \begin{tabular}{ll}
\toprule \toprule
配置项 & 设置 \\ 配置项 & 设置 \\
@@ -572,7 +573,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
早停策略 & 基于验证集损失 \\ 早停策略 & 基于验证集损失 \\
\bottomrule \bottomrule
\end{tabular} \end{tabular}
}
\end{table} \end{table}
\subsection{实验结果与分析} \subsection{实验结果与分析}
@@ -580,118 +581,120 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
\subsubsection{总体性能比较} \subsubsection{总体性能比较}
表~\ref{tab:ch3_overall_main} 给出了 HyCAM 与各基线方法在不同骨干模型上的总体结果。可以看出HyCAM 在多数设置下均取得了最优结果,且相对最强基线呈现出稳定优势,平均相对提升约 3.65\%(双侧 $t$ 检验,$p < 0.05$)。这说明,在复杂多任务场景下,通过模块角色感知的方式对自注意力表示流进行定向调制,确实能够比传统低秩更新更有效地兼顾知识保持与任务特化。 \begin{table}[!htbp]
\centering
\caption[不同骨干模型上的总体实验结果]{不同骨干模型上的总体实验结果。}
\label{tab:ch3_overall_main}
\begin{tabular}{llccc}
\toprule
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
\midrule
\multirow{5}{*}{Llama 2 7B}
& Full Finetune & 3.193 & \underline{0.171} & 0.231 \\
& LoRA & 3.222 & 0.157 & 0.225 \\
& Multi LoRA & 3.287 & 0.121 & 0.217 \\
& RieMoE-LoRA & \underline{3.171} & 0.154 & \underline{0.232} \\
& HyCAM & \textbf{3.081} & \textbf{0.173} & \textbf{0.244} \\
\midrule
\multirow{5}{*}{Llama 3 8B}
& Full Finetune & 3.978 & 0.151 & 0.203 \\
& LoRA & 3.556 & 0.148 & 0.240 \\
& Multi LoRA & 3.547 & 0.157 & 0.236 \\
& RieMoE-LoRA & \underline{3.497} & \underline{0.159} & \underline{0.242} \\
& HyCAM & \textbf{3.484} & \textbf{0.162} & \textbf{0.245} \\
\midrule
\multirow{5}{*}{Llama 3.1 8B}
& Full Finetune & 3.873 & 0.153 & 0.205 \\
& LoRA & 3.537 & 0.156 & 0.237 \\
& Multi LoRA & 3.653 & 0.134 & 0.235 \\
& RieMoE-LoRA & \underline{3.487} & \underline{0.161} & \underline{0.238} \\
& HyCAM & \textbf{3.453} & \textbf{0.172} & \textbf{0.251} \\
\midrule
\multirow{5}{*}{Mistral 7B}
& Full Finetune & 4.403 & 0.157 & 0.192 \\
& LoRA & \underline{3.418} & \underline{0.163} & \underline{0.244} \\
& Multi LoRA & 3.461 & 0.141 & 0.225 \\
& RieMoE-LoRA & 3.597 & 0.143 & 0.240 \\
& HyCAM & \textbf{3.299} & \textbf{0.171} & \textbf{0.249} \\
\midrule
\multirow{5}{*}{Qwen 2.5 7B}
& Full Finetune & 3.024 & \underline{0.169} & 0.225 \\
& LoRA & 2.840 & 0.137 & \underline{0.239} \\
& Multi LoRA & 3.069 & 0.136 & 0.222 \\
& RieMoE-LoRA & \underline{2.830} & 0.157 & 0.227 \\
& HyCAM & \textbf{2.757} & \textbf{0.172} & \textbf{0.248} \\
\bottomrule
\end{tabular}
\begin{table}[h]
\centering
\caption{不同骨干模型上的总体实验结果。}
\label{tab:ch3_overall_main}
\resizebox{0.62\linewidth}{!}{
\begin{tabular}{llccc}
\toprule
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
\midrule
\multirow{5}{*}{Llama 2 7B}
& Full Finetune & 3.193 & \underline{0.171} & 0.231 \\
& LoRA & 3.222 & 0.157 & 0.225 \\
& Multi LoRA & 3.287 & 0.121 & 0.217 \\
& RieMoE-LoRA & \underline{3.171} & 0.154 & \underline{0.232} \\
& HyCAM & \textbf{3.081} & \textbf{0.173} & \textbf{0.244} \\
\midrule
\multirow{5}{*}{Llama 3 8B}
& Full Finetune & 3.978 & 0.151 & 0.203 \\
& LoRA & 3.556 & 0.148 & 0.240 \\
& Multi LoRA & 3.547 & 0.157 & 0.236 \\
& RieMoE-LoRA & \underline{3.497} & \underline{0.159} & \underline{0.242} \\
& HyCAM & \textbf{3.484} & \textbf{0.162} & \textbf{0.245} \\
\midrule
\multirow{5}{*}{Llama 3.1 8B}
& Full Finetune & 3.873 & 0.153 & 0.205 \\
& LoRA & 3.537 & 0.156 & 0.237 \\
& Multi LoRA & 3.653 & 0.134 & 0.235 \\
& RieMoE-LoRA & \underline{3.487} & \underline{0.161} & \underline{0.238} \\
& HyCAM & \textbf{3.453} & \textbf{0.172} & \textbf{0.251} \\
\midrule
\multirow{5}{*}{Mistral 7B}
& Full Finetune & 4.403 & 0.157 & 0.192 \\
& LoRA & \underline{3.418} & \underline{0.163} & \underline{0.244} \\
& Multi LoRA & 3.461 & 0.141 & 0.225 \\
& RieMoE-LoRA & 3.597 & 0.143 & 0.240 \\
& HyCAM & \textbf{3.299} & \textbf{0.171} & \textbf{0.249} \\
\midrule
\multirow{5}{*}{Qwen 2.5 7B}
& Full Finetune & 3.024 & \underline{0.169} & 0.225 \\
& LoRA & 2.840 & 0.137 & \underline{0.239} \\
& Multi LoRA & 3.069 & 0.136 & 0.222 \\
& RieMoE-LoRA & \underline{2.830} & 0.157 & 0.227 \\
& HyCAM & \textbf{2.757} & \textbf{0.172} & \textbf{0.248} \\
\bottomrule
\end{tabular}
}
\end{table} \end{table}
表~\ref{tab:ch3_overall_main} 给出了 HyCAM 与各基线方法在不同骨干模型上的总体结果。可以看出HyCAM 在多数设置下均取得了最优结果,且相对最强基线呈现出稳定优势,平均相对提升约 3.65\%(双侧 $t$ 检验,$p < 0.05$)。这说明,在复杂多任务场景下,通过模块角色感知的方式对自注意力表示流进行定向调制,确实能够比传统低秩更新更有效地兼顾知识保持与任务特化。
这一结果可从三个层面理解。第一相较于全参数微调HyCAM 在仅引入少量适配参数的前提下取得了更优或相当的性能,表明其并不依赖对整个模型进行重写,而是通过更有效的上下文调制获得收益。第二,相较于 LoRAHyCAM 的优势说明单纯依赖低秩参数增量并不足以充分应对复杂多任务场景中的结构差异,而围绕自注意力表示流构造输入条件化调制可以更直接地提升任务适配能力。第三,相较于 Multi-LoRA 与 RieMoE-LoRAHyCAM 的优势说明“共享 + 专用 + 动态路由”的混合设计比单纯并行适配或一般专家融合更适合多任务协同建模。 这一结果可从三个层面理解。第一相较于全参数微调HyCAM 在仅引入少量适配参数的前提下取得了更优或相当的性能,表明其并不依赖对整个模型进行重写,而是通过更有效的上下文调制获得收益。第二,相较于 LoRAHyCAM 的优势说明单纯依赖低秩参数增量并不足以充分应对复杂多任务场景中的结构差异,而围绕自注意力表示流构造输入条件化调制可以更直接地提升任务适配能力。第三,相较于 Multi-LoRA 与 RieMoE-LoRAHyCAM 的优势说明“共享 + 专用 + 动态路由”的混合设计比单纯并行适配或一般专家融合更适合多任务协同建模。
对于本文的多任务适配主题而言,这一结论具有直接启发意义:面对多种异质任务同时建模时,模型的关键改进方向未必是持续扩大参数更新规模,而更可能是增强其对上下文进行任务感知组织的能力。本章实验虽然基于通用多任务集合,但其所验证的正是这种\emph{模块级结构调制}的普适有效性。 对于本文的多任务适配主题而言,这一结论具有直接启发意义:面对多种异质任务同时建模时,模型的关键改进方向未必是持续扩大参数更新规模,而更可能是增强其对上下文进行任务感知组织的能力。本章实验虽然基于通用多任务集合,但其所验证的正是这种\emph{模块级结构调制}的普适有效性。
\begin{table}[ht]
\centering
\caption{Qwen2.5 系列不同规模下的可扩展性实验结果。最优结果加粗,次优结果加下划线。}
\label{tab:ch3_qwen_scale}
\resizebox{0.42\linewidth}{!}{
\begin{tabular}{llccc}
\toprule
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
\midrule
\multirow{5}{*}{Qwen 2.5 0.5B}
& Full Finetune & 3.778 & \underline{0.159} & 0.219 \\
& LoRA & 3.764 & 0.145 & 0.222 \\
& Multi LoRA & 3.754 & 0.144 & 0.221 \\
& RieMoE-LoRA & \underline{3.621} & 0.152 & \underline{0.232} \\
& HyCAM & \textbf{3.611} & \textbf{0.169} & \textbf{0.262} \\
\midrule
\multirow{5}{*}{Qwen 2.5 1.5B}
& Full Finetune & \textbf{3.102} & \textbf{0.169} & \underline{0.235} \\
& LoRA & 3.344 & 0.138 & 0.229 \\
& Multi LoRA & 3.330 & 0.148 & 0.226 \\
& RieMoE-LoRA & 3.180 & 0.148 & 0.230 \\
& HyCAM & \underline{3.108} & \underline{0.167} & \textbf{0.236} \\
\midrule
\multirow{5}{*}{Qwen 2.5 3B}
& Full Finetune & \underline{2.982} & \underline{0.161} & 0.222 \\
& LoRA & 3.106 & 0.144 & 0.230 \\
& Multi LoRA & 3.053 & 0.157 & 0.225 \\
& RieMoE-LoRA & 3.001 & 0.148 & \underline{0.238} \\
& HyCAM & \textbf{2.940} & \textbf{0.165} & \textbf{0.249} \\
\midrule
\multirow{5}{*}{Qwen 2.5 7B}
& Full Finetune & 3.024 & \underline{0.169} & 0.225 \\
& LoRA & 2.840 & 0.137 & \underline{0.239} \\
& Multi LoRA & 3.069 & 0.136 & 0.222 \\
& RieMoE-LoRA & \underline{2.830} & 0.157 & 0.227 \\
& HyCAM & \textbf{2.757} & \textbf{0.172} & \textbf{0.248} \\
\midrule
\multirow{5}{*}{Qwen 2.5 14B}
& Full Finetune & 2.839 & \textbf{0.176} & 0.214 \\
& LoRA & 2.889 & 0.147 & \underline{0.238} \\
& Multi LoRA & 2.882 & 0.152 & 0.235 \\
& RieMoE-LoRA & \underline{2.792} & 0.142 & \underline{0.238} \\
& HyCAM & \textbf{2.682} & \underline{0.160} & \textbf{0.242} \\
\bottomrule
\end{tabular}
}
\end{table}
\subsubsection{不同模型规模下的可扩展性分析} \subsubsection{不同模型规模下的可扩展性分析}
为了进一步考察 HyCAM 在不同参数规模模型中的适用性,原始实验还在 Qwen2.5 与 Llama3.2 系列上进行了跨规模验证。结果如表~\ref{tab:ch3_qwen_scale} 与表~\ref{tab:ch3_llama_scale} 所示。总体来看HyCAM 在从小模型到中大模型的多个规模区间内均表现出稳定优势,且在不少较大模型上其优势更为明显。 为了进一步考察 HyCAM 在不同参数规模模型中的适用性,原始实验还在 Qwen2.5 与 Llama3.2 系列上进行了跨规模验证。结果如表~\ref{tab:ch3_qwen_scale} 与表~\ref{tab:ch3_llama_scale} 所示。总体来看HyCAM 在从小模型到中大模型的多个规模区间内均表现出稳定优势,且在不少较大模型上其优势更为明显。
\begin{table}[h] \begin{table}[!htbp]
\centering
\caption[Qwen2.5 系列不同规模下的可扩展性实验结果]{Qwen2.5 系列不同规模下的可扩展性实验结果。最优结果加粗,次优结果加下划线。}
\label{tab:ch3_qwen_scale}
\begin{tabular}{llccc}
\toprule
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
\midrule
\multirow{5}{*}{Qwen 2.5 0.5B}
& Full Finetune & 3.778 & \underline{0.159} & 0.219 \\
& LoRA & 3.764 & 0.145 & 0.222 \\
& Multi LoRA & 3.754 & 0.144 & 0.221 \\
& RieMoE-LoRA & \underline{3.621} & 0.152 & \underline{0.232} \\
& HyCAM & \textbf{3.611} & \textbf{0.169} & \textbf{0.262} \\
\midrule
\multirow{5}{*}{Qwen 2.5 1.5B}
& Full Finetune & \textbf{3.102} & \textbf{0.169} & \underline{0.235} \\
& LoRA & 3.344 & 0.138 & 0.229 \\
& Multi LoRA & 3.330 & 0.148 & 0.226 \\
& RieMoE-LoRA & 3.180 & 0.148 & 0.230 \\
& HyCAM & \underline{3.108} & \underline{0.167} & \textbf{0.236} \\
\midrule
\multirow{5}{*}{Qwen 2.5 3B}
& Full Finetune & \underline{2.982} & \underline{0.161} & 0.222 \\
& LoRA & 3.106 & 0.144 & 0.230 \\
& Multi LoRA & 3.053 & 0.157 & 0.225 \\
& RieMoE-LoRA & 3.001 & 0.148 & \underline{0.238} \\
& HyCAM & \textbf{2.940} & \textbf{0.165} & \textbf{0.249} \\
\midrule
\multirow{5}{*}{Qwen 2.5 7B}
& Full Finetune & 3.024 & \underline{0.169} & 0.225 \\
& LoRA & 2.840 & 0.137 & \underline{0.239} \\
& Multi LoRA & 3.069 & 0.136 & 0.222 \\
& RieMoE-LoRA & \underline{2.830} & 0.157 & 0.227 \\
& HyCAM & \textbf{2.757} & \textbf{0.172} & \textbf{0.248} \\
\midrule
\multirow{5}{*}{Qwen 2.5 14B}
& Full Finetune & 2.839 & \textbf{0.176} & 0.214 \\
& LoRA & 2.889 & 0.147 & \underline{0.238} \\
& Multi LoRA & 2.882 & 0.152 & 0.235 \\
& RieMoE-LoRA & \underline{2.792} & 0.142 & \underline{0.238} \\
& HyCAM & \textbf{2.682} & \underline{0.160} & \textbf{0.242} \\
\bottomrule
\end{tabular}
\end{table}
\begin{table}[!htbp]
\centering \centering
\caption{Llama3.2 系列不同规模下的可扩展性实验结果。最优结果加粗,次优结果加下划线。} \caption[Llama3.2 系列不同规模下的可扩展性实验结果]{Llama3.2 系列不同规模下的可扩展性实验结果。最优结果加粗,次优结果加下划线。}
\label{tab:ch3_llama_scale} \label{tab:ch3_llama_scale}
\resizebox{0.42\linewidth}{!}{
\begin{tabular}{llccc} \begin{tabular}{llccc}
\toprule \toprule
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\ 骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
@@ -711,7 +714,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
& HyCAM & \underline{3.778} & \textbf{0.167} & \textbf{0.243} \\ & HyCAM & \underline{3.778} & \textbf{0.167} & \textbf{0.243} \\
\bottomrule \bottomrule
\end{tabular} \end{tabular}
}
\end{table} \end{table}
这一现象说明HyCAM 的收益并非依赖某个特定模型家族,而是与其核心建模机制有关。随着模型规模增大,预训练模型往往具备更丰富的知识储备与更复杂的表示空间,此时若仍采用简单统一的低秩更新,可能难以充分利用大模型内部潜在的功能结构;而 HyCAM 通过面向注意力表示流的调制,为大模型提供了更灵活的任务特化路径,因此更容易发挥其潜在能力。 这一现象说明HyCAM 的收益并非依赖某个特定模型家族,而是与其核心建模机制有关。随着模型规模增大,预训练模型往往具备更丰富的知识储备与更复杂的表示空间,此时若仍采用简单统一的低秩更新,可能难以充分利用大模型内部潜在的功能结构;而 HyCAM 通过面向注意力表示流的调制,为大模型提供了更灵活的任务特化路径,因此更容易发挥其潜在能力。
@@ -726,11 +729,11 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
为了分析 HyCAM 是否仅在个别任务上获益,还是在整体上具有更均衡的多任务适配能力,表~\ref{tab:ch3_cross_task} 给出了基于 Llama2-7B 的跨任务细粒度结果。从结果可见HyCAM 在多数任务上均取得了较优表现,尤其在 Auto CoT、CodeAlpaca 和 WebGPT 等任务上优势较明显。这表明HyCAM 不是通过牺牲部分任务来换取整体平均性能提升,而是能够在较大程度上缓解多任务训练中的任务干扰问题。 为了分析 HyCAM 是否仅在个别任务上获益,还是在整体上具有更均衡的多任务适配能力,表~\ref{tab:ch3_cross_task} 给出了基于 Llama2-7B 的跨任务细粒度结果。从结果可见HyCAM 在多数任务上均取得了较优表现,尤其在 Auto CoT、CodeAlpaca 和 WebGPT 等任务上优势较明显。这表明HyCAM 不是通过牺牲部分任务来换取整体平均性能提升,而是能够在较大程度上缓解多任务训练中的任务干扰问题。
\begin{table}[h] \begin{table}[!htbp]
\centering \centering
\caption{不同任务上的细粒度结果分析骨干模型Llama2-7B。最优结果加粗次优结果加下划线。} \caption[不同任务上的细粒度结果分析骨干模型Llama2-7B]{不同任务上的细粒度结果分析骨干模型Llama2-7B\\ 最优结果加粗,次优结果加下划线。}
\label{tab:ch3_cross_task} \label{tab:ch3_cross_task}
\resizebox{0.42\linewidth}{!}{
\begin{tabular}{llccc} \begin{tabular}{llccc}
\toprule \toprule
任务 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\ 任务 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
@@ -746,15 +749,15 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
& Full Finetune & \textbf{7.497} & \textbf{0.053} & 0.123 \\ & Full Finetune & \textbf{7.497} & \textbf{0.053} & 0.123 \\
& LoRA & 8.140 & 0.049 & \underline{0.124} \\ & LoRA & 8.140 & 0.049 & \underline{0.124} \\
& Multi LoRA & 8.846 & 0.037 & 0.122 \\ & Multi LoRA & 8.846 & 0.037 & 0.122 \\
& RieMoE-LoRA & 8.001 & 0.051 & 0.123 \\ & RieMoE-LoRA & 8.001 & \underline{0.051} & 0.123 \\
& HyCAM & \underline{7.546} & \textbf{0.053} & \textbf{0.125} \\ & HyCAM & \underline{7.546} & \textbf{0.053} & \textbf{0.125} \\
\midrule \midrule
\multirow{5}{*}{Dolly 2.0} \multirow{5}{*}{Dolly 2.0}
& Full Finetune & 6.461 & 0.088 & \textbf{0.200} \\ & Full Finetune & 6.461 & 0.088 & \textbf{0.200} \\
& LoRA & 6.029 & 0.070 & 0.181 \\ & LoRA & 6.029 & 0.070 & 0.181 \\
& Multi LoRA & \textbf{5.743} & 0.101 & 0.177 \\ & Multi LoRA & \textbf{5.743} & \underline{0.101} & 0.177 \\
& RieMoE-LoRA & 5.954 & \textbf{0.106} & 0.183 \\ & RieMoE-LoRA & 5.954 & \textbf{0.106} & 0.183 \\
& HyCAM & \underline{5.893} & \underline{0.093} & \underline{0.194} \\ & HyCAM & \underline{5.893} & 0.093 & \underline{0.194} \\
\midrule \midrule
\multirow{5}{*}{CodeAlpaca} \multirow{5}{*}{CodeAlpaca}
& Full Finetune & 2.532 & 0.138 & 0.195 \\ & Full Finetune & 2.532 & 0.138 & 0.195 \\
@@ -771,7 +774,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
& HyCAM & \textbf{1.845} & \underline{0.180} & \underline{0.337} \\ & HyCAM & \textbf{1.845} & \underline{0.180} & \underline{0.337} \\
\bottomrule \bottomrule
\end{tabular} \end{tabular}
}
\end{table} \end{table}
需要指出的是不同任务之间的性能水平本身存在显著差异。例如医疗问答和部分开放式指令任务通常具有更高输出不确定性因此其绝对指标可能整体较低。这一现象在多任务建模中普遍存在例如封闭式事实判断与开放式推理解释的难度本就不可简单等同。因此更重要的不是要求所有任务在同一数值尺度上接近而是观察方法能否在面对异质目标时保持相对稳定、均衡的适配能力。从这一意义上看HyCAM 的结果具有较好的说服力。 需要指出的是不同任务之间的性能水平本身存在显著差异。例如医疗问答和部分开放式指令任务通常具有更高输出不确定性因此其绝对指标可能整体较低。这一现象在多任务建模中普遍存在例如封闭式事实判断与开放式推理解释的难度本就不可简单等同。因此更重要的不是要求所有任务在同一数值尺度上接近而是观察方法能否在面对异质目标时保持相对稳定、均衡的适配能力。从这一意义上看HyCAM 的结果具有较好的说服力。
@@ -796,11 +799,11 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
所有消融变体均在 Llama2-7B 上进行评估,实验结果如表~\ref{tab:ch3_ablation} 所示。 所有消融变体均在 Llama2-7B 上进行评估,实验结果如表~\ref{tab:ch3_ablation} 所示。
\begin{table}[htp] \begin{table}[!htbp]
\centering \centering
\caption{HyCAM 消融实验结果(以 PPL 为例)。} \caption[HyCAM 消融实验结果(以 PPL 为例)]{HyCAM 消融实验结果(以 PPL 为例)。}
\label{tab:ch3_ablation} \label{tab:ch3_ablation}
\resizebox{0.3\linewidth}{!}{
\begin{tabular}{lc} \begin{tabular}{lc}
\toprule \toprule
变体 & PPL$\downarrow$ \\ 变体 & PPL$\downarrow$ \\
@@ -812,7 +815,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
HyCAM & \textbf{3.081} \\ HyCAM & \textbf{3.081} \\
\bottomrule \bottomrule
\end{tabular} \end{tabular}
}
\end{table} \end{table}
从表~\ref{tab:ch3_ablation} 可以看出,完整 HyCAM 取得了最优表现,这说明共享与专用分支之间确实具有互补性。仅使用共享 CAM 时,模型虽能学习跨任务共性调制,但缺乏足够的任务特化能力;仅使用专用 CAM 时,则由于缺乏统一共享底座,容易导致跨任务知识无法有效复用,反而降低整体性能。将所有专用模块都替换为全参数结构虽然也能取得较好结果,但会显著增加参数成本,与本章追求高效适配的目标不符。反向分配参数预算同样说明:让共享分支保持较强表达能力、让专用分支采用轻量结构,是当前框架下更合理的设计。 从表~\ref{tab:ch3_ablation} 可以看出,完整 HyCAM 取得了最优表现,这说明共享与专用分支之间确实具有互补性。仅使用共享 CAM 时,模型虽能学习跨任务共性调制,但缺乏足够的任务特化能力;仅使用专用 CAM 时,则由于缺乏统一共享底座,容易导致跨任务知识无法有效复用,反而降低整体性能。将所有专用模块都替换为全参数结构虽然也能取得较好结果,但会显著增加参数成本,与本章追求高效适配的目标不符。反向分配参数预算同样说明:让共享分支保持较强表达能力、让专用分支采用轻量结构,是当前框架下更合理的设计。
@@ -828,7 +831,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.52\linewidth]{assets/3_sens.pdf} \includegraphics[width=0.52\linewidth]{assets/3_sens.pdf}
\caption{专用 CAM 模块数量 $N_s$ 对 HyCAM 性能的影响。} \caption[专用 CAM 模块数量 $N_s$ 对 HyCAM 性能的影响]{专用 CAM 模块数量 $N_s$ 对 HyCAM 性能的影响。}
\label{fig:ch3_sens} \label{fig:ch3_sens}
\end{figure} \end{figure}
@@ -836,33 +839,33 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
从训练过程来看HyCAM 的损失收敛通常更快、更稳定。这与本章的建模思想是一致的相比于直接在大规模参数空间内搜索任务适配方向HyCAM 通过模块角色感知调制将适配空间限制在更具功能针对性的表示流层面,使优化过程更集中于”如何组织上下文”,而非”全面重写模型”。因此,其训练曲线往往具有更好的稳定性。 从训练过程来看HyCAM 的损失收敛通常更快、更稳定。这与本章的建模思想是一致的相比于直接在大规模参数空间内搜索任务适配方向HyCAM 通过模块角色感知调制将适配空间限制在更具功能针对性的表示流层面,使优化过程更集中于”如何组织上下文”,而非”全面重写模型”。因此,其训练曲线往往具有更好的稳定性。
\subsubsection{参数效率分析} %\subsubsection{参数效率分析}
%
为了全面评估 HyCAM 在参数效率方面的优势,本节对各方法的可训练参数量进行了系统比较。以 Llama2-7B 为例,各方法的参数量统计如表~\ref{tab:ch3_param_count} 所示。 %为了全面评估 HyCAM 在参数效率方面的优势,本节对各方法的可训练参数量进行了系统比较。以 Llama2-7B 为例,各方法的参数量统计如表~\ref{tab:ch3_param_count} 所示。
%
% TODO: 此表中的参数量数值如HyCAM 236.1M等)需要根据实际实现代码进行核实,原论文中未包含此表。 %% TODO: 此表中的参数量数值如HyCAM 236.1M等)需要根据实际实现代码进行核实,原论文中未包含此表。
\begin{table}[htp] %\begin{table}[htp]
\centering % \centering
\caption{不同适配方法在 Llama2-7B 上的可训练参数量对比。} % \caption[不同适配方法在 Llama2-7B 上的可训练参数量对比]{不同适配方法在 Llama2-7B 上的可训练参数量对比。}
\label{tab:ch3_param_count} % \label{tab:ch3_param_count}
\resizebox{0.48\linewidth}{!}{ % \resizebox{0.48\linewidth}{!}{
\begin{tabular}{lccc} % \begin{tabular}{lccc}
\toprule % \toprule
方法 & 可训练参数量 & 占比 & PPL$\downarrow$ \\ % 方法 & 可训练参数量 & 占比 & PPL$\downarrow$ \\
\midrule % \midrule
Full Finetune & 6.74B & 100\% & 3.193 \\ % Full Finetune & 6.74B & 100\% & 3.193 \\
LoRA ($r$=64) & 159.9M & 2.37\% & 3.222 \\ % LoRA ($r$=64) & 159.9M & 2.37\% & 3.222 \\
Multi LoRA & 319.8M & 4.75\% & 3.287 \\ % Multi LoRA & 319.8M & 4.75\% & 3.287 \\
RieMoE-LoRA & 319.8M & 4.75\% & 3.171 \\ % RieMoE-LoRA & 319.8M & 4.75\% & 3.171 \\
HyCAM & 236.1M & 3.50\% & \textbf{3.081} \\ % HyCAM & 236.1M & 3.50\% & \textbf{3.081} \\
\bottomrule % \bottomrule
\end{tabular} % \end{tabular}
} % }
\end{table} %\end{table}
%
从表~\ref{tab:ch3_param_count} 可以看出HyCAM 在可训练参数量上介于 LoRA 与 Multi-LoRA/RieMoE-LoRA 之间但在性能上显著优于所有基线方法。具体而言HyCAM 的共享 CAM 模块贡献了主要参数量(每层一个 $d \times d$ 的投影矩阵),而各专用 CAM 模块通过 SLoRA 参数化仅引入少量额外参数(每个模块约为共享模块的 $r/d$ 倍)。路由器参数量更为微小(每层仅 $d \times N_s$ 个参数),几乎可以忽略不计。 %从表~\ref{tab:ch3_param_count} 可以看出HyCAM 在可训练参数量上介于 LoRA 与 Multi-LoRA/RieMoE-LoRA 之间但在性能上显著优于所有基线方法。具体而言HyCAM 的共享 CAM 模块贡献了主要参数量(每层一个 $d \times d$ 的投影矩阵),而各专用 CAM 模块通过 SLoRA 参数化仅引入少量额外参数(每个模块约为共享模块的 $r/d$ 倍)。路由器参数量更为微小(每层仅 $d \times N_s$ 个参数),几乎可以忽略不计。
%
这一参数分配策略与本章”强共享底座 + 轻量专用分支”的设计理念高度一致。共享分支承担主要的跨任务调制建模职责,因此赋予其充分的参数预算;专用分支仅需在共享基础上学习增量式的任务特化方向,因此采用参数高效形式即可满足需求。这种非对称的参数分配,使得 HyCAM 能够在保持较低参数成本的同时,实现比均匀分配策略更优的多任务适配效果。 %这一参数分配策略与本章”强共享底座 + 轻量专用分支”的设计理念高度一致。共享分支承担主要的跨任务调制建模职责,因此赋予其充分的参数预算;专用分支仅需在共享基础上学习增量式的任务特化方向,因此采用参数高效形式即可满足需求。这种非对称的参数分配,使得 HyCAM 能够在保持较低参数成本的同时,实现比均匀分配策略更优的多任务适配效果。
\subsection{可解释性分析与方法讨论} \subsection{可解释性分析与方法讨论}
\label{subsec:ch3_interpretability} \label{subsec:ch3_interpretability}
@@ -876,7 +879,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.72\linewidth]{assets/3_tsne.pdf} \includegraphics[width=0.72\linewidth]{assets/3_tsne.pdf}
\caption{注意力表示空间的可视化结果。上方为未施加 CAM 调制的基线表示,下方为经 HyCAM 调制后的表示。经调制后表示呈现更紧凑的簇结构与更高的区分度。} \caption[注意力表示空间的可视化结果]{注意力表示空间的可视化结果。\\ 上方为未施加 CAM 调制的基线表示,下方为经 HyCAM 调制后的表示。\\ 经调制后表示呈现更紧凑的簇结构与更高的区分度。}
\label{fig:ch3_tsne} \label{fig:ch3_tsne}
\end{figure} \end{figure}
@@ -889,7 +892,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.72\linewidth]{assets/3_ht.pdf} \includegraphics[width=0.72\linewidth]{assets/3_ht.pdf}
\caption{HyCAM 调制权重矩阵的可视化。不同 token 与维度上的调制强度呈现明显差异,说明 HyCAM 实现了细粒度的上下文感知调制。} \caption[HyCAM 调制权重矩阵的可视化]{HyCAM 调制权重矩阵的可视化。\\ 不同 token 与维度上的调制强度呈现明显差异,说明 HyCAM 实现了细粒度的上下文感知调制。}
\label{fig:ch3_weights} \label{fig:ch3_weights}
\end{figure} \end{figure}
@@ -902,7 +905,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.72\linewidth]{assets/3_loss.pdf} \includegraphics[width=0.72\linewidth]{assets/3_loss.pdf}
\caption{不同方法的训练过程对比。HyCAM 相较基线方法表现出更快的收敛速度与更低的最终损失。} \caption[HyCAM 不同方法的训练过程对比]{不同方法的训练过程对比。\\ HyCAM 相较基线方法表现出更快的收敛速度与更低的最终损失。}
\label{fig:ch3_loss} \label{fig:ch3_loss}
\end{figure} \end{figure}

View File

@@ -1,4 +1,4 @@
% !TeX root = ../main.tex % !TeX root = main.tex
% 第四章 基于位置结构感知的选择性表征适配方法 % 第四章 基于位置结构感知的选择性表征适配方法
\chapter{基于位置结构感知的选择性表征适配方法} \chapter{基于位置结构感知的选择性表征适配方法}
\label{chap:rosa} \label{chap:rosa}
@@ -69,7 +69,7 @@ RoPE的频率结构不仅是数学上的设计选择更在实际模型中诱
\hfill \hfill
\subcaptionbox{跨层激活分布\label{fig:ch4_attn_layer}}{% \subcaptionbox{跨层激活分布\label{fig:ch4_attn_layer}}{%
\includegraphics[width=0.48\linewidth]{assets/4_AcrossLayer.pdf}} \includegraphics[width=0.48\linewidth]{assets/4_AcrossLayer.pdf}}
\caption{预训练模型LLaMA-2-7B中Query状态的激活强度可视化。通过计算每个注意力头各维度的平均L2范数来量化激活强度。低频维度高索引集中了更强的激活且不同层之间呈现差异化的激活模式体现了维度级和层级的双重异质性。} \caption[预训练模型LLaMA-2-7B中Query状态的激活强度可视化]{预训练模型LLaMA-2-7B中Query状态的激活强度可视化。\\ 通过计算每个注意力头各维度的平均L2范数来量化激活强度。\\ 低频维度(高索引)集中了更强的激活,且不同层之间呈现差异化的激活模式,体现了维度级和层级的双重异质性。}
\label{fig:ch4_activation} \label{fig:ch4_activation}
\end{figure} \end{figure}
@@ -115,7 +115,7 @@ RoPE的频率结构不仅是数学上的设计选择更在实际模型中诱
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.85\linewidth]{assets/4_rosa_arch.pdf} \includegraphics[width=0.85\linewidth]{assets/4_rosa_arch.pdf}
\caption{RoSA方法框架图。RoSA由两个核心模块组成RoPE感知注意力增强RoAE选择性增强RoPE影响的Q/K状态中的低频成分动态层选择DLS基于LayerNorm梯度信号动态选择重要层进行更新。} \caption[RoSA方法框架图]{RoSA方法框架图。\\ RoSA由两个核心模块组成RoPE感知注意力增强RoAE选择性增强RoPE影响的Q/K状态中的低频成分\\ 动态层选择DLS基于LayerNorm梯度信号动态选择重要层进行更新。}
\label{fig:ch4_rosa_arch} \label{fig:ch4_rosa_arch}
\end{figure} \end{figure}
@@ -211,7 +211,7 @@ DLS通过动态识别和适配最关键的层来减少不必要的参数更新
\RestyleAlgo{ruled} \RestyleAlgo{ruled}
\begin{algorithm}[htp] \begin{algorithm}[htp]
\caption{RoPE感知的选择性适配RoSA训练算法} \caption[RoPE感知的选择性适配RoSA训练算法]{RoPE感知的选择性适配RoSA训练算法}
\label{alg:ch4_rosa} \label{alg:ch4_rosa}
\KwIn{预训练大语言模型$\mathcal{M}$,数据集$\mathcal{D}$RoAE超参数$\alpha$, $r_{\text{low}}$DLS超参数$k_{\text{ratio}}$, $p_{\text{exploit}}$, $u$),学习率$\eta$,预热步数$T_{\text{warmup}}$} \KwIn{预训练大语言模型$\mathcal{M}$,数据集$\mathcal{D}$RoAE超参数$\alpha$, $r_{\text{low}}$DLS超参数$k_{\text{ratio}}$, $p_{\text{exploit}}$, $u$),学习率$\eta$,预热步数$T_{\text{warmup}}$}
使用$\alpha$$r_{\text{low}}$初始化RoAE模块并集成至$\mathcal{M}$\; 使用$\alpha$$r_{\text{low}}$初始化RoAE模块并集成至$\mathcal{M}$\;
@@ -275,12 +275,12 @@ RoSA的设计具有良好的模块化特性RoAE和DLS各自独立运作
表~\ref{tab:ch4_rosa_common}展示了RoSA与基线方法在常识推理任务上的性能比较。 表~\ref{tab:ch4_rosa_common}展示了RoSA与基线方法在常识推理任务上的性能比较。
\begin{table}[htp] \begin{table}[!htbp]
\centering \centering
\caption{RoSA与基线方法在常识推理任务上的性能比较。在三种骨干模型上RoSA在可比参数预算下均取得最优平均性能。*表示相比最优基线的统计显著提升双侧t检验$p<0.05$)。} \caption[RoSA与基线方法在常识推理任务上的性能比较]{RoSA与基线方法在常识推理任务上的性能比较。\\在三种骨干模型上RoSA在可比参数预算下均取得最优平均性能。\\ *表示相比最优基线的统计显著提升双侧t检验$p<0.05$)。}
\label{tab:ch4_rosa_common} \label{tab:ch4_rosa_common}
\small
\resizebox{\linewidth}{!}{ \resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{0.96} \renewcommand{\arraystretch}{0.96}
\begin{tabular}{l|lcccccccccc} \begin{tabular}{l|lcccccccccc}
\toprule \toprule
@@ -331,12 +331,12 @@ RoSA的设计具有良好的模块化特性RoAE和DLS各自独立运作
表~\ref{tab:ch4_rosa_math}展示了RoSA在Qwen2.5-7B上数学推理任务的结果。 表~\ref{tab:ch4_rosa_math}展示了RoSA在Qwen2.5-7B上数学推理任务的结果。
\begin{table}[htp] \begin{table}[!htbp]
\centering \centering
\caption{RoSA与基线方法在Qwen2.5-7B上数学推理任务的性能比较。} \caption[RoSA与基线方法在Qwen2.5-7B上数学推理任务的性能比较]{RoSA与基线方法在Qwen2.5-7B上数学推理任务的性能比较。}
\label{tab:ch4_rosa_math} \label{tab:ch4_rosa_math}
\small
\resizebox{\linewidth}{!}{ \resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{0.95} \renewcommand{\arraystretch}{0.95}
\begin{tabular}{lccccccccc} \begin{tabular}{lccccccccc}
\toprule \toprule
@@ -362,11 +362,11 @@ RoSA的设计具有良好的模块化特性RoAE和DLS各自独立运作
表~\ref{tab:ch4_rosa_scale}展示了RoSA在不同规模Qwen2.5模型上的可扩展性。 表~\ref{tab:ch4_rosa_scale}展示了RoSA在不同规模Qwen2.5模型上的可扩展性。
\begin{table}[htp] \begin{table}[!htbp]
\centering \centering
\caption{RoSA在不同规模Qwen2.5模型上常识推理任务的可扩展性比较。} \caption[RoSA在不同规模Qwen2.5模型上常识推理任务的可扩展性比较]{RoSA在不同规模Qwen2.5模型上常识推理任务的可扩展性比较。}
\label{tab:ch4_rosa_scale} \label{tab:ch4_rosa_scale}
\small
\begin{tabular}{lcccc} \begin{tabular}{lcccc}
\toprule \toprule
\textbf{方法} & \textbf{0.5B} & \textbf{1.5B} & \textbf{3B} & \textbf{7B} \\ \textbf{方法} & \textbf{0.5B} & \textbf{1.5B} & \textbf{3B} & \textbf{7B} \\
@@ -387,11 +387,11 @@ RoSA的设计具有良好的模块化特性RoAE和DLS各自独立运作
表~\ref{tab:ch4_rosa_ablation}展示了RoSA各组件的消融分析在Qwen2.5-7B常识推理任务上进行。 表~\ref{tab:ch4_rosa_ablation}展示了RoSA各组件的消融分析在Qwen2.5-7B常识推理任务上进行。
\begin{table}[htp] \begin{table}[!htbp]
\centering \centering
\caption{RoSA消融实验结果Qwen2.5-7B常识推理Micro-Avg} \caption[RoSA消融实验结果Qwen2.5-7B常识推理Micro-Avg]{RoSA消融实验结果Qwen2.5-7B常识推理Micro-Avg}
\label{tab:ch4_rosa_ablation} \label{tab:ch4_rosa_ablation}
\small
\begin{tabular}{lc} \begin{tabular}{lc}
\toprule \toprule
\textbf{变体} & \textbf{Micro-Avg$\uparrow$} \\ \textbf{变体} & \textbf{Micro-Avg$\uparrow$} \\
@@ -412,7 +412,7 @@ RoSA的设计具有良好的模块化特性RoAE和DLS各自独立运作
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.45\linewidth]{assets/4_dls_sensitivity.pdf} \includegraphics[width=0.45\linewidth]{assets/4_dls_sensitivity.pdf}
\caption{RoSA中层选择比例$k_{\text{ratio}}$的敏感性分析。} \caption[RoSA中层选择比例$k_{\text{ratio}}$的敏感性分析]{RoSA中层选择比例$k_{\text{ratio}}$的敏感性分析。}
\label{fig:ch4_dls_sensitivity} \label{fig:ch4_dls_sensitivity}
\end{figure} \end{figure}
@@ -426,7 +426,7 @@ RoSA的设计具有良好的模块化特性RoAE和DLS各自独立运作
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.6\linewidth]{assets/4_layer_selection.pdf} \includegraphics[width=0.6\linewidth]{assets/4_layer_selection.pdf}
\caption{RoSA训练过程中各层被DLS选择的频率可视化Qwen2.5-7B} \caption[RoSA训练过程中各层被DLS选择的频率可视化Qwen2.5-7B]{RoSA训练过程中各层被DLS选择的频率可视化Qwen2.5-7B}
\label{fig:ch4_layer_sel} \label{fig:ch4_layer_sel}
\end{figure} \end{figure}

View File

@@ -1,4 +1,4 @@
% !TeX root = ../main.tex % !TeX root = main.tex
% 第五章 基于动态位置调制的维度级表征适配方法 % 第五章 基于动态位置调制的维度级表征适配方法
\chapter{基于动态位置调制的维度级表征适配方法} \chapter{基于动态位置调制的维度级表征适配方法}
\label{chap:dypam} \label{chap:dypam}
@@ -26,7 +26,7 @@ RoPE的频率结构不仅导致不同维度的激活强度差异如第四章
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.9\linewidth]{assets/5_rope_response.pdf} \includegraphics[width=0.9\linewidth]{assets/5_rope_response.pdf}
\caption{不同维度对的位置响应函数。a低索引维度对高频的注意力得分随相对距离快速衰减而高索引维度对低频在长距离上仍保持较高的注意力得分。b所有维度对的位置响应热图展示非均匀的位置敏感性分布。这种差异化的位置响应特性为DyPAM的维度对级调制设计提供了直接动机。} \caption[不同维度对的位置响应函数]{不同维度对的位置响应函数。\\ a低索引维度对高频的注意力得分随相对距离快速衰减而高索引维度对低频在长距离上仍保持较高的注意力得分。\\ b所有维度对的位置响应热图展示非均匀的位置敏感性分布。这种差异化的位置响应特性为DyPAM的维度对级调制设计提供了直接动机。}
\label{fig:ch5_rope_response} \label{fig:ch5_rope_response}
\end{figure} \end{figure}
@@ -38,7 +38,7 @@ RoPE的频率结构不仅导致不同维度的激活强度差异如第四章
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.9\linewidth]{assets/5_token_heterogeneity.pdf} \includegraphics[width=0.9\linewidth]{assets/5_token_heterogeneity.pdf}
\caption{不同语义角色的输入token诱导的激活模式差异。具有不同语义角色的token在维度激活分布上呈现系统性差异。} \caption[不同语义角色的输入token诱导的激活模式差异]{不同语义角色的输入token诱导的激活模式差异。具有不同语义角色的token在维度激活分布上呈现系统性差异。}
\label{fig:ch5_token_hetero} \label{fig:ch5_token_hetero}
\end{figure} \end{figure}
@@ -72,7 +72,7 @@ RoSA通过低频维度选择性增强与动态层选择初步实现了对维
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.85\linewidth]{assets/5_dypam_arch.pdf} \includegraphics[width=0.85\linewidth]{assets/5_dypam_arch.pdf}
\caption{DyPAM方法框架图。DyPAM在RoPE之前将输入条件化的维度级调制与头级和层级结构偏置共同施加于Query和Key表示实现对位置注意力的细粒度动态适配。} \caption[DyPAM方法框架图]{DyPAM方法框架图。DyPAM在RoPE之前将输入条件化的维度级调制与头级和层级结构偏置共同施加于Query和Key表示实现对位置注意力的细粒度动态适配。}
\label{fig:ch5_dypam_arch} \label{fig:ch5_dypam_arch}
\end{figure} \end{figure}
@@ -195,7 +195,7 @@ DyPAM使用标准的语言建模交叉熵损失进行端到端训练。给定输
\RestyleAlgo{ruled} \RestyleAlgo{ruled}
\begin{algorithm}[htp] \begin{algorithm}[htp]
\caption{动态位置注意力调制DyPAM训练算法} \caption[动态位置注意力调制DyPAM训练算法]{动态位置注意力调制DyPAM训练算法}
\label{alg:ch5_dypam} \label{alg:ch5_dypam}
\KwIn{输入序列$\mathbf{x}$预训练RoPE大语言模型DyPAM参数} \KwIn{输入序列$\mathbf{x}$预训练RoPE大语言模型DyPAM参数}
\KwOut{模型输出分布与训练损失$\mathcal{L}$} \KwOut{模型输出分布与训练损失$\mathcal{L}$}
@@ -235,11 +235,11 @@ RoSA和DyPAM均针对维度级位置结构异质性$\mathcal{R}_{dim}$
表~\ref{tab:ch5_compare}从多个设计维度对两种方法进行了系统比较。 表~\ref{tab:ch5_compare}从多个设计维度对两种方法进行了系统比较。
\begin{table}[htp] \begin{table}[!htbp]
\centering \centering
\caption{RoSA与DyPAM的设计维度对比} \caption[RoSA与DyPAM的设计维度对比]{RoSA与DyPAM的设计维度对比}
\label{tab:ch5_compare} \label{tab:ch5_compare}
\small
\begin{tabular}{lcc} \begin{tabular}{lcc}
\toprule \toprule
\textbf{设计维度} & \textbf{RoSA} & \textbf{DyPAM} \\ \textbf{设计维度} & \textbf{RoSA} & \textbf{DyPAM} \\
@@ -257,16 +257,16 @@ RoSA和DyPAM均针对维度级位置结构异质性$\mathcal{R}_{dim}$
\subsection{互补性与递进关系} \subsection{互补性与递进关系}
\begin{figure}[htbp] % \begin{figure}[htbp]
\centering % \centering
% 占位:待替换为外部绘制的 5_rosa_dypam_compare.pdf % % 占位:待替换为外部绘制的 5_rosa_dypam_compare.pdf
% \includegraphics[width=0.9\textwidth]{assets/5_rosa_dypam_compare.pdf} % % \includegraphics[width=0.9\textwidth]{assets/5_rosa_dypam_compare.pdf}
\caption{RoSA与DyPAM在维度级位置结构适配上的设计演进对比。该图采用左右并排的双架构对比布局 % \caption[RoSA与DyPAM在维度级位置结构适配上的设计演进对比]{RoSA与DyPAM在维度级位置结构适配上的设计演进对比。该图采用左右并排的双架构对比布局
\textbf{左半}RoSA——静态选择性增强展示RoSA的处理流程——Query/Key向量中以虚线分割低频与高频维度区域低频区域由超参数$r_{\text{low}}$固定选定)高亮标注为"增强区域",高频区域灰显为"未增强区域";调制信号$\mathbf{S}$在所有头间共享底部标注DLS的层选择机制部分层激活、部分层掩码。用标签强调静态维度划分、跨头共享、层级二值选择。 % \textbf{左半}RoSA——静态选择性增强展示RoSA的处理流程——Query/Key向量中以虚线分割低频与高频维度区域低频区域由超参数$r_{\text{low}}$固定选定)高亮标注为"增强区域",高频区域灰显为"未增强区域";调制信号$\mathbf{S}$在所有头间共享底部标注DLS的层选择机制部分层激活、部分层掩码。用标签强调静态维度划分、跨头共享、层级二值选择。
\textbf{右半}DyPAM——动态条件化调制展示DyPAM的处理流程——Query/Key向量的所有维度对均被调制因子$s_{t,h,i}$覆盖,调制强度用连续色阶(从浅到深)表示差异化程度;调制信号从输入隐藏状态经低秩投影动态生成,并叠加头级偏置$\boldsymbol{\beta}_h$和层级偏置$\boldsymbol{\beta}^{(\ell)}$作用点标注在RoPE之前。用标签强调全维度覆盖、输入条件化、头级独立、连续调制。 % \textbf{右半}DyPAM——动态条件化调制展示DyPAM的处理流程——Query/Key向量的所有维度对均被调制因子$s_{t,h,i}$覆盖,调制强度用连续色阶(从浅到深)表示差异化程度;调制信号从输入隐藏状态经低秩投影动态生成,并叠加头级偏置$\boldsymbol{\beta}_h$和层级偏置$\boldsymbol{\beta}^{(\ell)}$作用点标注在RoPE之前。用标签强调全维度覆盖、输入条件化、头级独立、连续调制。
\textbf{中间}用大箭头连接左右两半,标注递进关系:"静态$\to$动态"、"粗粒度$\to$细粒度"、"维度选择$\to$维度对调制"。} % \textbf{中间}用大箭头连接左右两半,标注递进关系:"静态$\to$动态"、"粗粒度$\to$细粒度"、"维度选择$\to$维度对调制"。}
\label{fig:ch5_rosa_dypam_compare} % \label{fig:ch5_rosa_dypam_compare}
\end{figure} % \end{figure}
从设计演进的角度看DyPAM可以理解为对RoSA的全面推进 从设计演进的角度看DyPAM可以理解为对RoSA的全面推进
@@ -318,30 +318,29 @@ DyPAM实验在NVIDIA RTX 4090上使用DeepSpeed和BF16精度进行。DyPAM超参
表~\ref{tab:ch5_dypam_math}展示了DyPAM在数学推理任务上的性能。 表~\ref{tab:ch5_dypam_math}展示了DyPAM在数学推理任务上的性能。
\begin{table}[htp] \begin{table}[!htbp]
\centering \centering
\caption{DyPAM与基线方法在数学推理任务上的性能比较。*表示统计显著提升。} \caption[DyPAM与基线方法在数学推理任务上的性能比较]{DyPAM与基线方法在数学推理任务上的性能比较。*表示统计显著提升。}
\label{tab:ch5_dypam_math} \label{tab:ch5_dypam_math}
\small
\resizebox{\linewidth}{!}{ \resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{0.9} \renewcommand{\arraystretch}{0.9}
\begin{tabular}{l|lcccccccccc} \begin{tabular}{l|lcccccccccc}
\toprule \toprule
\textbf{骨干} & \textbf{方法} & \textbf{参数(\%)} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} & \textbf{Macro-Avg$\uparrow$} \\ \textbf{骨干} & \textbf{方法} & \textbf{参数(\%)} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} & \textbf{Macro-Avg$\uparrow$} \\
\midrule \midrule
\multirow{10}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}} \multirow{10}{*}{\textbf{LLaMA3.2-3B}}
& LoRA & 1.12 & 71.50 & 33.21 & 78.48 & 22.44 & 81.50 & 54.10 & 76.47 & 54.96 & 59.67 \\ & LoRA & 1.12 & 71.50 & 33.21 & 78.48 & 22.44 & 81.50 & 54.10 & 76.47 & 54.96 & 59.67 \\
& AdaLoRA & 2.22 & 75.67 & 36.32 & 80.51 & 22.83 & 87.80 & 55.60 & 78.57 & 57.90 & 62.47 \\ & AdaLoRA & 2.22 & 75.67 & 36.32 & 80.51 & 22.83 & 87.80 & 55.60 & 78.57 & 57.90 & 62.47 \\
& OFT & 0.73 & 87.17 & \textbf{40.18} & \underline{85.82} & \underline{24.02} & 86.42 & 61.50 & \textbf{84.03} & \underline{62.75} & \underline{67.02} \\ & OFT & 0.73 & 87.17 & \textbf{40.18} & \underline{85.82} & \underline{24.02} & 86.42 & 61.50 & \textbf{84.03} & 62.75 & \underline{67.02} \\
& Bone & 1.14 & \underline{87.50} & 39.73 & 85.57 & 23.62 & 86.61 & \textbf{63.70} & 81.93 & 63.03 & 66.95 \\ & Bone & 1.14 & \underline{87.50} & 39.73 & 85.57 & 23.62 & 86.61 & \textbf{63.70} & \underline{81.93} & \underline{63.03} & 66.95 \\
& IA$^3$ & 0.02 & 58.33 & 27.37 & 68.61 & 20.47 & 72.83 & 47.90 & 58.82 & 46.89 & 50.62 \\ & IA$^3$ & 0.02 & 58.33 & 27.37 & 68.61 & 20.47 & 72.83 & 47.90 & 58.82 & 46.89 & 50.62 \\
& LN Tuning & 0.01 & 58.00 & 26.38 & 66.58 & 21.26 & 74.80 & 44.90 & 60.08 & 46.01 & 50.29 \\ & LN Tuning & 0.01 & 58.00 & 26.38 & 66.58 & 21.26 & 74.80 & 44.90 & 60.08 & 46.01 & 50.29 \\
& FourierFT & 0.73 & 78.67 & 33.21 & 82.03 & 20.47 & 85.43 & 54.30 & 77.31 & 56.72 & 61.63 \\ & FourierFT & 0.73 & 78.67 & 33.21 & 82.03 & 20.47 & 85.43 & 54.30 & 77.31 & 56.72 & 61.63 \\
& SHiRA & 1.12 & 82.50 & 38.82 & 84.81 & \underline{24.02} & \underline{87.99} & 56.90 & 81.93 & 60.59 & 65.28 \\ & SHiRA & 1.12 & 82.50 & 38.82 & 84.81 & \underline{24.02} & \underline{87.99} & 56.90 & \underline{81.93} & 60.59 & 65.28 \\
& RoSA & 0.54 & 84.33 & 37.91 & 82.78 & 22.83 & 87.01 & 52.50 & 78.99 & 59.02 & 63.77 \\ & RoSA & 0.54 & 84.33 & 37.91 & 82.78 & 22.83 & 87.01 & 52.50 & 78.99 & 59.02 & 63.77 \\
& \textbf{DyPAM} & 0.92 & \textbf{88.50} & \underline{39.88} & \textbf{86.33} & \textbf{25.20} & \textbf{88.78} & \underline{63.00} & \textbf{84.03} & \textbf{63.58*} & \textbf{67.96*} \\ & \textbf{DyPAM} & 0.92 & \textbf{88.50} & \underline{39.88} & \textbf{86.33} & \textbf{25.20} & \textbf{88.78} & \underline{63.00} & \textbf{84.03} & \textbf{63.58*} & \textbf{67.96*} \\
\midrule \midrule
\multirow{10}{*}{\rotatebox{90}{\textbf{Qwen3-8B}}} \multirow{10}{*}{\textbf{Qwen3-8B}}
& LoRA & 0.79 & 97.67 & 74.91 & 89.87 & 35.83 & 90.55 & 84.70 & 89.08 & 82.04 & 80.37 \\ & LoRA & 0.79 & 97.67 & 74.91 & 89.87 & 35.83 & 90.55 & 84.70 & 89.08 & 82.04 & 80.37 \\
& AdaLoRA & 1.57 & 95.17 & 73.01 & 90.63 & 37.01 & 92.32 & 84.80 & 91.60 & 81.62 & 80.65 \\ & AdaLoRA & 1.57 & 95.17 & 73.01 & 90.63 & 37.01 & 92.32 & 84.80 & 91.60 & 81.62 & 80.65 \\
& OFT & 0.51 & 95.67 & 73.46 & 90.38 & 33.07 & 94.09 & 84.90 & 91.60 & 81.80 & 80.45 \\ & OFT & 0.51 & 95.67 & 73.46 & 90.38 & 33.07 & 94.09 & 84.90 & 91.60 & 81.80 & 80.45 \\
@@ -349,11 +348,11 @@ DyPAM实验在NVIDIA RTX 4090上使用DeepSpeed和BF16精度进行。DyPAM超参
& IA$^3$ & 0.02 & 92.50 & 72.18 & 84.81 & 35.04 & 86.61 & 80.90 & 86.55 & 78.49 & 76.94 \\ & IA$^3$ & 0.02 & 92.50 & 72.18 & 84.81 & 35.04 & 86.61 & 80.90 & 86.55 & 78.49 & 76.94 \\
& LN Tuning & 0.00 & 91.67 & 68.69 & 85.32 & \underline{39.76} & 87.40 & 78.00 & 85.71 & 77.01 & 76.65 \\ & LN Tuning & 0.00 & 91.67 & 68.69 & 85.32 & \underline{39.76} & 87.40 & 78.00 & 85.71 & 77.01 & 76.65 \\
& FourierFT & 0.37 & 94.50 & 70.05 & 87.34 & 31.50 & 86.81 & 82.70 & 81.09 & 78.28 & 76.28 \\ & FourierFT & 0.37 & 94.50 & 70.05 & 87.34 & 31.50 & 86.81 & 82.70 & 81.09 & 78.28 & 76.28 \\
& SHiRA & 0.79 & 94.83 & \underline{75.36} & 90.13 & 37.01 & 93.90 & \textbf{85.70} & 90.34 & \underline{82.57} & \underline{81.04} \\ & SHiRA & 0.79 & 94.83 & \underline{75.36} & 90.13 & 37.01 & 93.90 & \textbf{85.70} & 90.34 & \underline{82.57} & 81.04 \\
& RoSA & 0.36 & 97.83 & 74.07 & 90.38 & 35.43 & \underline{94.49} & 84.80 & \underline{92.02} & 82.48 & 81.29 \\ & RoSA & 0.36 & 97.83 & 74.07 & 90.38 & 35.43 & \underline{94.49} & 84.80 & \underline{92.02} & 82.48 & \underline{81.29} \\
& \textbf{DyPAM} & 0.61 & \textbf{99.17} & \textbf{76.72} & \textbf{91.90} & \textbf{40.94} & \textbf{95.28} & \underline{85.50} & \textbf{92.86} & \textbf{84.24*} & \textbf{83.20*} \\ & \textbf{DyPAM} & 0.61 & \textbf{99.17} & \textbf{76.72} & \textbf{91.90} & \textbf{40.94} & \textbf{95.28} & \underline{85.50} & \textbf{92.86} & \textbf{84.24*} & \textbf{83.20*} \\
\midrule \midrule
\multirow{10}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}} \multirow{10}{*}{\textbf{Gemma3-4B}}
& LoRA & 1.33 & 86.00 & 51.25 & 72.41 & 25.98 & 75.59 & 62.20 & 75.21 & 63.26 & 64.09 \\ & LoRA & 1.33 & 86.00 & 51.25 & 72.41 & 25.98 & 75.59 & 62.20 & 75.21 & 63.26 & 64.09 \\
& AdaLoRA & 2.62 & 82.67 & 51.86 & 66.33 & 31.50 & 73.82 & 62.30 & 73.95 & 62.49 & 63.20 \\ & AdaLoRA & 2.62 & 82.67 & 51.86 & 66.33 & 31.50 & 73.82 & 62.30 & 73.95 & 62.49 & 63.20 \\
& OFT & 0.75 & 85.83 & \underline{54.28} & 72.91 & \underline{32.28} & 75.59 & \textbf{63.80} & \underline{76.47} & \underline{65.02} & \underline{65.88} \\ & OFT & 0.75 & 85.83 & \underline{54.28} & 72.91 & \underline{32.28} & 75.59 & \textbf{63.80} & \underline{76.47} & \underline{65.02} & \underline{65.88} \\
@@ -377,18 +376,17 @@ DyPAM在所有三种骨干模型上均取得了最优的Macro-Avg和Micro-Avg性
表~\ref{tab:ch5_dypam_common}展示了DyPAM在常识推理任务上的性能。 表~\ref{tab:ch5_dypam_common}展示了DyPAM在常识推理任务上的性能。
\begin{table}[htp] \begin{table}[!htbp]
\centering \centering
\caption{DyPAM与基线方法在常识推理任务上的性能比较。*表示统计显著提升。} \caption[DyPAM与基线方法在常识推理任务上的性能比较]{DyPAM与基线方法在常识推理任务上的性能比较。*表示统计显著提升。}
\label{tab:ch5_dypam_common} \label{tab:ch5_dypam_common}
\small
\resizebox{\linewidth}{!}{ \resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{0.9} \renewcommand{\arraystretch}{0.9}
\begin{tabular}{l|lccccccccccc} \begin{tabular}{l|lccccccccccc}
\toprule \toprule
\textbf{骨干} & \textbf{方法} & \textbf{参数(\%)} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} & \textbf{Macro-Avg$\uparrow$} \\ \textbf{骨干} & \textbf{方法} & \textbf{参数(\%)} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} & \textbf{Macro-Avg$\uparrow$} \\
\midrule \midrule
\multirow{10}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}} \multirow{10}{*}{\textbf{LLaMA3.2-3B}}
& LoRA & 1.12 & 63.61 & \underline{79.71} & 66.94 & 69.45 & 84.05 & 67.00 & 73.94 & 55.56 & 71.94 & 70.03 \\ & LoRA & 1.12 & 63.61 & \underline{79.71} & 66.94 & 69.45 & 84.05 & 67.00 & 73.94 & 55.56 & 71.94 & 70.03 \\
& AdaLoRA & 2.22 & 63.52 & 78.94 & 67.09 & 68.94 & \underline{85.14} & 70.20 & 78.11 & 56.35 & 73.95 & 71.04 \\ & AdaLoRA & 2.22 & 63.52 & 78.94 & 67.09 & 68.94 & \underline{85.14} & 70.20 & 78.11 & 56.35 & 73.95 & 71.04 \\
& OFT & 0.73 & \underline{65.63} & 79.54 & \underline{70.37} & \underline{70.39} & 85.06 & \textbf{71.80} & 83.15 & \textbf{66.38} & \underline{77.52} & \underline{74.04} \\ & OFT & 0.73 & \underline{65.63} & 79.54 & \underline{70.37} & \underline{70.39} & 85.06 & \textbf{71.80} & 83.15 & \textbf{66.38} & \underline{77.52} & \underline{74.04} \\
@@ -396,12 +394,12 @@ DyPAM在所有三种骨干模型上均取得了最优的Macro-Avg和Micro-Avg性
& IA$^3$ & 0.02 & 62.32 & 77.09 & 59.67 & 57.94 & 77.10 & 57.40 & 50.48 & 52.25 & 58.66 & 61.78 \\ & IA$^3$ & 0.02 & 62.32 & 77.09 & 59.67 & 57.94 & 77.10 & 57.40 & 50.48 & 52.25 & 58.66 & 61.78 \\
& LN Tuning & 0.01 & 62.51 & 76.99 & 59.52 & 59.81 & 76.52 & 59.00 & 52.02 & 52.17 & 59.42 & 62.32 \\ & LN Tuning & 0.01 & 62.51 & 76.99 & 59.52 & 59.81 & 76.52 & 59.00 & 52.02 & 52.17 & 59.42 & 62.32 \\
& FourierFT & 0.73 & 62.14 & 79.49 & 61.98 & 61.86 & 80.93 & 62.40 & 73.21 & 49.09 & 69.75 & 66.39 \\ & FourierFT & 0.73 & 62.14 & 79.49 & 61.98 & 61.86 & 80.93 & 62.40 & 73.21 & 49.09 & 69.75 & 66.39 \\
& SHiRA & 1.12 & 65.23 & 79.65 & 69.14 & \textbf{71.16} & 84.97 & 71.20 & \underline{83.18} & 65.67 & 77.35 & 73.78 \\ & SHiRA & 1.12 & 65.23 & 79.65 & 69.14 & \textbf{71.16} & 84.97 & \underline{71.20} & \underline{83.18} & 65.67 & 77.35 & 73.78 \\
& RoSA & 0.54 & 64.53 & 79.65 & 69.86 & 69.28 & 84.43 & 70.80 & 83.12 & 63.54 & 77.00 & 73.15 \\ & RoSA & 0.54 & 64.53 & 79.65 & 69.86 & 69.28 & 84.43 & 70.80 & 83.12 & 63.54 & 77.00 & 73.15 \\
& \textbf{DyPAM} & 0.92 & \textbf{65.93} & \textbf{79.76} & \textbf{70.88} & \underline{70.39} & \textbf{85.19} & \textbf{71.80} & \textbf{83.71} & 65.35 & \textbf{77.83*} & \textbf{74.13*} \\ & \textbf{DyPAM} & 0.92 & \textbf{65.93} & \textbf{79.76} & \textbf{70.88} & \underline{70.39} & \textbf{85.19} & \textbf{71.80} & \textbf{83.71} & 65.35 & \textbf{77.83*} & \textbf{74.13*} \\
\midrule \midrule
\multirow{10}{*}{\rotatebox{90}{\textbf{Qwen3-8B}}} \multirow{10}{*}{\textbf{Qwen3-8B}}
& LoRA & 0.79 & 70.49 & 86.34 & 77.18 & 90.19 & 96.51 & 87.60 & 89.50 & 72.85 & 85.19 & 83.83 \\ & LoRA & 0.79 & 70.49 & 86.34 & \underline{77.18} & 90.19 & 96.51 & 87.60 & 89.50 & 72.85 & 85.19 & 83.83 \\
& AdaLoRA & 1.57 & 70.73 & 86.51 & 76.71 & \underline{90.36} & 96.55 & 87.20 & 88.92 & 72.38 & 84.91 & 83.67 \\ & AdaLoRA & 1.57 & 70.73 & 86.51 & 76.71 & \underline{90.36} & 96.55 & 87.20 & 88.92 & 72.38 & 84.91 & 83.67 \\
& OFT & 0.51 & 69.97 & 86.83 & 76.56 & 89.93 & \underline{96.97} & 88.00 & 89.17 & 76.48 & 85.20 & 84.24 \\ & OFT & 0.51 & 69.97 & 86.83 & 76.56 & 89.93 & \underline{96.97} & 88.00 & 89.17 & 76.48 & 85.20 & 84.24 \\
& Bone & 0.81 & 69.02 & 85.31 & 75.64 & 88.91 & 95.58 & 87.60 & 89.30 & \underline{76.56} & 84.71 & 83.49 \\ & Bone & 0.81 & 69.02 & 85.31 & 75.64 & 88.91 & 95.58 & 87.60 & 89.30 & \underline{76.56} & 84.71 & 83.49 \\
@@ -412,7 +410,7 @@ DyPAM在所有三种骨干模型上均取得了最优的Macro-Avg和Micro-Avg性
& RoSA & 0.36 & 68.96 & 86.94 & 75.33 & 89.85 & 96.38 & \underline{88.20} & 89.43 & 76.16 & 84.99 & 83.91 \\ & RoSA & 0.36 & 68.96 & 86.94 & 75.33 & 89.85 & 96.38 & \underline{88.20} & 89.43 & 76.16 & 84.99 & 83.91 \\
& \textbf{DyPAM} & 0.61 & \textbf{70.89} & \textbf{87.11} & \textbf{77.33} & \textbf{90.53} & \textbf{97.05} & \textbf{88.80} & \underline{89.53} & \textbf{76.80} & \textbf{85.66*} & \textbf{84.75*} \\ & \textbf{DyPAM} & 0.61 & \textbf{70.89} & \textbf{87.11} & \textbf{77.33} & \textbf{90.53} & \textbf{97.05} & \textbf{88.80} & \underline{89.53} & \textbf{76.80} & \textbf{85.66*} & \textbf{84.75*} \\
\midrule \midrule
\multirow{10}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}} \multirow{10}{*}{\textbf{Gemma3-4B}}
& LoRA & 1.33 & 65.72 & 79.71 & 69.40 & 74.49 & 87.08 & 71.00 & 74.53 & 55.01 & 73.37 & 72.12 \\ & LoRA & 1.33 & 65.72 & 79.71 & 69.40 & 74.49 & 87.08 & 71.00 & 74.53 & 55.01 & 73.37 & 72.12 \\
& AdaLoRA & 2.62 & \underline{66.09} & 79.49 & 68.73 & 76.54 & 89.02 & 74.00 & 73.20 & 58.09 & 73.30 & 73.14 \\ & AdaLoRA & 2.62 & \underline{66.09} & 79.49 & 68.73 & 76.54 & 89.02 & 74.00 & 73.20 & 58.09 & 73.30 & 73.14 \\
& OFT & 0.75 & 65.69 & 81.99 & 74.51 & \underline{76.71} & 88.47 & 78.00 & \underline{83.86} & \underline{65.27} & \underline{79.17} & \underline{76.81} \\ & OFT & 0.75 & 65.69 & 81.99 & 74.51 & \underline{76.71} & 88.47 & 78.00 & \underline{83.86} & \underline{65.27} & \underline{79.17} & \underline{76.81} \\
@@ -434,11 +432,10 @@ DyPAM在所有三种骨干模型的常识推理任务上均取得统计显著的
表~\ref{tab:ch5_dypam_scale}展示了DyPAM在Qwen3系列不同模型规模上的可扩展性分析。 表~\ref{tab:ch5_dypam_scale}展示了DyPAM在Qwen3系列不同模型规模上的可扩展性分析。
\begin{table}[htp] \begin{table}[!htbp]
\centering \centering
\caption{DyPAM与主要基线方法在不同模型规模上的数学推理性能比较Macro-Avg准确率\%)。} \caption[DyPAM与主要基线方法在不同模型规模上的数学推理性能比较]{DyPAM与主要基线方法在不同模型规模上的数学推理性能比较Macro-Avg准确率\%)。}
\label{tab:ch5_dypam_scale} \label{tab:ch5_dypam_scale}
\small
\begin{tabular}{lcccc} \begin{tabular}{lcccc}
\toprule \toprule
\textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} & \textbf{Qwen3-8B} \\ \textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} & \textbf{Qwen3-8B} \\
@@ -462,7 +459,7 @@ DyPAM在Qwen3系列四个规模0.6B至8B上均超越所有基线方法。
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.9\linewidth]{assets/5_dypam_ablation.pdf} \includegraphics[width=0.9\linewidth]{assets/5_dypam_ablation.pdf}
\caption{DyPAM消融与超参数敏感性分析。a移除各组件后的性能变化b调制强度$\alpha$的影响。} \caption[DyPAM消融与超参数敏感性分析]{DyPAM消融与超参数敏感性分析。a移除各组件后的性能变化b调制强度$\alpha$的影响。}
\label{fig:ch5_dypam_ablation} \label{fig:ch5_dypam_ablation}
\end{figure} \end{figure}
@@ -480,7 +477,7 @@ DyPAM的消融实验如图~\ref{fig:ch5_dypam_ablation}(a)所示)考察了
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.9\linewidth]{assets/5_bias_modulation.pdf} \includegraphics[width=0.9\linewidth]{assets/5_bias_modulation.pdf}
\caption{DyPAM学习到的位置调制模式。a层级偏置在Query维度上的分布展示异构且结构化的偏置变化b层级调制范围显示稳定受控的缩放行为。} \caption[DyPAM学习到的位置调制模式]{DyPAM学习到的位置调制模式。a层级偏置在Query维度上的分布展示异构且结构化的偏置变化b层级调制范围显示稳定受控的缩放行为。}
\label{fig:ch5_modulation_pattern} \label{fig:ch5_modulation_pattern}
\end{figure} \end{figure}
@@ -497,14 +494,14 @@ DyPAM的消融实验如图~\ref{fig:ch5_dypam_ablation}(a)所示)考察了
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.9\linewidth]{assets/5_modulation_range.pdf} \includegraphics[width=0.9\linewidth]{assets/5_modulation_range.pdf}
\caption{DyPAM学习到的调制因子范围在不同模型和不同任务上的分布。调制因子在所有设置下均围绕1.0保持适度方差但不同架构和不同训练数据呈现出差异化的层间调制分布表明DyPAM以架构依赖和数据依赖的方式适配位置注意力。} \caption[DyPAM学习到的调制因子范围在不同模型和不同任务上的分布]{DyPAM学习到的调制因子范围在不同模型和不同任务上的分布。调制因子在所有设置下均围绕1.0保持适度方差但不同架构和不同训练数据呈现出差异化的层间调制分布表明DyPAM以架构依赖和数据依赖的方式适配位置注意力。}
\label{fig:ch5_modulation_range} \label{fig:ch5_modulation_range}
\end{figure} \end{figure}
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.9\linewidth]{assets/5_bias_comparison.pdf} \includegraphics[width=0.9\linewidth]{assets/5_bias_comparison.pdf}
\caption{不同模型在常识推理与数学推理任务上学习到的层级偏置模式对比。同一模型在不同任务上的偏置模式存在系统性差异表明DyPAM的位置调制行为受训练数据特性的影响。} \caption[不同模型在常识推理与数学推理任务上学习到的层级偏置模式对比]{不同模型在常识推理与数学推理任务上学习到的层级偏置模式对比。同一模型在不同任务上的偏置模式存在系统性差异表明DyPAM的位置调制行为受训练数据特性的影响。}
\label{fig:ch5_bias_comparison} \label{fig:ch5_bias_comparison}
\end{figure} \end{figure}

View File

@@ -1,4 +1,4 @@
% !TeX root = ../main.tex % !TeX root = main.tex
% 第六章 多尺度频谱感知与参数自适应的表征适配方法 % 第六章 多尺度频谱感知与参数自适应的表征适配方法
\chapter{基于多尺度频谱结构与容量分配的参数空间适配方法} \chapter{基于多尺度频谱结构与容量分配的参数空间适配方法}
\label{chap:cascade_messa} \label{chap:cascade_messa}
@@ -36,7 +36,7 @@
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.9\linewidth]{assets/6_spectral_analysis.pdf} \includegraphics[width=0.9\linewidth]{assets/6_spectral_analysis.pdf}
\caption{全量微调下权重更新的频谱特性。高频成分在频谱能量上占主导,但影响范围局限于少量参数;低频成分能量较小但影响权重矩阵的大部分区域。该模式在不同层和模块间保持一致。} \caption[全量微调下权重更新的频谱特性]{全量微调下权重更新的频谱特性。高频成分在频谱能量上占主导,但影响范围局限于少量参数;低频成分能量较小但影响权重矩阵的大部分区域。该模式在不同层和模块间保持一致。}
\label{fig:ch6_spectral} \label{fig:ch6_spectral}
\end{figure} \end{figure}
@@ -50,7 +50,7 @@
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.9\linewidth]{assets/6_task_activation.png} \includegraphics[width=0.9\linewidth]{assets/6_task_activation.png}
\caption{多任务微调中不同任务在注意力模块各层的激活差异。红色表示任务A激活更强蓝色表示任务B激活更强揭示了不同层和模块对共享/专用适配的差异化需求。} \caption[多任务微调中不同任务在注意力模块各层的激活差异]{多任务微调中不同任务在注意力模块各层的激活差异。红色表示任务A激活更强蓝色表示任务B激活更强揭示了不同层和模块对共享/专用适配的差异化需求。}
\label{fig:ch6_task_diff} \label{fig:ch6_task_diff}
\end{figure} \end{figure}
@@ -90,7 +90,7 @@ CASCADE和MESSA分别回应了上述启示的前两点和后两点。
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.85\linewidth]{assets/6_cascade_arch.pdf} \includegraphics[width=0.85\linewidth]{assets/6_cascade_arch.pdf}
\caption{CASCADE方法框架图。CASCADE通过异构的频域和空域专家适配冻结的骨干模块借助级联调制协调全局与局部更新并通过频谱复杂度感知路由实现自适应专家组合。} \caption[CASCADE方法框架图]{CASCADE方法框架图。CASCADE通过异构的频域和空域专家适配冻结的骨干模块借助级联调制协调全局与局部更新并通过频谱复杂度感知路由实现自适应专家组合。}
\label{fig:ch6_cascade_arch} \label{fig:ch6_cascade_arch}
\end{figure} \end{figure}
@@ -216,29 +216,59 @@ CASCADE在冻结骨干的基础上使用下游任务的标准监督目标进行
\end{equation} \end{equation}
该项通过最小化DCT系数向量与小波系数向量之间的内积绝对值促使两类频域专家分别聚焦于互补的频谱模式。 该项通过最小化DCT系数向量与小波系数向量之间的内积绝对值促使两类频域专家分别聚焦于互补的频谱模式。
CASCADE的主要超参数包括低频DCT系数20K个、小波系数10K个、空域残差专家秩$r=48$、负载均衡和正交性损失权重均为0.01。CASCADE的整体训练流程如算法~\ref{alg:ch6_cascade}所示。 CASCADE的主要超参数包括低频DCT系数20K个、小波系数10K个、空域残差专家秩$r=48$、负载均衡和正交性损失权重均为0.01。CASCADE的整体训练流程如算法~\ref{alg:ch6_cascade_2}所示。
%\RestyleAlgo{ruled}
%\begin{algorithm}[htp]
%\caption[CASCADE从粗到细的频谱级联适配算法]{CASCADE从粗到细的频谱级联适配算法}
%\label{alg:ch6_cascade}
%\KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$}
%\KwOut{适配后的输出$\mathbf{y}$}
%计算基础输出 $\mathbf{y}_0 \leftarrow \mathbf{W}_0 \mathbf{x}$\;
%\textbf{低频专家:}\;
%构建稀疏DCT频谱$\mathbf{S}_{\text{dct}}$(式~\ref{eq:ch6_dct_sparse}\;
%重建全局更新$\Delta \mathbf{W}_{\text{dct}}$(式~\ref{eq:ch6_dct_inverse}\;
%\textbf{高频专家:}\;
%构建稀疏小波细节系数$\{\mathbf{B}_b\}_{b\in\mathcal{B}}$(式~\ref{eq:ch6_wavelet_sparse}\;
%计算调制参数$(\gamma_b,\beta_b)_{b\in\mathcal{B}}$(式~\ref{eq:ch6_film_params}\;
%应用频段级FiLM调制$\tilde{\mathbf{B}}_b$(式~\ref{eq:ch6_bandwise_film}\;
%重建局部更新$\Delta \mathbf{W}_{\text{wav}}$(式~\ref{eq:ch6_wavelet_inverse}\;
%\textbf{空域残差专家:}\;
%计算残差更新$\Delta \mathbf{W}_{\text{spatial}}$(式~\ref{eq:ch6_spatial_update}\;
%\textbf{路由与聚合:}\;
%计算专家权重$\mathbf{w}$(式~\ref{eq:ch6_routing_weights}\;
%聚合更新 $\Delta \mathbf{W} \leftarrow \sum_{e=1}^{E} w_e \cdot \Delta \mathbf{W}_e$\;
%\Return{$\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$}
%\end{algorithm}
\RestyleAlgo{ruled} \RestyleAlgo{ruled}
\begin{algorithm}[htp] \begin{algorithm}[htp]
\caption{CASCADE从粗到细的频谱级联适配算法} \caption[CASCADE从粗到细的频谱级联适配算法]{CASCADE从粗到细的频谱级联适配算法}
\label{alg:ch6_cascade} \label{alg:ch6_cascade_2}
\KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$} \KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$}
\KwOut{适配后的输出$\mathbf{y}$} \KwOut{适配后的输出$\mathbf{y}$}
计算基础输出 $\mathbf{y}_0 \leftarrow \mathbf{W}_0 \mathbf{x}$\; 计算基础输出 $\mathbf{y}_0 \leftarrow \mathbf{W}_0 \mathbf{x}$\;
\textbf{低频专家:}\; \textbf{低频专家:}\;
构建稀疏DCT频谱$\mathbf{S}_{\text{dct}}$(式~\ref{eq:ch6_dct_sparse}\; \Indp
重建全局更新$\Delta \mathbf{W}_{\text{dct}}$(式~\ref{eq:ch6_dct_inverse}\; 构建稀疏DCT频谱$\mathbf{S}_{\text{dct}}$(式~\ref{eq:ch6_dct_sparse}\;
\textbf{高频专家:}\; 重建全局更新$\Delta \mathbf{W}_{\text{dct}}$(式~\ref{eq:ch6_dct_inverse}\;
构建稀疏小波细节系数$\{\mathbf{B}_b\}_{b\in\mathcal{B}}$(式~\ref{eq:ch6_wavelet_sparse}\; \Indm
计算调制参数$(\gamma_b,\beta_b)_{b\in\mathcal{B}}$(式~\ref{eq:ch6_film_params}\; \textbf{高频专家:}\;
应用频段级FiLM调制$\tilde{\mathbf{B}}_b$(式~\ref{eq:ch6_bandwise_film}\; \Indp
重建局部更新$\Delta \mathbf{W}_{\text{wav}}$(式~\ref{eq:ch6_wavelet_inverse}\; 构建稀疏小波细节系数$\{\mathbf{B}_b\}_{b\in\mathcal{B}}$(式~\ref{eq:ch6_wavelet_sparse}\;
\textbf{空域残差专家:}\; 计算调制参数$(\gamma_b,\beta_b)_{b\in\mathcal{B}}$(式~\ref{eq:ch6_film_params}\;
计算残差更新$\Delta \mathbf{W}_{\text{spatial}}$(式~\ref{eq:ch6_spatial_update}\; 应用频段级FiLM调制$\tilde{\mathbf{B}}_b$(式~\ref{eq:ch6_bandwise_film}\;
\textbf{路由与聚合:}\; 重建局部更新$\Delta \mathbf{W}_{\text{wav}}$(式~\ref{eq:ch6_wavelet_inverse}\;
计算专家权重$\mathbf{w}$(式~\ref{eq:ch6_routing_weights}\; \Indm
聚合更新 $\Delta \mathbf{W} \leftarrow \sum_{e=1}^{E} w_e \cdot \Delta \mathbf{W}_e$\; \textbf{空域残差专家:}\;
\Return{$\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$} \Indp
计算残差更新$\Delta \mathbf{W}_{\text{spatial}}$(式~\ref{eq:ch6_spatial_update}\;
\Indm
\textbf{路由与聚合:}\;
\Indp
计算专家权重$\mathbf{w}$(式~\ref{eq:ch6_routing_weights}\;
聚合更新 $\Delta \mathbf{W} \leftarrow \sum_{e=1}^{E} w_e \cdot \Delta \mathbf{W}_e$\;
\Indm
\textbf{计算适配后的输出 $\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$}\;
\end{algorithm} \end{algorithm}
@@ -250,7 +280,7 @@ CASCADE解决了单一适配中的频谱级多尺度异质性问题。本节进
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.85\linewidth]{assets/6_messa_arch.pdf} \includegraphics[width=0.85\linewidth]{assets/6_messa_arch.pdf}
\caption{MESSA方法框架图。MESSA将适配分解为共享和任务特有的稀疏更新通过预算感知的软门控学习稀疏结构并通过软到硬的训练过程在统一参数预算下生成可部署的稀疏模型。} \caption[MESSA方法框架图]{MESSA方法框架图。MESSA将适配分解为共享和任务特有的稀疏更新通过预算感知的软门控学习稀疏结构并通过软到硬的训练过程在统一参数预算下生成可部署的稀疏模型。}
\label{fig:ch6_messa_arch} \label{fig:ch6_messa_arch}
\end{figure} \end{figure}
@@ -332,7 +362,7 @@ MESSA将每个任务$t$的适配增量分解为共享成分和任务特有成分
\RestyleAlgo{ruled} \RestyleAlgo{ruled}
\begin{algorithm}[htp] \begin{algorithm}[htp]
\caption{MESSA软到硬的多任务稀疏微调算法} \caption[MESSA软到硬的多任务稀疏微调算法]{MESSA软到硬的多任务稀疏微调算法}
\label{alg:ch6_messa} \label{alg:ch6_messa}
\KwIn{冻结骨干模型$\mathcal{M}$,任务集合$\{\mathcal{T}_t\}_{t=1}^T$,全局预算$B$,训练步数$S$} \KwIn{冻结骨干模型$\mathcal{M}$,任务集合$\{\mathcal{T}_t\}_{t=1}^T$,全局预算$B$,训练步数$S$}
\KwOut{共享稀疏更新$\Delta_{\mathrm{sh}}$,各任务特有稀疏更新$\{\Delta_{\mathrm{sp}}^{(t)}\}_{t=1}^T$} \KwOut{共享稀疏更新$\Delta_{\mathrm{sh}}$,各任务特有稀疏更新$\{\Delta_{\mathrm{sp}}^{(t)}\}_{t=1}^T$}
@@ -402,19 +432,19 @@ CASCADE和MESSA从不同角度应对参数空间的结构异质性挑战
从方法设计层面看CASCADE和MESSA分别丰富了统一框架中的组合式调制和结构分解调制两种形式。与第三至五章的乘性调制共同构成了三种调制形式的完整实例化验证了第一章统一分析框架对不同结构异质性类型和调制机制的覆盖能力。 从方法设计层面看CASCADE和MESSA分别丰富了统一框架中的组合式调制和结构分解调制两种形式。与第三至五章的乘性调制共同构成了三种调制形式的完整实例化验证了第一章统一分析框架对不同结构异质性类型和调制机制的覆盖能力。
\begin{figure}[htbp] % \begin{figure}[htbp]
\centering % \centering
% 占位:待替换为外部绘制的 6_cascade_messa_relation.pdf % % 占位:待替换为外部绘制的 6_cascade_messa_relation.pdf
% \includegraphics[width=0.85\textwidth]{assets/6_cascade_messa_relation.pdf} % % \includegraphics[width=0.85\textwidth]{assets/6_cascade_messa_relation.pdf}
\caption{CASCADE与MESSA在参数空间适配中的互补关系。该图采用双轴矩阵布局 % \caption[CASCADE与MESSA在参数空间适配中的互补关系]{CASCADE与MESSA在参数空间适配中的互补关系。该图采用双轴矩阵布局
\textbf{横轴}为"适配问题维度",标注两个正交方向——"单任务内部的多尺度结构"(左)和"多任务间的容量分配"(右)。 % \textbf{横轴}为"适配问题维度",标注两个正交方向——"单任务内部的多尺度结构"(左)和"多任务间的容量分配"(右)。
\textbf{纵轴}为"调制机制",标注两种形式——"组合式调制"(上)和"结构分解调制"(下)。 % \textbf{纵轴}为"调制机制",标注两种形式——"组合式调制"(上)和"结构分解调制"(下)。
CASCADE定位于左上象限用小型示意图展示其核心机制权重更新$\Delta\mathbf{W}$通过DCT和小波分解为低频全局成分与高频局部成分经级联调制后由路由权重$w_e$加权重组。 % CASCADE定位于左上象限用小型示意图展示其核心机制权重更新$\Delta\mathbf{W}$通过DCT和小波分解为低频全局成分与高频局部成分经级联调制后由路由权重$w_e$加权重组。
MESSA定位于右下象限用小型示意图展示其核心机制参数组通过软门控$z^{\text{sh}}_g$/$z^{\text{sp}}_{g,t}$被分配为共享或任务特有状态,在全局预算$B$约束下经一次性剪枝固化结构。 % MESSA定位于右下象限用小型示意图展示其核心机制参数组通过软门控$z^{\text{sh}}_g$/$z^{\text{sp}}_{g,t}$被分配为共享或任务特有状态,在全局预算$B$约束下经一次性剪枝固化结构。
左上与右下之间用双向虚线箭头标注"互补",并在交叉区域(右上)标注"潜在组合方向:频谱感知的共享-特有分解"。 % 左上与右下之间用双向虚线箭头标注"互补",并在交叉区域(右上)标注"潜在组合方向:频谱感知的共享-特有分解"。
图底部用色条标注两种方法在统一框架中的定位:$\mathcal{R}_{spec}$(组合式调制)与$\mathcal{R}_{param}$(结构分解调制)。} % 图底部用色条标注两种方法在统一框架中的定位:$\mathcal{R}_{spec}$(组合式调制)与$\mathcal{R}_{param}$(结构分解调制)。}
\label{fig:ch6_cascade_messa_relation} % \label{fig:ch6_cascade_messa_relation}
\end{figure} % \end{figure}
\section{实验验证与结果分析} \section{实验验证与结果分析}
@@ -439,18 +469,17 @@ MESSA定位于右下象限用小型示意图展示其核心机制参数组
表~\ref{tab:ch6_cascade_common}展示了CASCADE在常识推理任务上的性能。 表~\ref{tab:ch6_cascade_common}展示了CASCADE在常识推理任务上的性能。
\begin{table}[htp] \begin{table}[!htbp]
\centering \centering
\caption{CASCADE与基线方法在常识推理任务上的性能比较Micro-Avg准确率\%)。*表示统计显著提升。} \caption[CASCADE与基线方法在常识推理任务上的性能比较]{CASCADE与基线方法在常识推理任务上的性能比较Micro-Avg准确率\%)。\\ *表示统计显著提升。}
\label{tab:ch6_cascade_common} \label{tab:ch6_cascade_common}
\small
\resizebox{\linewidth}{!}{ \resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{1.05} \renewcommand{\arraystretch}{1.05}
\begin{tabular}{l|lcccccccccc} \begin{tabular}{l|lcccccccccc}
\toprule \toprule
\textbf{骨干} & \textbf{方法} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} \\ \textbf{骨干} & \textbf{方法} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} \\
\midrule \midrule
\multirow{7}{*}{\rotatebox{90}{\textbf{Qwen3-4B}}} \multirow{7}{*}{\textbf{Qwen3-4B}}
& LoRA & 66.88 & 82.97 & \underline{73.59} & 86.86 & 92.21 & \underline{83.60} & 85.37 & \underline{68.75} & 81.27 \\ & LoRA & 66.88 & 82.97 & \underline{73.59} & 86.86 & 92.21 & \underline{83.60} & 85.37 & \underline{68.75} & 81.27 \\
& AdaLoRA & \underline{67.34} & 82.64 & 73.44 & 87.03 & 92.89 & 82.00 & 79.99 & 67.88 & 78.89 \\ & AdaLoRA & \underline{67.34} & 82.64 & 73.44 & 87.03 & 92.89 & 82.00 & 79.99 & 67.88 & 78.89 \\
& BONE & 66.15 & 81.61 & 72.62 & 85.24 & 92.55 & 75.40 & 78.85 & 68.11 & 77.78 \\ & BONE & 66.15 & 81.61 & 72.62 & 85.24 & 92.55 & 75.40 & 78.85 & 68.11 & 77.78 \\
@@ -459,7 +488,7 @@ MESSA定位于右下象限用小型示意图展示其核心机制参数组
& FlyLoRA & 66.51 & \underline{83.35} & 73.54 & \underline{87.20} & 93.06 & 78.20 & \underline{85.63} & 68.35 & \underline{81.33} \\ & FlyLoRA & 66.51 & \underline{83.35} & 73.54 & \underline{87.20} & 93.06 & 78.20 & \underline{85.63} & 68.35 & \underline{81.33} \\
& \textbf{CASCADE} & \textbf{67.74} & \textbf{83.46} & \textbf{75.49} & \textbf{87.88} & \textbf{93.64} & \textbf{86.40} & \textbf{85.75} & \textbf{71.98} & \textbf{82.22*} \\ & \textbf{CASCADE} & \textbf{67.74} & \textbf{83.46} & \textbf{75.49} & \textbf{87.88} & \textbf{93.64} & \textbf{86.40} & \textbf{85.75} & \textbf{71.98} & \textbf{82.22*} \\
\midrule \midrule
\multirow{7}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}} \multirow{7}{*}{\textbf{LLaMA3.2-3B}}
& LoRA & 61.41 & 78.62 & 66.79 & 68.26 & 84.05 & 70.20 & 79.49 & \underline{56.35} & \underline{74.05} \\ & LoRA & 61.41 & 78.62 & 66.79 & 68.26 & 84.05 & 70.20 & 79.49 & \underline{56.35} & \underline{74.05} \\
& AdaLoRA & \underline{61.53} & 78.89 & 67.04 & \underline{69.71} & 83.63 & 69.60 & 79.31 & 54.78 & 73.96 \\ & AdaLoRA & \underline{61.53} & 78.89 & 67.04 & \underline{69.71} & 83.63 & 69.60 & 79.31 & 54.78 & 73.96 \\
& BONE & 60.61 & 76.17 & 66.53 & 67.24 & 79.88 & 63.20 & 79.28 & 50.04 & 72.61 \\ & BONE & 60.61 & 76.17 & 66.53 & 67.24 & 79.88 & 63.20 & 79.28 & 50.04 & 72.61 \\
@@ -468,7 +497,7 @@ MESSA定位于右下象限用小型示意图展示其核心机制参数组
& FlyLoRA & 59.02 & 78.94 & \underline{67.14} & 67.58 & \underline{84.22} & \underline{71.80} & \underline{79.66} & 52.49 & 73.64 \\ & FlyLoRA & 59.02 & 78.94 & \underline{67.14} & 67.58 & \underline{84.22} & \underline{71.80} & \underline{79.66} & 52.49 & 73.64 \\
& \textbf{CASCADE} & \textbf{62.66} & \textbf{80.69} & \textbf{67.40} & \textbf{69.97} & \textbf{84.68} & \textbf{73.60} & \textbf{79.94} & \textbf{62.59} & \textbf{75.25*} \\ & \textbf{CASCADE} & \textbf{62.66} & \textbf{80.69} & \textbf{67.40} & \textbf{69.97} & \textbf{84.68} & \textbf{73.60} & \textbf{79.94} & \textbf{62.59} & \textbf{75.25*} \\
\midrule \midrule
\multirow{7}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}} \multirow{7}{*}{\textbf{Gemma3-4B}}
& LoRA & 64.34 & 78.07 & \underline{70.21} & 75.26 & \underline{87.37} & 75.60 & \underline{77.97} & \underline{61.88} & \underline{75.21} \\ & LoRA & 64.34 & 78.07 & \underline{70.21} & 75.26 & \underline{87.37} & 75.60 & \underline{77.97} & \underline{61.88} & \underline{75.21} \\
& AdaLoRA & \underline{64.86} & \underline{79.16} & 69.91 & 75.68 & 86.87 & 72.00 & 77.19 & 61.17 & 74.84 \\ & AdaLoRA & \underline{64.86} & \underline{79.16} & 69.91 & 75.68 & 86.87 & 72.00 & 77.19 & 61.17 & 74.84 \\
& BONE & 63.67 & 78.35 & 69.19 & \underline{76.11} & 86.95 & 70.60 & 73.97 & 48.22 & 72.37 \\ & BONE & 63.67 & 78.35 & 69.19 & \underline{76.11} & 86.95 & 70.60 & 73.97 & 48.22 & 72.37 \\
@@ -489,19 +518,18 @@ CASCADE在所有三种骨干模型上均取得了统计显著的最优Micro-Avg
表~\ref{tab:ch6_cascade_math}展示了CASCADE在数学推理任务上的性能。 表~\ref{tab:ch6_cascade_math}展示了CASCADE在数学推理任务上的性能。
\begin{table}[htp] \begin{table}[!htbp]
\centering \centering
\caption{CASCADE与基线方法在数学推理任务上的性能比较Qwen3-4BMicro-Avg准确率\%)。*表示统计显著提升。} \caption[CASCADE与基线方法在数学推理任务上的性能比较]{CASCADE与基线方法在数学推理任务上的性能比较Qwen3-4BMicro-Avg准确率\%)。*表示统计显著提升。}
\label{tab:ch6_cascade_math} \label{tab:ch6_cascade_math}
\small
\resizebox{\linewidth}{!}{ \resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{1.05} \renewcommand{\arraystretch}{1.05}
\begin{tabular}{lcccccccc} \begin{tabular}{lcccccccc}
\toprule \toprule
\textbf{方法} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} \\ \textbf{方法} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} \\
\midrule \midrule
LoRA & \underline{77.50} & \underline{36.16} & \underline{83.80} & 26.77 & 85.83 & 55.90 & \underline{79.41} & \underline{58.53} \\ LoRA & 77.50 & \underline{36.16} & \underline{83.80} & 26.77 & 85.83 & 55.90 & \underline{79.41} & \underline{58.53} \\
AdaLoRA & 80.50 & 33.81 & 75.95 & 22.83 & 74.41 & 48.80 & 74.37 & 54.01 \\ AdaLoRA & \underline{80.50} & 33.81 & 75.95 & 22.83 & 74.41 & 48.80 & 74.37 & 54.01 \\
BONE & 79.50 & 31.69 & 78.99 & \underline{27.17} & 80.71 & 50.30 & 76.05 & 54.94 \\ BONE & 79.50 & 31.69 & 78.99 & \underline{27.17} & 80.71 & 50.30 & 76.05 & 54.94 \\
FourierFT & 68.67 & 31.08 & 76.46 & 23.62 & 78.54 & \underline{57.30} & 74.34 & 54.02 \\ FourierFT & 68.67 & 31.08 & 76.46 & 23.62 & 78.54 & \underline{57.30} & 74.34 & 54.02 \\
LoCA & 73.33 & 30.63 & 72.15 & 21.65 & 75.98 & 48.30 & 69.33 & 51.41 \\ LoCA & 73.33 & 30.63 & 72.15 & 21.65 & 75.98 & 48.30 & 69.33 & 51.41 \\
@@ -518,11 +546,10 @@ CASCADE在Qwen3-4B上取得了60.29\%的最优Micro-Avg性能显著优于所
表~\ref{tab:ch6_cascade_scale}展示了CASCADE在Qwen3系列不同模型规模上的常识推理性能。 表~\ref{tab:ch6_cascade_scale}展示了CASCADE在Qwen3系列不同模型规模上的常识推理性能。
\begin{table}[htp] \begin{table}[!htbp]
\centering \centering
\caption{CASCADE与基线方法在不同模型规模上的常识推理性能比较Micro-Avg准确率\%)。} \caption[CASCADE与基线方法在不同模型规模上的常识推理性能比较]{CASCADE与基线方法在不同模型规模上的常识推理性能比较Micro-Avg准确率\%)。}
\label{tab:ch6_cascade_scale} \label{tab:ch6_cascade_scale}
\small
\begin{tabular}{lccc} \begin{tabular}{lccc}
\toprule \toprule
\textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} \\ \textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} \\
@@ -546,7 +573,7 @@ CASCADE在所有模型规模上均取得最优性能且在较小模型0.6B
\hfill \hfill
\subcaptionbox{路由权重分布\label{fig:ch6_cascade_ablation_b}}{% \subcaptionbox{路由权重分布\label{fig:ch6_cascade_ablation_b}}{%
\includegraphics[width=0.48\linewidth]{assets/6_cascade_ablation_b.pdf}} \includegraphics[width=0.48\linewidth]{assets/6_cascade_ablation_b.pdf}}
\caption{CASCADE的消融实验与路由行为分析。a移除各组件后的性能变化b不同层中各专家的路由权重分布。} \caption[CASCADE的消融实验与路由行为分析]{CASCADE的消融实验与路由行为分析。a移除各组件后的性能变化b不同层中各专家的路由权重分布。}
\label{fig:ch6_cascade_ablation} \label{fig:ch6_cascade_ablation}
\end{figure} \end{figure}
@@ -571,11 +598,10 @@ CASCADE在所有模型规模上均取得最优性能且在较小模型0.6B
表~\ref{tab:ch6_messa_overall}展示了MESSA在多任务总体性能上的结果。 表~\ref{tab:ch6_messa_overall}展示了MESSA在多任务总体性能上的结果。
\begin{table}[htp] \begin{table}[!htbp]
\centering \centering
\caption{MESSA与基线方法在多任务总体性能上的比较。Avg为宏平均Geo为几何平均Worst为最差任务性能。*表示统计显著提升。} \caption[MESSA与基线方法在多任务总体性能上的比较]{MESSA与基线方法在多任务总体性能上的比较。Avg为宏平均Geo为几何平均Worst为最差任务性能。*表示统计显著提升。}
\label{tab:ch6_messa_overall} \label{tab:ch6_messa_overall}
\small
\resizebox{\linewidth}{!}{ \resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{1.05} \renewcommand{\arraystretch}{1.05}
\begin{tabular}{l|c|ccc|ccc|ccc} \begin{tabular}{l|c|ccc|ccc|ccc}
@@ -585,7 +611,7 @@ CASCADE在所有模型规模上均取得最优性能且在较小模型0.6B
& & Avg & Geo & Worst & Avg & Geo & Worst & Avg & Geo & Worst \\ & & Avg & Geo & Worst & Avg & Geo & Worst & Avg & Geo & Worst \\
\midrule \midrule
LoRA (shared) & 2.25 & 76.47 & 75.56 & 59.81 & 67.05 & 65.99 & 53.03 & 71.22 & 69.53 & 50.08 \\ LoRA (shared) & 2.25 & 76.47 & 75.56 & 59.81 & 67.05 & 65.99 & 53.03 & 71.22 & 69.53 & 50.08 \\
LoRA (specific) & 2.25 & \underline{76.66} & \underline{75.76} & 60.75 & 64.70 & 63.29 & 52.75 & \underline{71.86} & \underline{70.09} & 49.45 \\ LoRA (specific) & 2.25 & 76.66 & 75.76 & 60.75 & 64.70 & 63.29 & 52.75 & \underline{71.86} & \underline{70.09} & 49.45 \\
AdaLoRA (shared) & 2.50 & 74.82 & 73.94 & 58.24 & 63.02 & 62.10 & 51.18 & 65.39 & 62.85 & 42.27 \\ AdaLoRA (shared) & 2.50 & 74.82 & 73.94 & 58.24 & 63.02 & 62.10 & 51.18 & 65.39 & 62.85 & 42.27 \\
AdaLoRA (specific) & 2.50 & 75.45 & 74.61 & 59.18 & 62.94 & 61.99 & 53.03 & 66.57 & 64.00 & 43.33 \\ AdaLoRA (specific) & 2.50 & 75.45 & 74.61 & 59.18 & 62.94 & 61.99 & 53.03 & 66.57 & 64.00 & 43.33 \\
\midrule \midrule
@@ -610,29 +636,29 @@ MESSA在所有三种骨干模型上均取得统计显著的最优多任务性能
表~\ref{tab:ch6_messa_pertask}进一步展示了MESSA在Qwen3-4B上五个任务的逐任务性能。 表~\ref{tab:ch6_messa_pertask}进一步展示了MESSA在Qwen3-4B上五个任务的逐任务性能。
\begin{table}[htp] \begin{table}[!htbp]
\centering \centering
\caption{MESSA与基线方法在各任务上的逐项性能比较Qwen3-4B} \caption[MESSA与基线方法在各任务上的逐项性能比较Qwen3-4B]{MESSA与基线方法在各任务上的逐项性能比较Qwen3-4B}
\label{tab:ch6_messa_pertask} \label{tab:ch6_messa_pertask}
\small
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{1.05} \renewcommand{\arraystretch}{1.05}
\begin{tabular}{lccccccc} \begin{tabular}{lccccccc}
\toprule \toprule
\textbf{方法} & \textbf{BoolQ} & \textbf{CodeAlpaca} & \textbf{MedQA} & \textbf{GSM8K} & \textbf{HellaSwag} & \textbf{Avg} & \textbf{Geo} \\ \textbf{方法} & \textbf{BoolQ} & \textbf{CodeAlpaca} & \textbf{MedQA} & \textbf{GSM8K} & \textbf{HellaSwag} & \textbf{Avg} & \textbf{Geo} \\
\midrule \midrule
LoRA (shared) & 86.79 & \underline{67.45} & 59.81 & 77.27 & 91.02 & 76.47 & 75.56 \\ LoRA (shared) & 86.79 & 67.45 & 59.81 & 77.27 & 91.02 & 76.47 & 75.56 \\
LoRA (specific) & \underline{87.89} & 67.40 & 60.75 & 76.06 & 91.20 & 76.66 & 75.76 \\ LoRA (specific) & \underline{87.89} & 67.40 & 60.75 & 76.06 & 91.20 & 76.66 & 75.76 \\
AdaLoRA (shared) & 85.81 & 66.55 & 58.24 & 75.61 & 87.89 & 74.82 & 73.94 \\ AdaLoRA (shared) & 85.81 & 66.55 & 58.24 & 75.61 & 87.89 & 74.82 & 73.94 \\
AdaLoRA (specific) & 85.02 & 66.75 & 59.18 & \underline{77.42} & 88.89 & 75.45 & 74.61 \\ AdaLoRA (specific) & 85.02 & 66.75 & 59.18 & 77.42 & 88.89 & 75.45 & 74.61 \\
SHiRA (shared) & 86.79 & 64.65 & 56.99 & 74.85 & 89.70 & 74.60 & 73.51 \\ SHiRA (shared) & 86.79 & 64.65 & 56.99 & 74.85 & 89.70 & 74.60 & 73.51 \\
SHiRA (specific) & 87.40 & 63.50 & \underline{62.64} & 77.73 & \underline{91.83} & 76.62 & 75.67 \\ SHiRA (specific) & 87.40 & 63.50 & \underline{62.64} & \underline{77.73} & \underline{91.83} & 76.62 & 75.67 \\
MTLoRA & 86.42 & 66.35 & 62.01 & \textbf{78.33} & 90.92 & \underline{76.81} & \underline{75.98} \\ MTLoRA & 86.42 & 66.35 & 62.01 & \textbf{78.33} & 90.92 & \underline{76.81} & \underline{75.98} \\
MOELoRA & 86.24 & \underline{67.65} & 60.91 & 75.61 & 89.92 & 76.07 & 75.27 \\ MOELoRA & 86.24 & \underline{67.65} & 60.91 & 75.61 & 89.92 & 76.07 & 75.27 \\
\textbf{MESSA} & \textbf{88.07} & \textbf{68.30} & \textbf{62.79} & \textbf{78.33} & \textbf{92.57} & \textbf{78.01} & \textbf{77.18} \\ \textbf{MESSA} & \textbf{88.07} & \textbf{68.30} & \textbf{62.79} & \textbf{78.33} & \textbf{92.57} & \textbf{78.01} & \textbf{77.18} \\
\bottomrule \bottomrule
\end{tabular} \end{tabular}
}
\end{table} \end{table}
逐任务分析揭示了MESSA在所有五个任务上均取得最优或并列最优的性能。特别地在跨领域差异最大的任务对如编程类CodeAlpaca与医学类MedQAMESSA均显著优于所有基线表明共享-特有稀疏分解有效地在异质任务之间实现了知识的选择性复用与差异化适配。 逐任务分析揭示了MESSA在所有五个任务上均取得最优或并列最优的性能。特别地在跨领域差异最大的任务对如编程类CodeAlpaca与医学类MedQAMESSA均显著优于所有基线表明共享-特有稀疏分解有效地在异质任务之间实现了知识的选择性复用与差异化适配。
@@ -641,12 +667,11 @@ MESSA在所有三种骨干模型上均取得统计显著的最优多任务性能
表~\ref{tab:ch6_messa_scale}展示了MESSA在Qwen3系列不同模型规模上的多任务性能。 表~\ref{tab:ch6_messa_scale}展示了MESSA在Qwen3系列不同模型规模上的多任务性能。
\begin{table}[htp] \begin{table}[!htbp]
\centering \centering
\caption{MESSA与基线方法在不同模型规模上的多任务性能比较。} \caption[MESSA与基线方法在不同模型规模上的多任务性能比较]{MESSA与基线方法在不同模型规模上的多任务性能比较。}
\label{tab:ch6_messa_scale} \label{tab:ch6_messa_scale}
\small
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{1.05} \renewcommand{\arraystretch}{1.05}
\begin{tabular}{lcccccc} \begin{tabular}{lcccccc}
\toprule \toprule
@@ -662,7 +687,7 @@ MESSA在所有三种骨干模型上均取得统计显著的最优多任务性能
\textbf{MESSA} & \textbf{61.77} & \textbf{58.65} & \textbf{71.93} & \textbf{70.18} & \textbf{78.01} & \textbf{77.18} \\ \textbf{MESSA} & \textbf{61.77} & \textbf{58.65} & \textbf{71.93} & \textbf{70.18} & \textbf{78.01} & \textbf{77.18} \\
\bottomrule \bottomrule
\end{tabular} \end{tabular}
}
\end{table} \end{table}
MESSA在所有模型规模上均取得最优性能。随着模型规模从0.6B增大到4BMESSA相对于基线的优势保持稳定Avg差距约0.6--1.9个百分点),表明共享-特有分解的结构分配策略在不同参数容量下均能有效运作。 MESSA在所有模型规模上均取得最优性能。随着模型规模从0.6B增大到4BMESSA相对于基线的优势保持稳定Avg差距约0.6--1.9个百分点),表明共享-特有分解的结构分配策略在不同参数容量下均能有效运作。
@@ -672,7 +697,7 @@ MESSA在所有模型规模上均取得最优性能。随着模型规模从0.6B
\begin{figure}[htp] \begin{figure}[htp]
\centering \centering
\includegraphics[width=0.9\linewidth]{assets/6_messa_analysis.pdf} \includegraphics[width=0.9\linewidth]{assets/6_messa_analysis.pdf}
\caption{MESSA的消融实验与结构分析。a各组件对多任务性能的贡献b共享和任务特有更新在注意力模块间的分配比例。} \caption[MESSA的消融实验与结构分析]{MESSA的消融实验与结构分析。a各组件对多任务性能的贡献b共享和任务特有更新在注意力模块间的分配比例。}
\label{fig:ch6_messa_analysis} \label{fig:ch6_messa_analysis}
\end{figure} \end{figure}

View File

@@ -1,3 +1,4 @@
% !TeX root = ../main.tex
% \chapter*{总结与展望} % \chapter*{总结与展望}
\summary \summary

View File

@@ -96,7 +96,7 @@
% 在此修改 论文类型,密级,打印设置,系统类型,标题长短,学科类型 % 在此修改 论文类型,密级,打印设置,系统类型,标题长短,学科类型
% 学科类型需填写“STEM”或者“HSS”该项会影响章节条标题的形式 % 学科类型需填写“STEM”或者“HSS”该项会影响章节条标题的形式
\documentclass[doctor,public,library,mac,short,STEM,AutoFakeBold]{def/buaa} \documentclass[doctor,public,library,win,short,STEM,AutoFakeBold]{def/buaa}
% \documentclass[doctor,public,library,mac,short,STEM,AutoFakeBold=true]{def/buaa} % \documentclass[doctor,public,library,mac,short,STEM,AutoFakeBold=true]{def/buaa}
%\setlength{\abovedisplayskip}{1pt} %\setlength{\abovedisplayskip}{1pt}
@@ -157,7 +157,7 @@
\Major{计算机应用技术} \Major{计算机应用技术}
\Feild{大语言模型参数高效微调} \Feild{大语言模型参数高效微调}
\Discipline{计算机科学与技术} \Discipline{计算机科学与技术}
\Direction{\highlight{计算机应用技术TBD}} \Direction{计算机应用技术}
% 导师信息-{中文名}{英文名}{职称} % 导师信息-{中文名}{英文名}{职称}
\Tutor{熊璋}{Zhang Xiong}{教授} \Tutor{熊璋}{Zhang Xiong}{教授}
@@ -175,9 +175,9 @@
% 时间节点-{月}{日}{年} % 时间节点-{月}{日}{年}
\DateEnroll{09}{01}{2019} \DateEnroll{09}{01}{2019}
\DateGraduate{\highlight{0x}}{31}{2026} \DateGraduate{}{31}{2026}
\DateSubmit{\highlight{0x}}{10}{2026} \DateSubmit{}{10}{2026}
\DateDefence{\highlight{0x}}{01}{2026} \DateDefence{}{01}{2026}
%%================================================================= %%=================================================================
\input{0.1_abs&keyw.tex} \input{0.1_abs&keyw.tex}
@@ -228,17 +228,17 @@
\Bib{def/GBT7714-2015-NoWarning.bst}{ref.bib} \Bib{def/GBT7714-2015-NoWarning.bst}{ref.bib}
% 附录 % % 附录
\input{tex/chap_appendix} % \input{tex/chap_appendix}
% 攻读学位期间成果 % % 攻读学位期间成果
\input{tex/chap_achievement} % \input{tex/chap_achievement}
% 致谢 % % 致谢
\input{tex/chap_acknowledge} % \input{tex/chap_acknowledge}
% 作者简介 % % 作者简介
\input{tex/chap_biography} % \input{tex/chap_biography}
\vspace{5cm} \vspace{5cm}

0
mypaper/AAAI2026_RoSA.bib Executable file → Normal file
View File

0
mypaper/AAAI2026_RoSA.tex Executable file → Normal file
View File

0
mypaper/CIKM2025_HyCAM.bib Executable file → Normal file
View File

0
mypaper/CIKM2025_HyCAM.tex Executable file → Normal file
View File

0
mypaper/IJCAI2026_CASCADE.bib Executable file → Normal file
View File

0
mypaper/IJCAI2026_MESSA.bib Executable file → Normal file
View File

98
ref.bib
View File

@@ -2563,3 +2563,101 @@ LargeST(引过了)
archivePrefix = {arXiv}, archivePrefix = {arXiv},
year = {2024} year = {2024}
} }
@inproceedings{bogoychev2021not,
title={Not all parameters are born equal: Attention is mostly what you need},
author={Bogoychev, Nikolay},
booktitle={Proceedings of the fourth blackboxnlp workshop on analyzing and interpreting neural networks for nlp},
pages={363--374},
year={2021}
}
@article{olsson2022context,
title={In-context learning and induction heads},
author={Olsson, Catherine and Elhage, Nelson and Nanda, Neel and Joseph, Nicholas and DasSarma, Nova and Henighan, Tom and Mann, Ben and Askell, Amanda and Bai, Yuntao and Chen, Anna and others},
journal={arXiv preprint arXiv:2209.11895},
year={2022}
}
@inproceedings{rahaman2019spectral,
title={On the spectral bias of neural networks},
author={Rahaman, Nasim and Baratin, Aristide and Arpit, Devansh and Draxler, Felix and Lin, Min and Hamprecht, Fred and Bengio, Yoshua and Courville, Aaron},
booktitle={International conference on machine learning},
pages={5301--5310},
year={2019},
organization={PMLR}
}
@inproceedings{liu2022p,
title={P-tuning: Prompt tuning can be comparable to fine-tuning across scales and tasks},
author={Liu, Xiao and Ji, Kaixuan and Fu, Yicheng and Tam, Weng and Du, Zhengxiao and Yang, Zhilin and Tang, Jie},
booktitle={Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)},
pages={61--68},
year={2022}
}
@article{dettmers2023qlora,
title={Qlora: Efficient finetuning of quantized llms},
author={Dettmers, Tim and Pagnoni, Artidoro and Holtzman, Ari and Zettlemoyer, Luke},
journal={Advances in neural information processing systems},
volume={36},
pages={10088--10115},
year={2023}
}
@article{caruana1997multitask,
title={Multitask learning},
author={Caruana, Rich},
journal={Machine learning},
volume={28},
number={1},
pages={41--75},
year={1997},
publisher={Springer}
}
@inproceedings{chen2018gradnorm,
title={Gradnorm: Gradient normalization for adaptive loss balancing in deep multitask networks},
author={Chen, Zhao and Badrinarayanan, Vijay and Lee, Chen-Yu and Rabinovich, Andrew},
booktitle={International conference on machine learning},
pages={794--803},
year={2018},
organization={PMLR}
}
@inproceedings{godey2024anisotropy,
title={Anisotropy is inherent to self-attention in transformers},
author={Godey, Nathan and Clergerie, {\'E}ric and Sagot, Beno{\^\i}t},
booktitle={Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers)},
pages={35--48},
year={2024}
}
@article{liu2018darts,
title={Darts: Differentiable architecture search},
author={Liu, Hanxiao and Simonyan, Karen and Yang, Yiming},
journal={arXiv preprint arXiv:1806.09055},
year={2018}
}
@article{frankle2019stabilizing,
title={Stabilizing the lottery ticket hypothesis},
author={Frankle, Jonathan and Dziugaite, Gintare Karolina and Roy, Daniel M and Carbin, Michael},
journal={arXiv preprint arXiv:1903.01611},
year={2019}
}
@article{ilharco2022editing,
title={Editing models with task arithmetic},
author={Ilharco, Gabriel and Ribeiro, Marco Tulio and Wortsman, Mitchell and Gururangan, Suchin and Schmidt, Ludwig and Hajishirzi, Hannaneh and Farhadi, Ali},
journal={arXiv preprint arXiv:2212.04089},
year={2022}
}
@article{devlin2018bert,
title={BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding},
author={Devlin, Jacob and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina},
journal={arXiv preprint arXiv:1810.04805},
year={2018}
}

View File

@@ -0,0 +1,169 @@
"""
生成 RoPE 旋转位置编码的频率分解结构示意图 (fig:ch2_rope_frequency)
三个子图:(a) 维度对旋转频率 (b) 位置响应衰减曲线 (c) 复平面旋转轨迹
"""
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
# ---------- 全局样式(支持中文) ----------
plt.rcParams.update({
"font.family": ["Arial Unicode MS", "Songti SC", "SimSun", "serif"],
"mathtext.fontset": "cm",
"font.size": 9,
"axes.labelsize": 10,
"axes.titlesize": 11,
"legend.fontsize": 8,
"figure.dpi": 150,
"axes.unicode_minus": False,
})
# ---------- RoPE 参数 ----------
d_h = 64 # 头维度
omega = 10000.0 # RoPE base
n_pairs = d_h // 2 # 32 个维度对
indices = np.arange(n_pairs)
theta = omega ** (-2.0 * indices / d_h) # 旋转频率
# ---------- 创建图 ----------
fig, axes = plt.subplots(1, 3, figsize=(14, 4.0))
# ===== (a) 维度对旋转频率 =====
ax = axes[0]
ax.semilogy(indices, theta, "o-", color="#2563EB", markersize=3.5, linewidth=1.5)
ax.set_xlabel(r"维度对索引 $i$")
ax.set_ylabel(r"旋转频率 $\theta_i$(对数刻度)", labelpad=2)
ax.tick_params(axis="y", pad=1)
ax.set_title("(a)", fontweight="bold", loc="left")
# 标注高频 / 低频区域
bbox_style = dict(boxstyle="round,pad=0.25", fc="white", ec="none", alpha=0.85)
ax.annotate(
"高频\n(局部位置敏感)",
xy=(2, theta[2]),
xytext=(12, theta[1] * 1.5),
fontsize=9,
ha="center",
arrowprops=dict(arrowstyle="->", color="#DC2626", lw=1.2),
color="#DC2626",
bbox=bbox_style,
)
ax.annotate(
"低频\n(全局依赖)",
xy=(28, theta[28]),
xytext=(18, theta[15] * 0.8),
fontsize=9,
ha="center",
arrowprops=dict(arrowstyle="->", color="#059669", lw=1.2),
color="#059669",
bbox=bbox_style,
)
ax.set_xlim(-1, n_pairs)
ax.grid(True, alpha=0.3)
# ===== (b) 位置响应衰减曲线 =====
ax = axes[1]
rel_pos = np.arange(0, 129) # 相对位置距离
# 选 4 条代表性维度对
selected = [0, 5, 15, 31]
colors_b = ["#DC2626", "#F59E0B", "#2563EB", "#059669"]
labels_b = [rf"$i={s}$" for s in selected]
for s, c, lb in zip(selected, colors_b, labels_b):
# 注意力得分贡献 ∝ cos(theta_i * delta)
score = np.cos(theta[s] * rel_pos)
ax.plot(rel_pos, score, color=c, linewidth=1.5, label=lb)
ax.set_xlabel(r"相对位置距离 $|t_1 - t_2|$")
ax.set_ylabel("注意力得分贡献", labelpad=2)
ax.tick_params(axis="y", pad=1)
ax.set_title("(b)", fontweight="bold", loc="left")
ax.legend(loc="upper right", framealpha=0.9)
ax.set_xlim(0, 128)
ax.set_ylim(-1.15, 1.15)
ax.axhline(0, color="gray", linewidth=0.5, linestyle="--")
ax.grid(True, alpha=0.3)
# ===== (c) 复平面旋转轨迹 =====
ax = axes[2]
T = 64 # 位置范围
positions = np.arange(0, T + 1)
# 高频维度对 i=0
i_high = 0
angles_high = theta[i_high] * positions
x_high = np.cos(angles_high)
y_high = np.sin(angles_high)
# 低频维度对 i=31
i_low = 31
angles_low = theta[i_low] * positions
x_low = np.cos(angles_low)
y_low = np.sin(angles_low)
# 单位圆
circle_t = np.linspace(0, 2 * np.pi, 200)
ax.plot(np.cos(circle_t), np.sin(circle_t), color="gray", linewidth=0.6, linestyle="--", alpha=0.5)
# 绘制轨迹
ax.plot(x_high, y_high, color="#DC2626", linewidth=1.5, label=rf"$i={i_high}$(高频)", alpha=0.85)
ax.plot(x_high[0], y_high[0], "o", color="#DC2626", markersize=5)
ax.plot(x_high[-1], y_high[-1], "s", color="#DC2626", markersize=5)
ax.plot(x_low, y_low, color="#059669", linewidth=2.0, label=rf"$i={i_low}$(低频)", alpha=0.85)
ax.plot(x_low[0], y_low[0], "o", color="#059669", markersize=5)
ax.plot(x_low[-1], y_low[-1], "s", color="#059669", markersize=5)
# 起点标注 — 放在圆外右上方,避免重叠
ax.annotate(
r"$t=0$",
xy=(x_high[0], y_high[0]),
xytext=(1.15, 0.25),
fontsize=8,
color="#555",
arrowprops=dict(arrowstyle="->", color="#555", lw=0.8),
bbox=bbox_style,
)
# 高频终点标注 — 放在左下
ax.annotate(
rf"$t={T}$",
xy=(x_high[-1], y_high[-1]),
xytext=(-1.15, -0.9),
fontsize=8,
color="#DC2626",
arrowprops=dict(arrowstyle="->", color="#DC2626", lw=0.8),
bbox=bbox_style,
)
# 低频终点标注 — 放在右侧偏下
ax.annotate(
rf"$t={T}$",
xy=(x_low[-1], y_low[-1]),
xytext=(0.7, -0.9),
fontsize=8,
color="#059669",
arrowprops=dict(arrowstyle="->", color="#059669", lw=0.8),
bbox=bbox_style,
)
ax.set_xlabel("实部 Re")
ax.set_ylabel("虚部 Im", labelpad=2)
ax.tick_params(axis="y", pad=1)
ax.set_title("(c)", fontweight="bold", loc="left")
ax.set_aspect("equal")
ax.legend(loc="lower left", framealpha=0.9, fontsize=8)
ax.set_xlim(-1.4, 1.4)
ax.set_ylim(-1.4, 1.4)
ax.grid(True, alpha=0.3)
ax.axhline(0, color="gray", linewidth=0.4)
ax.axvline(0, color="gray", linewidth=0.4)
# ---------- 保存 ----------
plt.tight_layout(w_pad=2.5)
plt.subplots_adjust(left=0.06)
output_path = "assets/2_rope_frequency.pdf"
fig.savefig(output_path, bbox_inches="tight", pad_inches=0.1)
print(f"Saved to {output_path}")
plt.show()