940 lines
72 KiB
TeX
940 lines
72 KiB
TeX
% 第三章 基于模块功能角色感知的多任务表征适配方法
|
||
\chapter{基于模块功能角色感知的多任务表征适配方法}
|
||
\label{chap:hycam}
|
||
|
||
\section{本章概述}
|
||
\label{sec:ch3_overview}
|
||
|
||
本章开始进入本文方法体系的\emph{表示空间}层,首先研究模块级功能异质性问题。第一章建立了基于结构感知调制的统一分析框架(式~\ref{eq:ch1_unified_M}),将大语言模型不同层级所呈现的结构差异归纳为四类结构异质性,并统一刻画为乘性调制、组合式调制与结构分解调制三种基本形式。在该统一框架下,不同方法可理解为针对特定结构角色描述符$\mathcal{R}$的具体实例化。本章作为方法体系的第一部分,聚焦于\emph{模块级功能异质性}($\mathcal{R}_{mod}$)。
|
||
|
||
在多任务适配场景中,模型需要在统一表示空间内同时刻画多任务共享规律与任务特有结构,这对模型内部不同计算模块的协同方式提出了更高要求。从表示机制来看,Transformer架构中的自注意力模块与前馈网络模块在功能上存在显著差异:自注意力模块主要负责输入上下文之间的依赖建模与信息整合,而前馈网络模块则更多承担参数化知识表达与非线性映射功能。这种功能分工使得不同模块在表征学习过程中承担不同的结构角色。
|
||
|
||
然而,现有适配方法通常采用均匀式参数更新或统一形式的表示调制策略,将不同模块视为等价的可调对象。该类方法一方面可能对预训练模型中已形成的知识结构产生干扰,另一方面也难以针对承担关键表征功能的模块进行有效调控,从而限制模型在复杂多任务场景中的适配能力。
|
||
|
||
针对上述问题,本章从模块级结构角色差异出发,研究基于表示流调制的结构感知适配方法。在统一框架下,该问题可表述为:在$\mathcal{R}_{mod}$约束下,构造依赖于输入与任务条件的调制算子$\mathcal{M}_\theta$,以对自注意力表示进行差异化调控。对应地,本章方法属于乘性调制形式(式~\ref{eq:ch1_multiplicative}),通过对注意力表示流施加输入条件化的门控信号,实现对关键信息通道的选择性增强与抑制。
|
||
|
||
在具体实现上,本章首先构建上下文注意力调制(Contextual Attention Modulation, CAM)机制,通过通道级乘性调制对自注意力输出进行输入依赖的动态调整;在此基础上,进一步构建混合上下文注意力调制框架(Hybrid Contextual Attention Modulation, HyCAM),通过共享调制模块与任务特有调制模块的结构组合,并结合动态路由机制,在统一模型中实现跨任务知识共享与任务特定表达之间的协调。
|
||
|
||
本章后续安排如下:第~\ref{sec:ch3_problem}~节分析多任务适配中的模块级结构异质性问题;第~\ref{sec:ch3_cam_mechanism}~节介绍基于模块角色感知的表示流调制机制;第~\ref{sec:ch3_hycam}~节给出混合上下文注意力调制框架;第~\ref{sec:ch3_routing}~节介绍动态路由与协同训练机制;第~\ref{sec:ch3_experiments}~节进行实验验证与结果分析;第~\ref{sec:ch3_summary}~节对本章内容进行总结。
|
||
|
||
\section{多任务适配问题与结构分析}
|
||
\label{sec:ch3_problem}
|
||
|
||
\subsection{大语言模型多任务适配的研究背景}
|
||
\label{subsec:ch3_background}
|
||
|
||
随着大语言模型在实际应用中的不断推广,智能任务的形态正由单一目标优化逐步演进为面向多任务协同与多需求融合的综合建模问题。在真实应用环境中,不同任务在输入形式、推理模式与决策目标等方面往往存在显著差异,例如逻辑推理、专业领域问答、代码生成、信息检索以及通用指令跟随等任务在表示需求上具有不同侧重点。这种多维度任务需求使模型需要在统一表示框架下同时具备共享能力与任务特化能力。
|
||
|
||
从表示学习视角来看,多任务场景中的共享性与差异性并存。不同任务虽然在表面目标上存在差异,但往往共享预训练模型中积累的通用知识与语义表示能力。例如,逻辑推理任务依赖多步推理链的组织,代码生成依赖结构化符号的精确表达,而信息检索问答则需要从大量上下文中选择关键证据并进行整合。其次,不同任务对模型内部表示的需求并不一致:有些任务更强调局部语境对齐,有些任务更依赖长程依赖建模,还有些任务则更需要对少量关键上下文线索进行精细选择。这意味着,多任务适配不仅是多个目标函数的并列优化问题,更是一个关于\emph{如何在共享预训练知识基础上进行结构化上下文重组}的问题。
|
||
|
||
大语言模型经过大规模语料预训练后,已经具备较强的通用知识记忆与上下文推理能力,因此为多任务协同建模提供了统一的技术路径。大语言模型能够在统一表示空间内处理异构任务,并通过指令化输入自然支持问答、推理、生成与解释等复杂目标。然而,这种通用能力并不意味着模型能够直接适配所有复杂多任务场景。一方面,通用预训练知识与具体下游任务之间存在明显的语义与结构落差;另一方面,若直接采用传统全参数微调方式,容易破坏既有预训练结构,导致灾难性遗忘、任务干扰与适配不稳定等问题。因此,如何在保留预训练基础能力的同时,使模型对复杂多任务上下文形成更细粒度、更具针对性的响应机制,成为本章关注的核心问题。
|
||
|
||
\subsection{多任务适配中的模块级结构异质性}
|
||
\label{subsec:ch3_module_hetero}
|
||
|
||
从第~\ref{sec:unified_framework} 节所提出的统一分析框架出发,本文认为,大语言模型在适配下游任务时面临的关键困难之一,在于其内部不同功能模块并非同质、等价地参与任务建模,而是具有显著的\emph{结构角色异质性}。具体到 Transformer 架构,不同子模块在表征生成过程中承担不同的功能角色:自注意力模块侧重于建模输入上下文之间的依赖关系,负责动态组织、选择与融合时序和语义线索;前馈网络(FFN)则更多承担参数化知识存储与非线性映射功能,形成模型的静态知识基础。
|
||
|
||
对于复杂多任务场景而言,这种差异尤为重要。复杂多任务场景中的输入通常包含多种类型的实体关系、背景知识、推理链条、用户意图与上下文语义等复合信息。模型能否正确完成任务,很大程度上并不只取决于其是否”记住”了某类知识,更取决于其能否在具体上下文中\emph{动态组织这些知识},并将注意力聚焦于与当前任务目标最相关的上下文线索之上。换言之,问题的关键不完全是“增加任务知识”,而更在于“重新组织知识与上下文之间的匹配方式”。
|
||
|
||
从这一视角出发,若采用均匀式适配策略,将所有模块都视为等价可调对象,则可能带来两类问题。第一,过度更新 FFN 等参数规模较大的知识承载模块,会改变预训练阶段已形成的通用知识分布,增加灾难性遗忘风险。第二,若缺乏对自注意力上下文组织机制的定向调节,则模型即便保留了知识,也可能无法在复杂多任务场景中正确选择与整合这些知识,从而表现为任务间干扰、泛化能力不足与适配效率下降。因此,从模块级结构异质性的角度出发,面向多任务适配的高效适配,更合理的路径应当是:在尽量保持预训练知识主体结构稳定的前提下,重点对上下文组织路径进行有针对性的调制。
|
||
|
||
\subsection{从均匀适配到结构感知调制}
|
||
\label{subsec:ch3_uniform_to_aware}
|
||
|
||
现有全参数微调与多数参数高效微调方法,本质上大多采用某种形式的均匀适配思想,即默认模型内部所有参数或所有目标层具有相近的适配地位,仅通过统一的增量更新方式来完成任务迁移。然而,在复杂多任务场景中,不同任务之间既存在共享的通用知识与语义规律,又存在对特定上下文结构的差异化偏好。例如,逻辑推理任务可能更依赖多步推理链的精细组织,代码生成任务更强调结构化依赖的长程追踪,而信息检索问答任务则更关注证据选择与上下文整合。这些任务需求并不是通过统一的低秩增量便可充分表达的。
|
||
|
||
基于此,本章延续第~\ref{sec:unified_framework} 节建立的统一建模视角,认为更合理的适配方式应当是引入\emph{结构感知的非均匀调制}:不再对模型内部所有部分施加同质更新,而是根据不同模块的结构角色,对更适合承担任务适配职责的表示流进行定向调控。在本章中,所关注的结构角色记为
|
||
\begin{equation}
|
||
\mathcal{R}_{mod},
|
||
\label{eq:ch3_module_role}
|
||
\end{equation}
|
||
其对应于 Transformer 中模块级功能角色差异,尤其是自注意力模块与前馈网络模块在知识存储、上下文整合与任务适配中的不同作用。
|
||
|
||
在这一基础上,本章首先将第~\ref{sec:unified_framework} 节提出的统一结构感知调制算子在模块级场景下实例化为:
|
||
\begin{equation}
|
||
\tilde{\mathbf{H}}_{att}^{(\ell)}
|
||
=
|
||
\mathcal{M}_{\theta}^{mod}
|
||
\Big(
|
||
\mathbf{H}_{att}^{(\ell)};\,
|
||
\mathbf{X},\,
|
||
\mathcal{R}_{mod}
|
||
\Big),
|
||
\label{eq:ch3_unified_modulation}
|
||
\end{equation}
|
||
其中,$\mathbf{X}$ 表示输入样本或指令序列,$\mathbf{H}_{att}^{(\ell)}$ 表示第 $\ell$ 层自注意力模块的输出表示,$\mathcal{M}_{\theta}^{mod}$ 表示面向模块角色异质性的结构感知调制算子,而 $\tilde{\mathbf{H}}_{att}^{(\ell)}$ 则是调制后的上下文表示。该公式表明,本章方法并不直接重写整个模型的参数空间,而是在保留骨干模型 $\Theta_0$ 主体稳定的前提下,对承担上下文组织功能的注意力表示流进行输入条件化调制。
|
||
|
||
在具体实现上,本章将这种模块级调制设计为一种乘性残差调制机制,即通过上下文驱动的调制信号,对自注意力输出表示中的关键维度进行增强或抑制,从而改变信息流在后续层中的传播方式。其核心思想是:若预训练模型已经具备较强的通用知识,则多任务适配的关键不一定是重写知识本身,而更在于改变\emph{知识被调用、组织与融合的方式}。这一思想构成了本章所提出方法 HyCAM 的理论出发点。
|
||
|
||
\subsection{本章研究目标与技术路线}
|
||
\label{subsec:ch3_goal}
|
||
|
||
基于上述分析,本章聚焦于多任务适配中的模块级异质性问题,主要关注以下三个方面:
|
||
|
||
第一,在大语言模型适配多任务场景时,是否可以通过优先调制自注意力表示流而非大规模修改骨干参数,获得更优的知识保持与任务适配平衡?
|
||
|
||
第二,在多任务建模中,如何同时兼顾跨任务共享知识与任务特有模式,使模型能够在统一框架中实现共享与专用能力的协同?
|
||
|
||
第三,在面向多种异质任务的联合建模过程中,如何通过动态路由机制使不同适配分支获得更合理的使用,从而缓解任务冲突与专家塌缩问题?
|
||
|
||
围绕这些问题,本章提出一种基于模块功能角色感知的多任务表征适配方法,其总体技术路线如图~\ref{fig:ch3_framework} 所示。该方法首先构造上下文注意力调制机制(Contextual Attention Modulation, CAM),对每层自注意力输出进行输入条件化调制;随后,在此基础上进一步提出混合式上下文注意力调制框架(Hybrid Contextual Attention Modulation, HyCAM),通过“共享 CAM + 专用 CAM + 动态路由”的结构实现多任务协同建模。整体上,本章的方法可统一理解为一种\emph{模块角色感知的表示流调制方法},它为后续第四章从维度级进一步研究位置结构与表示各向异性问题提供了基础。
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.82\linewidth]{assets/3_model.pdf}
|
||
\caption{基于模块功能角色感知的多任务表征适配总体框架示意图。}
|
||
\label{fig:ch3_framework}
|
||
\end{figure}
|
||
|
||
\section{模块角色感知的表示流调制机制}
|
||
\label{sec:ch3_cam_mechanism}
|
||
|
||
\subsection{问题形式化}
|
||
\label{subsec:ch3_formulation}
|
||
|
||
在多任务适配场景下,设训练数据集为
|
||
\begin{equation}
|
||
\mathcal{D}
|
||
=
|
||
\left\{
|
||
(\mathbf{X}_i,\mathbf{Y}_i,\tau_i)
|
||
\right\}_{i=1}^{N},
|
||
\label{eq:ch3_dataset}
|
||
\end{equation}
|
||
其中,$\mathbf{X}_i$ 表示第 $i$ 个输入样本,可由自然语言指令、问题描述、上下文信息、结构化输入及其他任务相关上下文组成;$\mathbf{Y}_i$ 表示对应的目标输出;$\tau_i \in \mathcal{T}$ 表示该样本所属的任务类型,$\mathcal{T}$ 为任务集合。$\mathcal{T}$ 可对应于逻辑推理、专业领域问答、代码生成、信息检索、通用指令跟随等不同子任务。骨干大语言模型的预训练参数记为 $\Theta_0$,本章的适配参数记为 $\Theta_a$,则最终模型可统一写为
|
||
\begin{equation}
|
||
\Theta = \Theta_0 + \Delta \Theta(\Theta_a),
|
||
\label{eq:ch3_theta_decompose}
|
||
\end{equation}
|
||
其中 $\Delta \Theta(\Theta_a)$ 并非对全部参数的均匀更新,而是由模块角色感知调制结构所诱导的有效增量。
|
||
|
||
给定输入序列 $\mathbf{X} = (x_1,\dots,x_T)$,在第 $\ell$ 层 Transformer 中,隐藏表示记为
|
||
\begin{equation}
|
||
\mathbf{H}^{(\ell)} \in \mathbb{R}^{T \times d},
|
||
\label{eq:ch3_hidden}
|
||
\end{equation}
|
||
其中 $T$ 为序列长度,$d$ 为隐藏维度。采用预归一化 Transformer 时,输入到自注意力模块的归一化表示为
|
||
\begin{equation}
|
||
\bar{\mathbf{H}}^{(\ell)}
|
||
=
|
||
\mathrm{LayerNorm}\!\left(\mathbf{H}^{(\ell)}\right).
|
||
\label{eq:ch3_norm}
|
||
\end{equation}
|
||
标准自注意力输出表示可写为
|
||
\begin{equation}
|
||
\mathbf{H}_{att}^{(\ell)}
|
||
=
|
||
\mathrm{SelfAttn}\!\left(\bar{\mathbf{H}}^{(\ell)}\right).
|
||
\label{eq:ch3_attn_output}
|
||
\end{equation}
|
||
|
||
本章关注的核心问题并非直接重构 $\mathbf{H}_{att}^{(\ell)}$,而是在保持其基础结构不变的前提下,基于输入上下文生成调制信号对其进行结构感知修正,从而得到适于当前任务的表示流:
|
||
\begin{equation}
|
||
\tilde{\mathbf{H}}_{att}^{(\ell)}
|
||
=
|
||
\mathbf{H}_{att}^{(\ell)}
|
||
+
|
||
\mathbf{H}_{att}^{(\ell)} \odot
|
||
\mathbf{S}_{\theta}^{mod}
|
||
\!\left(
|
||
\bar{\mathbf{H}}^{(\ell)}, \mathbf{X}, \mathcal{R}_{mod}
|
||
\right),
|
||
\label{eq:ch3_mod_general}
|
||
\end{equation}
|
||
其中 $\odot$ 表示 Hadamard 逐元素乘法,$\mathbf{S}_{\theta}^{mod}(\cdot)$ 表示模块角色感知的调制信号生成函数。式~\eqref{eq:ch3_mod_general} 是本章方法最基本的形式化表达,它说明 HyCAM 作用的对象并非整个隐藏空间,而是\emph{自注意力输出表示流}本身。
|
||
|
||
\subsection{模块角色差异与注意力表示流的适配价值}
|
||
\label{subsec:ch3_attn_value}
|
||
|
||
之所以选择自注意力模块作为核心调制对象,原因在于其在预训练语言模型中承担着比 FFN 更直接的上下文组织职责。FFN 虽然在参数规模上占据主导地位并承载预训练知识,但其作用更接近于位置独立的非线性变换。相比之下,自注意力模块通过 Query、Key、Value 之间的交互显式建模不同 token 间的依赖关系,是输入上下文信息聚合与任务相关证据选择的关键场所。
|
||
|
||
在复杂多任务场景中,这一点尤为关键。例如,当输入涉及需要从多种知识来源中选择关键线索的复杂推理问题时,模型需要从多个实体、概念、上下文片段中选择与任务最相关的线索,并依据任务意图动态调整不同上下文成分的重要性。若仍沿用均匀式参数更新,则模型往往只能通过低效的全局增量来“间接”修正上下文组织方式;而若直接在注意力输出处引入调制,则能够更直接地改变上下文信息的流向与组合方式。因此,从结构角色层面看,自注意力模块是实现任务专门化与知识保持平衡的更优切入点,提供了更直接、可控的上下文组织调节点。
|
||
|
||
从表示学习角度进一步理解,$\mathbf{H}_{att}^{(\ell)}$ 并不是静态知识本体,而是\emph{在当前上下文条件下对知识进行组织后的中间结果}。因此,对 $\mathbf{H}_{att}^{(\ell)}$ 施加适度、输入驱动的调制,本质上是在改变模型对已有知识的调用模式,而非粗暴覆盖预训练知识本身。这一差异使得本章方法天然更适合用于多任务场景:不同任务可以通过不同调制模式,选择性地突出最有用的上下文特征,而共享的预训练知识底座则得以较好保留。
|
||
|
||
\subsection{模块级结构调制的统一表达}
|
||
\label{subsec:ch3_unified_mod}
|
||
|
||
结合第~\ref{sec:unified_framework} 节提出的统一调制框架,本章将模块级异质性建模为一种乘性调制形式。设本章的调制对象为
|
||
\begin{equation}
|
||
\mathbf{Z}^{(\ell)} = \mathbf{H}_{att}^{(\ell)},
|
||
\label{eq:ch3_Z}
|
||
\end{equation}
|
||
则结构角色感知调制算子可具体实例化为
|
||
\begin{equation}
|
||
\mathcal{M}_{\theta}^{mod}
|
||
\Big(
|
||
\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R}_{mod}
|
||
\Big)
|
||
=
|
||
\mathbf{Z}^{(\ell)} \odot
|
||
\mathbf{S}_{\theta}^{mod}
|
||
\Big(
|
||
\bar{\mathbf{H}}^{(\ell)},\mathbf{X},\mathcal{R}_{mod}
|
||
\Big),
|
||
\label{eq:ch3_mod_operator}
|
||
\end{equation}
|
||
从而式~\eqref{eq:ch3_unified_modulation} 可改写为
|
||
\begin{equation}
|
||
\tilde{\mathbf{H}}_{att}^{(\ell)}
|
||
=
|
||
\mathbf{H}_{att}^{(\ell)}
|
||
+
|
||
\mathcal{M}_{\theta}^{mod}
|
||
\Big(
|
||
\mathbf{H}_{att}^{(\ell)};\mathbf{X},\mathcal{R}_{mod}
|
||
\Big).
|
||
\label{eq:ch3_mod_residual}
|
||
\end{equation}
|
||
|
||
式~\eqref{eq:ch3_mod_operator} 和式~\eqref{eq:ch3_mod_residual} 的意义在于,它们为本章后续方法提供了统一的理论骨架。具体而言,后续 CAM 将给出 $\mathbf{S}_{\theta}^{mod}$ 的具体参数化形式,从而将上述抽象调制算子实例化为可学习的上下文调制机制;HyCAM 则在 CAM 之上进一步引入共享与专用调制分支,并通过动态路由完成多任务知识融合。也正因为本章方法是对注意力表示流进行模块角色感知调制,因此其在全文方法体系中的定位可概括为:\emph{模块级异质性驱动的表示流适配}。这一点与下一章从表示维度和位置结构角度研究各向异性调制的方法形成自然递进。
|
||
|
||
\section{混合上下文注意力调制框架}
|
||
\label{sec:ch3_hycam}
|
||
|
||
\subsection{上下文注意力调制机制}
|
||
\label{subsec:ch3_cam_basic}
|
||
|
||
为实现式~\eqref{eq:ch3_mod_general} 所刻画的模块级调制形式,本章对调制信号生成函数 $\mathbf{S}_{\theta}^{mod}(\cdot)$ 进行具体参数化,构建上下文注意力调制机制(Contextual Attention Modulation, CAM)。该机制在每一层 Transformer 中基于归一化输入表示 $\bar{\mathbf{H}}^{(\ell)}$ 生成逐元素调制信号,并作用于自注意力输出 $\mathbf{H}_{att}^{(\ell)}$,从而实现对上下文相关信息的选择性增强与抑制。
|
||
|
||
设第 $\ell$ 层输入隐藏状态为 $\mathbf{H}^{(\ell)}$,则其归一化表示已经由式~\eqref{eq:ch3_norm} 给出。基于该表示,调制信号通过如下映射生成:
|
||
\begin{equation}
|
||
\mathbf{A}_{CAM}^{(\ell)}
|
||
=
|
||
\mathrm{SiLU}
|
||
\left(
|
||
\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{proj}^{(\ell)}
|
||
\right),
|
||
\label{eq:ch3_cam_weight}
|
||
\end{equation}
|
||
其中,
|
||
\begin{equation}
|
||
\mathbf{W}_{proj}^{(\ell)} \in \mathbb{R}^{d \times d}
|
||
\label{eq:ch3_cam_proj}
|
||
\end{equation}
|
||
为可训练投影矩阵,$\mathrm{SiLU}(\cdot)$~\cite{elfwing2018sigmoid} 为非线性激活函数。由此得到的 $\mathbf{A}_{CAM}^{(\ell)} \in \mathbb{R}^{T \times d}$ 为逐 token、逐维度的调制信号。随后,CAM 将其施加于注意力输出表示上,得到调制后的输出:
|
||
\begin{equation}
|
||
\tilde{\mathbf{H}}_{att}^{(\ell)}
|
||
=
|
||
\mathbf{H}_{att}^{(\ell)}
|
||
+
|
||
\mathbf{H}_{att}^{(\ell)} \odot \mathbf{A}_{CAM}^{(\ell)}.
|
||
\label{eq:ch3_cam_output}
|
||
\end{equation}
|
||
|
||
由式~\eqref{eq:ch3_cam_weight} 与式~\eqref{eq:ch3_cam_output} 可知,CAM 对自注意力输出施加输入依赖的逐元素门控,从而实现对表示流的残差式调制。该形式对应于式~\eqref{eq:ch3_mod_operator} 中调制算子的具体参数化实现,其中调制信号由 $\bar{\mathbf{H}}^{(\ell)}$ 动态生成,使模型能够针对不同输入样本自适应地改变上下文组织方式。
|
||
|
||
\subsection{初始化与训练稳定性设计}
|
||
\label{subsec:ch3_cam_init}
|
||
|
||
在微调初期,若新引入的调制模块对预训练模型产生过强干预,则容易破坏原有表示分布,导致训练不稳定甚至引发性能显著退化。为保证训练稳定性,CAM 采用零初始化策略,即将投影矩阵 $\mathbf{W}_{proj}^{(\ell)}$ 初始设为零矩阵:
|
||
\begin{equation}
|
||
\mathbf{W}_{proj}^{(\ell)} = \mathbf{0}.
|
||
\label{eq:ch3_zero_init}
|
||
\end{equation}
|
||
在该初始化下,由式~\eqref{eq:ch3_cam_weight} 可知,训练开始时
|
||
\begin{equation}
|
||
\mathbf{A}_{CAM}^{(\ell)} \approx \mathbf{0},
|
||
\label{eq:ch3_init_acam}
|
||
\end{equation}
|
||
从而式~\eqref{eq:ch3_cam_output} 退化为
|
||
\begin{equation}
|
||
\tilde{\mathbf{H}}_{att}^{(\ell)}
|
||
\approx
|
||
\mathbf{H}_{att}^{(\ell)}.
|
||
\label{eq:ch3_identity_start}
|
||
\end{equation}
|
||
这意味着 CAM 在训练初期近似保持恒等映射,不会改变预训练模型的原始行为,并在训练过程中逐步学习对表示流的有效调制,从而兼顾训练稳定性与知识保持能力。
|
||
|
||
在多任务场景中,这一设计尤为重要。由于不同任务共享同一预训练骨干模型,若某一任务在训练早期对模型施加过强更新,往往会对其他任务可用的通用知识造成损害。零初始化策略在一定程度上抑制了这种早期干扰,使不同任务的影响更多体现在对上下文组织方式的渐进式修正上,而非对模型知识底座的立即重写。
|
||
|
||
\subsection{共享与专用调制的协同设计}
|
||
\label{subsec:ch3_cam_to_hycam}
|
||
|
||
上述 CAM 机制对应于调制信号生成函数 $\mathbf{S}_{\theta}^{mod}$ 的单一参数化形式。为同时建模跨任务共享模式与任务特有模式,本章将该调制过程扩展为多分支结构,构建混合上下文注意力调制框架(Hybrid Contextual Attention Modulation, HyCAM)。在该框架下,调制信号由共享分支与多个专用分支共同生成,并通过动态路由机制进行组合。共享分支用于建模跨任务稳定存在的上下文调制模式,专用分支用于刻画任务相关或上下文相关的差异性调制结构。
|
||
|
||
HyCAM 的本质仍然遵循式~\eqref{eq:ch3_mod_residual} 的统一母式,只是将调制信号 $\mathbf{S}_{\theta}^{mod}$ 的生成方式从单一映射扩展为多分支组合生成。
|
||
|
||
\subsection{共享调制模块}
|
||
\label{subsec:ch3_shared_cam}
|
||
|
||
共享 CAM 模块用于建模跨任务共享的上下文调制模式,例如一般性的实体对齐模式、语义匹配结构与通用上下文组织规律。设第 $\ell$ 层共享 CAM 的投影矩阵为
|
||
\begin{equation}
|
||
\mathbf{W}_{sh}^{(\ell)} \in \mathbb{R}^{d \times d},
|
||
\label{eq:ch3_shared_proj}
|
||
\end{equation}
|
||
则共享调制信号定义为
|
||
\begin{equation}
|
||
\mathbf{A}_{sh}^{(\ell)}
|
||
=
|
||
\mathrm{SiLU}
|
||
\left(
|
||
\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{sh}^{(\ell)}
|
||
\right).
|
||
\label{eq:ch3_shared_cam}
|
||
\end{equation}
|
||
|
||
共享 CAM 模块采用全参数形式,其原因在于该分支承担的是跨任务共性模式的建模职责,需要具有相对充分的表达能力,以便在不同任务之间形成稳定共享的表示流调制基础。该分支在所有任务间共享参数,从而形成稳定的全局调制基准。
|
||
|
||
\subsection{专用调制模块}
|
||
\label{subsec:ch3_spec_cam}
|
||
|
||
与共享 CAM 相对,专用 CAM 模块旨在建模任务差异性更强的上下文调制模式。例如,不同任务可能对上下文依赖范围、关键线索类型与局部模式选择具有不同偏好:推理任务更注重多步逻辑链的组织,专业问答更强调领域知识的精确检索,代码生成类任务则对符号化依赖更为敏感。因此,引入 $N_s$ 个专用调制模块以刻画不同潜在模式。
|
||
|
||
设专用 CAM 模块的个数为 $N_s$,第 $k$ 个专用模块在第 $\ell$ 层的调制信号定义为
|
||
\begin{equation}
|
||
\mathbf{A}_{sp,k}^{(\ell)}
|
||
=
|
||
\mathrm{SiLU}
|
||
\left(
|
||
\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{sp,k}^{(\ell)}
|
||
\right),
|
||
\quad
|
||
k = 1,\dots,N_s.
|
||
\label{eq:ch3_spec_cam}
|
||
\end{equation}
|
||
其中,$\mathbf{W}_{sp,k}^{(\ell)}$ 采用带中间映射矩阵的低秩参数化形式~\cite{guo2025nlora},以在保持表达能力的同时降低参数量:
|
||
\begin{equation}
|
||
\mathbf{W}_{sp,k}^{(\ell)}
|
||
=
|
||
\mathbf{B}_{k}^{(\ell)}
|
||
\mathbf{N}_{k}^{(\ell)}
|
||
\mathbf{A}_{k}^{(\ell)},
|
||
\label{eq:ch3_slora}
|
||
\end{equation}
|
||
其中
|
||
\begin{equation}
|
||
\mathbf{A}_{k}^{(\ell)} \in \mathbb{R}^{r \times d},
|
||
\quad
|
||
\mathbf{N}_{k}^{(\ell)} \in \mathbb{R}^{r \times r},
|
||
\quad
|
||
\mathbf{B}_{k}^{(\ell)} \in \mathbb{R}^{d \times r},
|
||
\label{eq:ch3_slora_shape}
|
||
\end{equation}
|
||
且 $r \ll d$。这种结构相较于标准 LoRA 的两矩阵分解引入额外的低维变换 $\mathbf{N}_{k}^{(\ell)}$,从而在较小参数预算下提升专用模块的表示灵活性。
|
||
|
||
为保证训练初期的稳定性,专用模块同样采用保守初始化策略。具体而言,$\mathbf{A}_{k}^{(\ell)}$ 与 $\mathbf{N}_{k}^{(\ell)}$ 可采用 Kaiming 初始化~\cite{he2015delving},而 $\mathbf{B}_{k}^{(\ell)}$ 采用零初始化:
|
||
\begin{equation}
|
||
\mathbf{B}_{k}^{(\ell)} = \mathbf{0}.
|
||
\label{eq:ch3_spec_zero}
|
||
\end{equation}
|
||
因此在训练初期,专用模块近似不对骨干模型产生显著影响,并在训练过程中逐步形成各自的专门化调制方向。
|
||
|
||
\section{动态路由与协同训练机制}
|
||
\label{sec:ch3_routing}
|
||
|
||
\subsection{动态路由的设计动机}
|
||
\label{subsec:ch3_routing_motivation}
|
||
|
||
在 HyCAM 中,共享 CAM 提供跨任务的公共调制基础,而多个专用 CAM 则提供潜在的任务特化能力。然而,仅有多个专用分支并不足以自动形成有效的多任务协同。其根本原因在于:不同输入样本所对应的任务结构、上下文模式和难点位置并不相同,因此各专用分支对不同样本的重要性也必然不同。若简单地平均融合所有专用 CAM,则模型难以形成明确的功能分工;若为每个任务静态绑定固定专家,又会削弱对任务内部异质性与输入级细粒度差异的适应能力。
|
||
|
||
复杂多任务场景尤其需要动态路由。即便同属于某一特定任务类型,不同样本也可能分别强调逻辑推理关系、实体属性关系、因果关联或常识推断关系。静态分配无法充分表达这种输入级差异。因此,HyCAM 引入基于输入上下文的软路由机制,对专用 CAM 的贡献进行逐 token 或逐样本的动态加权,从而实现更细粒度的知识调用。
|
||
|
||
\subsection{基于输入上下文的路由权重生成}
|
||
\label{subsec:ch3_router_weight}
|
||
|
||
设第 $\ell$ 层的路由器参数为
|
||
\begin{equation}
|
||
\mathbf{W}_{router}^{(\ell)} \in \mathbb{R}^{d \times N_s},
|
||
\label{eq:ch3_router_param}
|
||
\end{equation}
|
||
则根据归一化后的输入表示 $\bar{\mathbf{H}}^{(\ell)}$,可生成第 $\ell$ 层的路由 logits:
|
||
\begin{equation}
|
||
\mathbf{\Pi}^{(\ell)}
|
||
=
|
||
\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{router}^{(\ell)},
|
||
\label{eq:ch3_router_logits}
|
||
\end{equation}
|
||
其中 $\mathbf{\Pi}^{(\ell)} \in \mathbb{R}^{T \times N_s}$,其第 $t$ 个 token 对应的第 $k$ 个专家 logit 记为 $\pi_{t,k}^{(\ell)}$。为了在保持可微性的同时鼓励离散化选择,本章采用 Gumbel-Softmax~\cite{jang2016categorical} 机制生成软路由权重:
|
||
\begin{equation}
|
||
p_{t,k}^{(\ell)}
|
||
=
|
||
\frac{
|
||
\exp\left(
|
||
(\log \pi_{t,k}^{(\ell)} + g_{t,k}^{(\ell)}) / \tau
|
||
\right)
|
||
}{
|
||
\sum_{j=1}^{N_s}
|
||
\exp\left(
|
||
(\log \pi_{t,j}^{(\ell)} + g_{t,j}^{(\ell)}) / \tau
|
||
\right)
|
||
},
|
||
\label{eq:ch3_gumbel}
|
||
\end{equation}
|
||
其中 $g_{t,k}^{(\ell)} \sim \mathrm{Gumbel}(0,1)$ 为 Gumbel 噪声,$\tau$ 为温度系数。温度较小时,权重分布更尖锐,更接近离散专家选择;温度较大时,分布更平滑,有利于训练早期稳定探索。
|
||
|
||
式~\eqref{eq:ch3_gumbel} 使得 HyCAM 可以根据输入上下文对专用模块进行自适应加权。进一步地,这种路由不是直接作用于模型最终输出,而是作用于注意力调制信号的融合,因此其本质是在输入依赖条件下\emph{动态选择不同的上下文组织方式},而不是简单切换不同解码器或任务头。这也是 HyCAM 能够兼顾统一骨干建模与多任务灵活适配的重要原因。
|
||
|
||
\subsection{共享与专用调制信号的融合}
|
||
\label{subsec:ch3_fusion}
|
||
|
||
在获得共享 CAM 与专用 CAM 的调制信号之后,HyCAM 将其进行融合,形成最终的模块级调制张量。第 $\ell$ 层的融合调制信号定义为
|
||
\begin{equation}
|
||
\mathbf{A}_{fusion}^{(\ell)}
|
||
=
|
||
\mathbf{A}_{sh}^{(\ell)}
|
||
+
|
||
\sum_{k=1}^{N_s}
|
||
\mathbf{P}_{k}^{(\ell)} \odot \mathbf{A}_{sp,k}^{(\ell)},
|
||
\label{eq:ch3_fusion}
|
||
\end{equation}
|
||
其中 $\mathbf{P}_{k}^{(\ell)}$ 表示第 $k$ 个专用 CAM 的广播路由权重张量,其由式~\eqref{eq:ch3_gumbel} 生成的 $p_{t,k}^{(\ell)}$ 按维度扩展得到,以便与 $\mathbf{A}_{sp,k}^{(\ell)} \in \mathbb{R}^{T \times d}$ 做逐元素乘积。由此,第 $\ell$ 层经 HyCAM 调制后的注意力输出表示为
|
||
\begin{equation}
|
||
\tilde{\mathbf{H}}_{att}^{(\ell)}
|
||
=
|
||
\mathbf{H}_{att}^{(\ell)}
|
||
+
|
||
\mathbf{H}_{att}^{(\ell)} \odot \mathbf{A}_{fusion}^{(\ell)}.
|
||
\label{eq:ch3_hycam_output}
|
||
\end{equation}
|
||
|
||
式~\eqref{eq:ch3_fusion} 与式~\eqref{eq:ch3_hycam_output} 说明,HyCAM 的本质并不是对注意力层进行替代,而是在原始自注意力输出之上叠加一个由共享规律与专门化规律共同构成的动态调制残差。这种设计既保留了预训练模型原有的上下文建模能力,也为不同任务、不同输入模式引入了额外的适应自由度。
|
||
|
||
\subsection{负载均衡约束与专家协同}
|
||
\label{subsec:ch3_balance}
|
||
|
||
在多专家结构中,若缺乏额外约束,路由器往往会偏向少数几个容易获得较高回报的专用模块,从而导致专家利用不均、训练效率下降和专用结构退化。为缓解这一问题,HyCAM 在训练中引入负载均衡损失,对各专用模块的使用分布施加约束。
|
||
|
||
设一个 batch 内共有 $B$ 个路由单元(可对应于 token 数或聚合后的样本数),则第 $k$ 个专用模块的平均软选择概率与平均标准 softmax 概率分别可统计为
|
||
\begin{equation}
|
||
\bar{p}_{k}
|
||
=
|
||
\frac{1}{B}
|
||
\sum_{b=1}^{B}
|
||
p_{b,k},
|
||
\qquad
|
||
\bar{s}_{k}
|
||
=
|
||
\frac{1}{B}
|
||
\sum_{b=1}^{B}
|
||
\mathrm{softmax}(\mathbf{\Pi}_{b})_{k}.
|
||
\label{eq:ch3_balance_avg}
|
||
\end{equation}
|
||
在此基础上,负载均衡损失定义为
|
||
\begin{equation}
|
||
\mathcal{L}_{balance}
|
||
=
|
||
\sum_{k=1}^{N_s}
|
||
\bar{p}_{k}\,\bar{s}_{k}.
|
||
\label{eq:ch3_balance}
|
||
\end{equation}
|
||
|
||
该损失鼓励不同专用模块都能够在训练中获得一定程度的激活,从而避免少数模块垄断路由结果。对于复杂多任务建模,这一约束具有重要意义:由于不同任务及其内部子模式具有复杂异质性,若专用模块过早塌缩为少量活跃分支,则模型将难以真正学习到多样化的调制行为,进而削弱 HyCAM 在多任务场景下的特化能力。
|
||
|
||
\subsection{训练目标}
|
||
\label{subsec:ch3_training_obj}
|
||
|
||
本章方法在训练时保持骨干模型主体冻结,仅更新 HyCAM 相关的适配参数 $\Theta_a$,包括共享 CAM、专用 CAM 以及动态路由器。对于自回归生成式任务,给定输入输出对 $(\mathbf{X}_i,\mathbf{Y}_i)$,其任务损失可写为
|
||
\begin{equation}
|
||
\mathcal{L}_{task}
|
||
=
|
||
-
|
||
\sum_{i=1}^{|\mathcal{D}_b|}
|
||
\sum_{t=1}^{|\mathbf{Y}_i|}
|
||
\log
|
||
P
|
||
\left(
|
||
y_{i,t}
|
||
\mid
|
||
\mathbf{X}_i,\mathbf{Y}_{i,<t};
|
||
\Theta_0,\Theta_a
|
||
\right),
|
||
\label{eq:ch3_task_loss}
|
||
\end{equation}
|
||
其中 $\mathcal{D}_b$ 表示一个训练 batch。进一步地,将式~\eqref{eq:ch3_balance} 的负载均衡损失纳入整体目标,得到最终优化目标:
|
||
\begin{equation}
|
||
\mathcal{L}_{total}
|
||
=
|
||
\mathcal{L}_{task}
|
||
+
|
||
\lambda_{balance}\mathcal{L}_{balance},
|
||
\label{eq:ch3_total_loss}
|
||
\end{equation}
|
||
其中 $\lambda_{balance}$ 为平衡系数。
|
||
|
||
式~\eqref{eq:ch3_total_loss} 表明,本章方法优化的并不仅仅是任务性能本身,还包括多专用模块的合理协同使用。前者保证模型能够有效适配多任务目标,后者保证模型能够形成更稳定、更多样化的专门化上下文调制结构。二者共同构成 HyCAM 的训练基础。
|
||
|
||
算法~\ref{alg:ch3_hycam} 给出了 HyCAM 的完整训练流程。
|
||
|
||
\RestyleAlgo{ruled}
|
||
\begin{algorithm}[htp]
|
||
\caption{HyCAM 多任务训练算法}
|
||
\label{alg:ch3_hycam}
|
||
\KwIn{预训练大语言模型参数 $\Theta_0$,多任务训练集 $\mathcal{D}$,专用模块数 $N_s$,Gumbel-Softmax 温度 $\tau$,负载均衡系数 $\lambda_{balance}$,学习率 $\eta$}
|
||
冻结骨干模型参数 $\Theta_0$\;
|
||
初始化共享 CAM 投影矩阵 $\mathbf{W}_{sh}^{(\ell)} \leftarrow \mathbf{0}$,$\forall \ell$\;
|
||
初始化专用 CAM 模块:$\mathbf{A}_{k}^{(\ell)}, \mathbf{N}_{k}^{(\ell)}$ 采用 Kaiming 初始化,$\mathbf{B}_{k}^{(\ell)} \leftarrow \mathbf{0}$,$\forall k, \ell$\;
|
||
初始化路由器参数 $\mathbf{W}_{router}^{(\ell)}$,$\forall \ell$\;
|
||
\For{每个训练步}{
|
||
从 $\mathcal{D}$ 中采样一个批次 $\mathcal{D}_b$\;
|
||
\For{每一层 $\ell = 1, \dots, L$}{
|
||
计算归一化表示 $\bar{\mathbf{H}}^{(\ell)} = \mathrm{LayerNorm}(\mathbf{H}^{(\ell)})$\;
|
||
计算自注意力输出 $\mathbf{H}_{att}^{(\ell)} = \mathrm{SelfAttn}(\bar{\mathbf{H}}^{(\ell)})$\;
|
||
生成共享调制信号 $\mathbf{A}_{sh}^{(\ell)} = \mathrm{SiLU}(\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{sh}^{(\ell)})$(式~\ref{eq:ch3_shared_cam})\;
|
||
\For{$k = 1, \dots, N_s$}{
|
||
生成专用调制信号 $\mathbf{A}_{sp,k}^{(\ell)} = \mathrm{SiLU}(\bar{\mathbf{H}}^{(\ell)} \mathbf{B}_{k}^{(\ell)} \mathbf{N}_{k}^{(\ell)} \mathbf{A}_{k}^{(\ell)})$(式~\ref{eq:ch3_spec_cam})\;
|
||
}
|
||
计算路由权重 $p_{t,k}^{(\ell)}$ 通过 Gumbel-Softmax(式~\ref{eq:ch3_gumbel})\;
|
||
融合调制信号 $\mathbf{A}_{fusion}^{(\ell)} = \mathbf{A}_{sh}^{(\ell)} + \sum_{k} \mathbf{P}_{k}^{(\ell)} \odot \mathbf{A}_{sp,k}^{(\ell)}$(式~\ref{eq:ch3_fusion})\;
|
||
输出 $\tilde{\mathbf{H}}_{att}^{(\ell)} = \mathbf{H}_{att}^{(\ell)} + \mathbf{H}_{att}^{(\ell)} \odot \mathbf{A}_{fusion}^{(\ell)}$(式~\ref{eq:ch3_hycam_output})\;
|
||
}
|
||
计算任务损失 $\mathcal{L}_{task}$(式~\ref{eq:ch3_task_loss})与负载均衡损失 $\mathcal{L}_{balance}$(式~\ref{eq:ch3_balance})\;
|
||
计算总损失 $\mathcal{L}_{total} = \mathcal{L}_{task} + \lambda_{balance} \mathcal{L}_{balance}$\;
|
||
更新适配参数 $\Theta_a \leftarrow \Theta_a - \eta \nabla_{\Theta_a} \mathcal{L}_{total}$\;
|
||
}
|
||
\end{algorithm}
|
||
|
||
|
||
\section{实验设计与结果分析}
|
||
\label{sec:ch3_experiments}
|
||
|
||
\subsection{实验设置}
|
||
\label{subsec:ch3_exp_setup}
|
||
|
||
为验证本章提出的基于模块功能角色感知的多任务表征适配方法的有效性,本节围绕以下几个研究问题展开实验分析:
|
||
|
||
\begin{enumerate}
|
||
\item HyCAM 相比全参数微调和现有参数高效微调方法,是否能够在多任务联合适配中取得更好的整体性能?
|
||
\item HyCAM 的优势是否能够在不同规模、不同系列的大语言模型骨干上保持稳定?
|
||
\item HyCAM 在不同任务类型之间是否具有更均衡的适配能力,能否有效缓解多任务干扰?
|
||
\item 共享 CAM、专用 CAM 以及动态路由等关键设计分别起到了什么作用?
|
||
\item HyCAM 对注意力表示空间与训练过程带来了怎样的可解释变化?
|
||
\end{enumerate}
|
||
|
||
需要说明的是,由于 HyCAM 原始论文发表于通用多任务学习场景,其公开实验主要基于逻辑推理、医疗问答、通用指令跟随、代码生成与信息检索问答等任务构建的综合基准。因此,本节将这些实验作为\emph{通用多任务有效性验证},用于说明模块角色感知调制在复杂多任务场景中的一般性作用。
|
||
|
||
\subsubsection{数据集}
|
||
|
||
原始实验构建了一个五任务综合基准,涵盖逻辑推理(Auto CoT)、医疗问答(iCliniq)、通用指令跟随(Dolly 2.0)、代码生成(CodeAlpaca)和信息检索问答(WebGPT)等任务。这些任务在任务形式、输出长度、知识需求与推理模式上具有较强异质性,具有”多目标并存、共享知识与任务特化并存”的典型多任务挑战。因此,本文将其视为验证 HyCAM 模块级调制能力的通用多任务基准。
|
||
|
||
具体数据统计可整理如表~\ref{tab:ch3_dataset_stat} 所示。训练、验证与测试采用 $7:2:1$ 划分,并进行五折交叉验证以增强结果稳定性。实验骨干模型覆盖多个主流开源大语言模型系列,包括 Llama、Mistral 与 Qwen 家族,从而考察方法的跨模型泛化性。
|
||
|
||
\begin{table*}[ht]
|
||
\centering
|
||
\caption{多任务基准数据统计。}
|
||
\label{tab:ch3_dataset_stat}
|
||
\resizebox{0.88\linewidth}{!}{
|
||
\begin{tabular}{lccccc}
|
||
\toprule
|
||
数据集 & 样本数 & 总 Token 数 & 平均 Token 数 & 任务属性 & 数据来源 \\
|
||
\midrule
|
||
Auto CoT & 5,816 & 943,474 & 162.22 & 推理与复杂逻辑 & \cite{zhang2023automatic} \\
|
||
iCliniq & 7,321 & 1,826,306 & 249.46 & 医疗问答 & \cite{li2023chatdoctor} \\
|
||
Dolly 2.0 & 15,015 & 3,061,007 & 203.86 & 通用指令与问答 & \cite{DatabricksBlog2023DollyV2} \\
|
||
CodeAlpaca & 20,222 & 2,195,523 & 109.66 & 代码生成 & \cite{codealpaca} \\
|
||
WebGPT & 18,994 & 13,988,895 & 736.49 & 检索增强问答 & \cite{nakano2021webgpt} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table*}
|
||
|
||
\subsubsection{基线方法}
|
||
|
||
基线方法包括全参数微调(Full Fine-Tuning)、LoRA、Multi-LoRA 以及 RieMoE-LoRA。具体而言:
|
||
|
||
\begin{itemize}
|
||
\item \textbf{全参数微调(Full Fine-Tuning)}:对骨干大语言模型的全部参数进行更新,用以反映充分调参时的性能上界与知识遗忘代价。尽管全参数微调在单任务场景中往往能取得较好效果,但在多任务联合训练中容易因任务间梯度冲突导致部分任务退化。
|
||
\item \textbf{LoRA}:经典参数高效微调方法,通过在目标权重矩阵旁引入低秩分解 $\Delta W = BA$ 实现轻量适配。LoRA 以统一的低秩结构应对所有任务,在参数效率方面表现优异,但其固定秩设计在面对高度异质的多任务场景时可能受限于表达能力。
|
||
\item \textbf{Multi-LoRA}:在标准 LoRA 基础上为不同任务设置多组并行适配器,允许各任务独立学习低秩增量。该方法虽然在任务独立性上有所增强,但缺乏显式的跨任务知识共享机制,且在多任务混合训练中可能导致参数冗余。
|
||
\item \textbf{RieMoE-LoRA}:将黎曼梯度缩放与混合专家 LoRA 结构相结合,通过梯度几何空间的正则化来增强多专家训练的稳定性与收敛性。该方法代表了当前 MoE 风格 PEFT 的先进思路,但可能面临专家利用不均的挑战。
|
||
\end{itemize}
|
||
|
||
评价指标采用困惑度(PPL)、BLEU-4 与 ROUGE-L 三类指标,以综合衡量模型在不同任务上的生成质量与内容匹配程度。其中,PPL 反映模型生成的流畅性与语言建模质量,数值越低越优;BLEU-4 衡量生成文本与参考文本之间的 n-gram 重叠程度,尤其适用于代码生成等结构化输出任务;ROUGE-L 基于最长公共子序列衡量语义覆盖程度,适用于摘要生成与长文本问答等任务。
|
||
|
||
\subsubsection{实现细节}
|
||
\label{subsubsec:ch3_impl_details}
|
||
|
||
所有实验基于 PyTorch 框架实现,训练过程采用 DeepSpeed 分布式加速框架,并启用 BFloat16 混合精度训练以提升显存利用效率。对于所有 LoRA 类方法,低秩维度 $r$ 统一设置为 64,适配模块作用于大语言模型的所有线性层。对于 HyCAM 及其他多专家方法,专用模块数量 $N_s$ 设置为 5。输入序列最大长度设置为 1200 个 token,以适应长文本任务(如 WebGPT)的需求。
|
||
|
||
HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置为 0.5,负载均衡损失系数 $\lambda_{balance}$ 设置为 0.1。所有方法统一采用 AdamW 优化器,学习率设置为 $2 \times 10^{-5}$,并采用余弦退火(Cosine Annealing)学习率调度策略。为防止过拟合,训练过程中引入基于验证集损失的早停机制。具体实现细节汇总于表~\ref{tab:ch3_impl_details}。
|
||
|
||
\begin{table}[h]
|
||
\centering
|
||
\caption{HyCAM 实验实现细节汇总。}
|
||
\label{tab:ch3_impl_details}
|
||
\resizebox{0.6\linewidth}{!}{
|
||
\begin{tabular}{ll}
|
||
\toprule
|
||
配置项 & 设置 \\
|
||
\midrule
|
||
训练框架 & PyTorch + DeepSpeed \\
|
||
精度模式 & BFloat16 混合精度 \\
|
||
优化器 & AdamW \\
|
||
学习率 & $2 \times 10^{-5}$ \\
|
||
学习率调度 & 余弦退火 \\
|
||
LoRA 秩 $r$ & 64 \\
|
||
专用模块数 $N_s$ & 5 \\
|
||
最大序列长度 & 1200 \\
|
||
Gumbel-Softmax $\tau$ & 0.5 \\
|
||
负载均衡系数 $\lambda_{balance}$ & 0.1 \\
|
||
数据划分 & 7:2:1(训练:验证:测试) \\
|
||
评估方式 & 五折交叉验证 \\
|
||
早停策略 & 基于验证集损失 \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
\subsection{实验结果与分析}
|
||
\label{subsec:ch3_main_results}
|
||
|
||
\subsubsection{总体性能比较}
|
||
|
||
表~\ref{tab:ch3_overall_main} 给出了 HyCAM 与各基线方法在不同骨干模型上的总体结果。可以看出,HyCAM 在多数设置下均取得了最优结果,且相对最强基线呈现出稳定优势,平均相对提升约 3.65\%(双侧 $t$ 检验,$p < 0.05$)。这说明,在复杂多任务场景下,通过模块角色感知的方式对自注意力表示流进行定向调制,确实能够比传统低秩更新更有效地兼顾知识保持与任务特化。
|
||
|
||
\begin{table}[h]
|
||
\centering
|
||
\caption{不同骨干模型上的总体实验结果。}
|
||
\label{tab:ch3_overall_main}
|
||
\resizebox{0.62\linewidth}{!}{
|
||
\begin{tabular}{llccc}
|
||
\toprule
|
||
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
|
||
\midrule
|
||
\multirow{5}{*}{Llama 2 7B}
|
||
& Full Finetune & 3.193 & \underline{0.171} & 0.231 \\
|
||
& LoRA & 3.222 & 0.157 & 0.225 \\
|
||
& Multi LoRA & 3.287 & 0.121 & 0.217 \\
|
||
& RieMoE-LoRA & \underline{3.171} & 0.154 & \underline{0.232} \\
|
||
& HyCAM & \textbf{3.081} & \textbf{0.173} & \textbf{0.244} \\
|
||
\midrule
|
||
\multirow{5}{*}{Llama 3 8B}
|
||
& Full Finetune & 3.978 & 0.151 & 0.203 \\
|
||
& LoRA & 3.556 & 0.148 & 0.240 \\
|
||
& Multi LoRA & 3.547 & 0.157 & 0.236 \\
|
||
& RieMoE-LoRA & \underline{3.497} & \underline{0.159} & \underline{0.242} \\
|
||
& HyCAM & \textbf{3.484} & \textbf{0.162} & \textbf{0.245} \\
|
||
\midrule
|
||
\multirow{5}{*}{Llama 3.1 8B}
|
||
& Full Finetune & 3.873 & 0.153 & 0.205 \\
|
||
& LoRA & 3.537 & 0.156 & 0.237 \\
|
||
& Multi LoRA & 3.653 & 0.134 & 0.235 \\
|
||
& RieMoE-LoRA & \underline{3.487} & \underline{0.161} & \underline{0.238} \\
|
||
& HyCAM & \textbf{3.453} & \textbf{0.172} & \textbf{0.251} \\
|
||
\midrule
|
||
\multirow{5}{*}{Mistral 7B}
|
||
& Full Finetune & 4.403 & 0.157 & 0.192 \\
|
||
& LoRA & \underline{3.418} & \underline{0.163} & \underline{0.244} \\
|
||
& Multi LoRA & 3.461 & 0.141 & 0.225 \\
|
||
& RieMoE-LoRA & 3.597 & 0.143 & 0.240 \\
|
||
& HyCAM & \textbf{3.299} & \textbf{0.171} & \textbf{0.249} \\
|
||
\midrule
|
||
\multirow{5}{*}{Qwen 2.5 7B}
|
||
& Full Finetune & 3.024 & \underline{0.169} & 0.225 \\
|
||
& LoRA & 2.840 & 0.137 & \underline{0.239} \\
|
||
& Multi LoRA & 3.069 & 0.136 & 0.222 \\
|
||
& RieMoE-LoRA & \underline{2.830} & 0.157 & 0.227 \\
|
||
& HyCAM & \textbf{2.757} & \textbf{0.172} & \textbf{0.248} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
这一结果可从三个层面理解。第一,相较于全参数微调,HyCAM 在仅引入少量适配参数的前提下取得了更优或相当的性能,表明其并不依赖对整个模型进行重写,而是通过更有效的上下文调制获得收益。第二,相较于 LoRA,HyCAM 的优势说明单纯依赖低秩参数增量并不足以充分应对复杂多任务场景中的结构差异,而围绕自注意力表示流构造输入条件化调制可以更直接地提升任务适配能力。第三,相较于 Multi-LoRA 与 RieMoE-LoRA,HyCAM 的优势说明“共享 + 专用 + 动态路由”的混合设计比单纯并行适配或一般专家融合更适合多任务协同建模。
|
||
|
||
对于本文的多任务适配主题而言,这一结论具有直接启发意义:面对多种异质任务同时建模时,模型的关键改进方向未必是持续扩大参数更新规模,而更可能是增强其对上下文进行任务感知组织的能力。本章实验虽然基于通用多任务集合,但其所验证的正是这种\emph{模块级结构调制}的普适有效性。
|
||
|
||
|
||
\begin{table}[ht]
|
||
\centering
|
||
\caption{Qwen2.5 系列不同规模下的可扩展性实验结果。最优结果加粗,次优结果加下划线。}
|
||
\label{tab:ch3_qwen_scale}
|
||
\resizebox{0.42\linewidth}{!}{
|
||
\begin{tabular}{llccc}
|
||
\toprule
|
||
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
|
||
\midrule
|
||
\multirow{5}{*}{Qwen 2.5 0.5B}
|
||
& Full Finetune & 3.778 & \underline{0.159} & 0.219 \\
|
||
& LoRA & 3.764 & 0.145 & 0.222 \\
|
||
& Multi LoRA & 3.754 & 0.144 & 0.221 \\
|
||
& RieMoE-LoRA & \underline{3.621} & 0.152 & \underline{0.232} \\
|
||
& HyCAM & \textbf{3.611} & \textbf{0.169} & \textbf{0.262} \\
|
||
\midrule
|
||
\multirow{5}{*}{Qwen 2.5 1.5B}
|
||
& Full Finetune & \textbf{3.102} & \textbf{0.169} & \underline{0.235} \\
|
||
& LoRA & 3.344 & 0.138 & 0.229 \\
|
||
& Multi LoRA & 3.330 & 0.148 & 0.226 \\
|
||
& RieMoE-LoRA & 3.180 & 0.148 & 0.230 \\
|
||
& HyCAM & \underline{3.108} & \underline{0.167} & \textbf{0.236} \\
|
||
\midrule
|
||
\multirow{5}{*}{Qwen 2.5 3B}
|
||
& Full Finetune & \underline{2.982} & \underline{0.161} & 0.222 \\
|
||
& LoRA & 3.106 & 0.144 & 0.230 \\
|
||
& Multi LoRA & 3.053 & 0.157 & 0.225 \\
|
||
& RieMoE-LoRA & 3.001 & 0.148 & \underline{0.238} \\
|
||
& HyCAM & \textbf{2.940} & \textbf{0.165} & \textbf{0.249} \\
|
||
\midrule
|
||
\multirow{5}{*}{Qwen 2.5 7B}
|
||
& Full Finetune & 3.024 & \underline{0.169} & 0.225 \\
|
||
& LoRA & 2.840 & 0.137 & \underline{0.239} \\
|
||
& Multi LoRA & 3.069 & 0.136 & 0.222 \\
|
||
& RieMoE-LoRA & \underline{2.830} & 0.157 & 0.227 \\
|
||
& HyCAM & \textbf{2.757} & \textbf{0.172} & \textbf{0.248} \\
|
||
\midrule
|
||
\multirow{5}{*}{Qwen 2.5 14B}
|
||
& Full Finetune & 2.839 & \textbf{0.176} & 0.214 \\
|
||
& LoRA & 2.889 & 0.147 & \underline{0.238} \\
|
||
& Multi LoRA & 2.882 & 0.152 & 0.235 \\
|
||
& RieMoE-LoRA & \underline{2.792} & 0.142 & \underline{0.238} \\
|
||
& HyCAM & \textbf{2.682} & \underline{0.160} & \textbf{0.242} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
\subsubsection{不同模型规模下的可扩展性分析}
|
||
|
||
为了进一步考察 HyCAM 在不同参数规模模型中的适用性,原始实验还在 Qwen2.5 与 Llama3.2 系列上进行了跨规模验证。结果如表~\ref{tab:ch3_qwen_scale} 与表~\ref{tab:ch3_llama_scale} 所示。总体来看,HyCAM 在从小模型到中大模型的多个规模区间内均表现出稳定优势,且在不少较大模型上其优势更为明显。
|
||
|
||
\begin{table}[h]
|
||
\centering
|
||
\caption{Llama3.2 系列不同规模下的可扩展性实验结果。最优结果加粗,次优结果加下划线。}
|
||
\label{tab:ch3_llama_scale}
|
||
\resizebox{0.42\linewidth}{!}{
|
||
\begin{tabular}{llccc}
|
||
\toprule
|
||
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
|
||
\midrule
|
||
\multirow{5}{*}{Llama 3.2 1B}
|
||
& Full Finetune & \textbf{4.221} & \textbf{0.164} & 0.221 \\
|
||
& LoRA & 4.515 & 0.144 & 0.227 \\
|
||
& Multi LoRA & 4.533 & 0.143 & 0.225 \\
|
||
& RieMoE-LoRA & 4.324 & 0.161 & \underline{0.241} \\
|
||
& HyCAM & \underline{4.227} & \underline{0.163} & \textbf{0.244} \\
|
||
\midrule
|
||
\multirow{5}{*}{Llama 3.2 3B}
|
||
& Full Finetune & \textbf{3.747} & \underline{0.159} & 0.220 \\
|
||
& LoRA & 3.824 & 0.144 & \underline{0.234} \\
|
||
& Multi LoRA & 3.876 & 0.149 & 0.232 \\
|
||
& RieMoE-LoRA & 3.806 & 0.154 & 0.233 \\
|
||
& HyCAM & \underline{3.778} & \textbf{0.167} & \textbf{0.243} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
这一现象说明,HyCAM 的收益并非依赖某个特定模型家族,而是与其核心建模机制有关。随着模型规模增大,预训练模型往往具备更丰富的知识储备与更复杂的表示空间,此时若仍采用简单统一的低秩更新,可能难以充分利用大模型内部潜在的功能结构;而 HyCAM 通过面向注意力表示流的调制,为大模型提供了更灵活的任务特化路径,因此更容易发挥其潜在能力。
|
||
|
||
进一步分析不同规模区间的实验结果,可以观察到以下趋势。在 Qwen2.5 系列中,当模型规模从 0.5B 增加至 14B 时,HyCAM 相对于 LoRA 在 PPL 上的绝对改进幅度从 0.153(0.5B)增大至 0.207(14B),ROUGE 的改进幅度则从 0.040 增大至 0.004。这一非对称增长模式表明,HyCAM 在不同指标上的增益机制可能有所不同:在语言建模质量(PPL)方面,随着模型规模增大,HyCAM 的调制能够更充分地发挥预训练知识的潜力;而在输出文本匹配(ROUGE)方面,大模型本身的基准已经较高,因此边际改进空间有所收窄。
|
||
|
||
在 Llama3.2 小规模系列中,值得注意的是全参数微调在 1B 模型上仍然是最强方法。这与小模型的知识容量有限、需要更大幅度的参数更新来适配新任务的特点有关。然而,即使在这一不利条件下,HyCAM 仍然取得了接近全参数微调的性能(PPL 4.227 vs 4.221),且显著优于所有其他 PEFT 基线。随着模型规模增加至 3B,HyCAM 即超越全参数微调(PPL 3.778 vs 3.747 稍有差距,但 BLEU 0.167 vs 0.159 显著领先)。这进一步支持了本章的核心假设:当模型具有足够的预训练知识储备时,结构感知的调制式适配比全面重写参数的方式更为有效。
|
||
|
||
对于复杂多任务场景而言,这意味着随着未来更大规模基础模型的出现,类似 HyCAM 的模块级结构感知适配方式仍具有较强适用前景。
|
||
|
||
\subsubsection{跨任务性能分析}
|
||
|
||
为了分析 HyCAM 是否仅在个别任务上获益,还是在整体上具有更均衡的多任务适配能力,表~\ref{tab:ch3_cross_task} 给出了基于 Llama2-7B 的跨任务细粒度结果。从结果可见,HyCAM 在多数任务上均取得了较优表现,尤其在 Auto CoT、CodeAlpaca 和 WebGPT 等任务上优势较明显。这表明,HyCAM 不是通过牺牲部分任务来换取整体平均性能提升,而是能够在较大程度上缓解多任务训练中的任务干扰问题。
|
||
|
||
\begin{table}[h]
|
||
\centering
|
||
\caption{不同任务上的细粒度结果分析(骨干模型:Llama2-7B)。最优结果加粗,次优结果加下划线。}
|
||
\label{tab:ch3_cross_task}
|
||
\resizebox{0.42\linewidth}{!}{
|
||
\begin{tabular}{llccc}
|
||
\toprule
|
||
任务 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
|
||
\midrule
|
||
\multirow{5}{*}{Auto CoT}
|
||
& Full Finetune & 1.842 & \underline{0.282} & 0.287 \\
|
||
& LoRA & 1.843 & 0.268 & 0.291 \\
|
||
& Multi LoRA & 1.952 & 0.198 & 0.290 \\
|
||
& RieMoE-LoRA & \underline{1.813} & 0.275 & \textbf{0.298} \\
|
||
& HyCAM & \textbf{1.777} & \textbf{0.283} & \underline{0.297} \\
|
||
\midrule
|
||
\multirow{5}{*}{iCliniq}
|
||
& Full Finetune & \textbf{7.497} & \textbf{0.053} & 0.123 \\
|
||
& LoRA & 8.140 & 0.049 & \underline{0.124} \\
|
||
& Multi LoRA & 8.846 & 0.037 & 0.122 \\
|
||
& RieMoE-LoRA & 8.001 & 0.051 & 0.123 \\
|
||
& HyCAM & \underline{7.546} & \textbf{0.053} & \textbf{0.125} \\
|
||
\midrule
|
||
\multirow{5}{*}{Dolly 2.0}
|
||
& Full Finetune & 6.461 & 0.088 & \textbf{0.200} \\
|
||
& LoRA & 6.029 & 0.070 & 0.181 \\
|
||
& Multi LoRA & \textbf{5.743} & 0.101 & 0.177 \\
|
||
& RieMoE-LoRA & 5.954 & \textbf{0.106} & 0.183 \\
|
||
& HyCAM & \underline{5.893} & \underline{0.093} & \underline{0.194} \\
|
||
\midrule
|
||
\multirow{5}{*}{CodeAlpaca}
|
||
& Full Finetune & 2.532 & 0.138 & 0.195 \\
|
||
& LoRA & 2.404 & \underline{0.146} & 0.202 \\
|
||
& Multi LoRA & \textbf{2.312} & 0.134 & 0.189 \\
|
||
& RieMoE-LoRA & 2.381 & 0.142 & \underline{0.207} \\
|
||
& HyCAM & \underline{2.359} & \textbf{0.163} & \textbf{0.222} \\
|
||
\midrule
|
||
\multirow{5}{*}{WebGPT}
|
||
& Full Finetune & \underline{1.888} & \textbf{0.182} & \textbf{0.341} \\
|
||
& LoRA & 1.919 & 0.178 & 0.331 \\
|
||
& Multi LoRA & 1.939 & 0.176 & \underline{0.337} \\
|
||
& RieMoE-LoRA & \underline{1.888} & 0.177 & 0.336 \\
|
||
& HyCAM & \textbf{1.845} & \underline{0.180} & \underline{0.337} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
需要指出的是,不同任务之间的性能水平本身存在显著差异。例如,医疗问答和部分开放式指令任务通常具有更高输出不确定性,因此其绝对指标可能整体较低。这一现象在多任务建模中普遍存在:例如,封闭式事实判断与开放式推理解释的难度本就不可简单等同。因此,更重要的不是要求所有任务在同一数值尺度上接近,而是观察方法能否在面对异质目标时保持相对稳定、均衡的适配能力。从这一意义上看,HyCAM 的结果具有较好的说服力。
|
||
|
||
具体到各任务的表现,可以从以下几个角度进行分析。在 Auto CoT 推理任务中,HyCAM 取得了最低的 PPL(1.777)和最高的 BLEU(0.283),这说明其调制机制对涉及多步推理的上下文组织尤其有效,能够在推理链的各步之间维持更一致的表示流。在 CodeAlpaca 代码生成任务中,HyCAM 同样取得了显著优势(BLEU 0.163 vs 基线最优 0.146),表明注意力调制有助于模型在需要长距离结构对齐(如代码块嵌套、函数调用关系)的任务中保持更精确的上下文追踪。在 WebGPT 信息检索问答任务中,HyCAM 在 PPL 上取得最优(1.845),说明其在需要从大量检索信息中选择关键证据并整合为连贯回答的场景中表现突出。
|
||
|
||
相对而言,在 iCliniq 医疗问答任务中,全参数微调仍表现最佳(PPL 7.497),而 HyCAM 虽然次优但差距不大。这可能是因为医疗领域的专业术语和知识模式与预训练数据分布差异较大,需要更多的参数容量来学习领域特有知识。这一观察具有一般性参考价值:对于需要大量领域专属知识注入的任务,可能需要在 HyCAM 框架内进一步增强知识学习容量。
|
||
|
||
\subsection{消融实验与深入分析}
|
||
\label{subsec:ch3_ablation}
|
||
|
||
\subsubsection{组件作用分析}
|
||
|
||
为进一步分析 HyCAM 各组成部分的作用,原始实验构造了多个消融变体。每个变体通过移除或修改 HyCAM 中的某一关键设计,考察该设计对整体性能的贡献。具体变体定义如下:
|
||
|
||
\begin{itemize}
|
||
\item \textbf{Shared-CAM-Only}:仅保留单个全参数共享 CAM 模块,移除所有专用 CAM 模块及路由机制。该变体用于评估 CAM 调制本身(不含多分支结构)的基准效果,即仅依靠跨任务共享的单一调制器能够达到的性能水平。
|
||
\item \textbf{HyCAM-FullSpec}:保留共享 CAM 与专用 CAM 的混合架构,但将所有专用 CAM 模块都替换为全参数形式(即 $W_{sp,k}^{(\ell)} \in \mathbb{R}^{d \times d}$,不采用 SLoRA 参数化)。该变体用于验证专用模块采用参数高效结构的必要性。
|
||
\item \textbf{HyCAM-SpecOnly}:移除共享全参数 CAM 模块,仅保留 $N_s$ 个参数高效的专用 CAM 模块与动态路由机制。该变体用于验证共享底座在多任务适配中的作用。
|
||
\item \textbf{HyCAM-InversePEFT}:将参数分配策略反转——共享模块采用 SLoRA 参数化实现,而专用模块采用全参数形式。该变体用于验证"强共享 + 轻专用"这一非对称参数分配策略的合理性。
|
||
\end{itemize}
|
||
|
||
所有消融变体均在 Llama2-7B 上进行评估,实验结果如表~\ref{tab:ch3_ablation} 所示。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{HyCAM 消融实验结果(以 PPL 为例)。}
|
||
\label{tab:ch3_ablation}
|
||
\resizebox{0.3\linewidth}{!}{
|
||
\begin{tabular}{lc}
|
||
\toprule
|
||
变体 & PPL$\downarrow$ \\
|
||
\midrule
|
||
Shared-CAM-Only & 3.129 \\
|
||
HyCAM-FullSpec & 3.102 \\
|
||
HyCAM-SpecOnly & 3.216 \\
|
||
HyCAM-InversePEFT & 3.129 \\
|
||
HyCAM & \textbf{3.081} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
从表~\ref{tab:ch3_ablation} 可以看出,完整 HyCAM 取得了最优表现,这说明共享与专用分支之间确实具有互补性。仅使用共享 CAM 时,模型虽能学习跨任务共性调制,但缺乏足够的任务特化能力;仅使用专用 CAM 时,则由于缺乏统一共享底座,容易导致跨任务知识无法有效复用,反而降低整体性能。将所有专用模块都替换为全参数结构虽然也能取得较好结果,但会显著增加参数成本,与本章追求高效适配的目标不符。反向分配参数预算同样说明:让共享分支保持较强表达能力、让专用分支采用轻量结构,是当前框架下更合理的设计。
|
||
|
||
这一结论对于多任务适配同样具有启发性。不同任务之间通常既共享通用语义和知识,又存在具体任务差异,因此更适合采用”强共享底座 + 轻量专用分支”的结构,而非纯共享或纯专用策略。
|
||
|
||
进一步地,对比 Shared-CAM-Only(PPL 3.129)与 LoRA(PPL 3.222)可以发现,即使不引入多分支结构,仅在注意力输出表示流上进行单分支 CAM 调制,也已经优于标准的低秩参数增量方法。这从实验层面印证了本章的核心假设:在多任务适配中,对上下文组织路径的定向调制比对所有权重的均匀低秩更新更为有效。HyCAM 在此基础上通过引入多分支混合结构进一步获得提升(PPL 3.129 $\to$ 3.081),验证了混合设计的附加价值。
|
||
|
||
\subsubsection{超参数敏感性分析}
|
||
|
||
原始实验进一步考察了专用 CAM 数量 $N_s$ 对模型性能的影响,结果如图~\ref{fig:ch3_sens} 所示。整体趋势表明,随着专用模块数量从 1 增加到 5,模型性能稳步提升;当 $N_s$ 继续增大至 7 及以上时,性能增益趋于平稳甚至略有波动。这说明适度增加专用分支有助于增强模型表达多任务差异的能力,但专用模块数量并非越多越好:过多模块会增加路由学习难度,并可能引入新的冗余。
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.52\linewidth]{assets/3_sens.pdf}
|
||
\caption{专用 CAM 模块数量 $N_s$ 对 HyCAM 性能的影响。}
|
||
\label{fig:ch3_sens}
|
||
\end{figure}
|
||
|
||
从理论角度分析,$N_s$ 的设置实质上反映了模型对多任务异质性的表达精细度与路由学习复杂度之间的权衡。当 $N_s$ 过小时,专用分支难以充分覆盖不同任务模式之间的差异,导致部分任务的特化需求无法得到满足。当 $N_s$ 过大时,一方面路由器需要在更大的候选空间中进行选择,增加了学习难度;另一方面,各专用模块可用的训练样本分散化,容易导致部分专家训练不充分。实验结果表明,$N_s = 5$ 在当前五任务基准下取得了较好的平衡。
|
||
|
||
从训练过程来看,HyCAM 的损失收敛通常更快、更稳定。这与本章的建模思想是一致的:相比于直接在大规模参数空间内搜索任务适配方向,HyCAM 通过模块角色感知调制将适配空间限制在更具功能针对性的表示流层面,使优化过程更集中于”如何组织上下文”,而非”全面重写模型”。因此,其训练曲线往往具有更好的稳定性。
|
||
|
||
\subsubsection{参数效率分析}
|
||
|
||
为了全面评估 HyCAM 在参数效率方面的优势,本节对各方法的可训练参数量进行了系统比较。以 Llama2-7B 为例,各方法的参数量统计如表~\ref{tab:ch3_param_count} 所示。
|
||
|
||
% TODO: 此表中的参数量数值(如HyCAM 236.1M等)需要根据实际实现代码进行核实,原论文中未包含此表。
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{不同适配方法在 Llama2-7B 上的可训练参数量对比。}
|
||
\label{tab:ch3_param_count}
|
||
\resizebox{0.48\linewidth}{!}{
|
||
\begin{tabular}{lccc}
|
||
\toprule
|
||
方法 & 可训练参数量 & 占比 & PPL$\downarrow$ \\
|
||
\midrule
|
||
Full Finetune & 6.74B & 100\% & 3.193 \\
|
||
LoRA ($r$=64) & 159.9M & 2.37\% & 3.222 \\
|
||
Multi LoRA & 319.8M & 4.75\% & 3.287 \\
|
||
RieMoE-LoRA & 319.8M & 4.75\% & 3.171 \\
|
||
HyCAM & 236.1M & 3.50\% & \textbf{3.081} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
从表~\ref{tab:ch3_param_count} 可以看出,HyCAM 在可训练参数量上介于 LoRA 与 Multi-LoRA/RieMoE-LoRA 之间,但在性能上显著优于所有基线方法。具体而言,HyCAM 的共享 CAM 模块贡献了主要参数量(每层一个 $d \times d$ 的投影矩阵),而各专用 CAM 模块通过 SLoRA 参数化仅引入少量额外参数(每个模块约为共享模块的 $r/d$ 倍)。路由器参数量更为微小(每层仅 $d \times N_s$ 个参数),几乎可以忽略不计。
|
||
|
||
这一参数分配策略与本章”强共享底座 + 轻量专用分支”的设计理念高度一致。共享分支承担主要的跨任务调制建模职责,因此赋予其充分的参数预算;专用分支仅需在共享基础上学习增量式的任务特化方向,因此采用参数高效形式即可满足需求。这种非对称的参数分配,使得 HyCAM 能够在保持较低参数成本的同时,实现比均匀分配策略更优的多任务适配效果。
|
||
|
||
\subsection{可解释性分析与方法讨论}
|
||
\label{subsec:ch3_interpretability}
|
||
|
||
为了进一步理解 HyCAM 对模型内部表示的影响,原始实验从三个角度进行了可解释性分析:表示分布可视化、调制权重可视化以及训练损失曲线可视化。这些分析旨在从定性层面揭示 HyCAM 的内部工作机制,为前文定量实验结果提供直观解释。
|
||
|
||
\subsubsection{表示空间可视化}
|
||
|
||
图~\ref{fig:ch3_tsne} 展示了自注意力模块 Value 矩阵表示经 t-SNE 降维后的二维散点图。纵轴对应于不同 token 位置,横轴表示被增强或抑制的程度。可以观察到,经过 HyCAM 调制后,表示空间往往呈现出更为紧凑和清晰的簇结构。具体而言,在未施加 CAM 调制的基线模型中,不同任务的表示点在二维空间中呈现较大的混叠区域,表明模型在任务间的表示区分度较低;而经过 HyCAM 调制后,属于同一任务的表示点更倾向于聚集在相近区域,且不同任务簇之间的间距增大。这说明 CAM 调制不仅提升了单任务内表示的一致性,也增强了跨任务表示的区分性。
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.72\linewidth]{assets/3_tsne.pdf}
|
||
\caption{注意力表示空间的可视化结果。上方为未施加 CAM 调制的基线表示,下方为经 HyCAM 调制后的表示。经调制后表示呈现更紧凑的簇结构与更高的区分度。}
|
||
\label{fig:ch3_tsne}
|
||
\end{figure}
|
||
|
||
从表征学习角度分析,这一结果表明 HyCAM 的调制机制有效地改善了自注意力模块输出表示的语义组织方式。在预训练阶段,模型学习到的表示空间面向通用目标组织,不同任务的表示方向可能存在较大的重叠和干扰。HyCAM 通过输入条件化的调制信号,对不同任务样本的注意力表示施加差异化的缩放与偏移,使得模型能够在不破坏预训练知识基础的前提下,学习到更具任务辨识度的表示结构。
|
||
|
||
\subsubsection{调制权重可视化}
|
||
|
||
图~\ref{fig:ch3_weights} 给出了某一层 HyCAM 生成的调制权重矩阵 $\mathbf{A}_{fusion}^{(\ell)}$ 的可视化示意。该矩阵的形状为 $T \times d$,其中每行对应一个输入 token,每列对应表示的一个维度。颜色深浅反映了调制强度——正值(暖色)表示增强,负值或近零值(冷色)表示抑制或不变。
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.72\linewidth]{assets/3_ht.pdf}
|
||
\caption{HyCAM 调制权重矩阵的可视化。不同 token 与维度上的调制强度呈现明显差异,说明 HyCAM 实现了细粒度的上下文感知调制。}
|
||
\label{fig:ch3_weights}
|
||
\end{figure}
|
||
|
||
从图中可以清晰观察到两个重要特征。第一,调制权重沿 token 轴方向呈现显著的非均匀性:某些 token 位置获得了较强的调制信号,而另一些位置则保持近零的调制。这表明 HyCAM 能够根据输入内容自适应地选择需要重点调整的上下文位置,而非对所有 token 施加无差别的全局修正。第二,调制权重沿维度轴方向同样表现出选择性:即使在同一 token 位置上,不同维度接受的调制幅度也存在明显差异。这说明 HyCAM 不仅在 token 粒度上具有选择性,还在表示维度粒度上实现了差异化调制。上述两个特征共同验证了 HyCAM 作为”细粒度输入条件化调制器”的设计意图。
|
||
|
||
\subsubsection{训练收敛性对比}
|
||
|
||
图~\ref{fig:ch3_loss} 展示了不同方法的训练损失变化趋势。相较于若干基线方法,HyCAM 在收敛速度与稳定性上具有一定优势,这与前文关于”模块角色感知调制缩小了有效适配搜索空间”的分析相一致。
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.72\linewidth]{assets/3_loss.pdf}
|
||
\caption{不同方法的训练过程对比。HyCAM 相较基线方法表现出更快的收敛速度与更低的最终损失。}
|
||
\label{fig:ch3_loss}
|
||
\end{figure}
|
||
|
||
具体而言,从训练损失曲线可以观察到:HyCAM 在训练初期即表现出较快的下降速度,且在整个训练过程中损失曲线更为平稳,波动较小。这一现象可以从两个方面理解。一方面,HyCAM 的零初始化策略保证了训练起点与预训练模型行为一致,避免了随机初始化可能带来的初始震荡。另一方面,由于 HyCAM 仅对注意力表示流进行调制,其有效适配参数空间相比全参数更新或作用于所有层的低秩更新更加紧凑和聚焦,使得优化过程能够更高效地找到有效的适配方向。相比之下,Multi-LoRA 和 RieMoE-LoRA 的训练曲线表现出更多的波动,这可能与其多分支结构在训练早期尚未充分分化、各分支之间存在竞争有关。
|
||
|
||
需要指出的是,当前这些可视化结果主要来自通用多任务实验。在后续工作中,可进一步考察如下现象:不同类型任务下路由权重是否呈现稳定分工、不同推理模式的问题是否更依赖某类专用 CAM、需要长程上下文整合的问题是否倾向激活更强调制等。这些问题有助于将本章的方法分析进一步与具体任务结构建立直接联系。
|
||
|
||
% \subsubsection{计算复杂度分析}
|
||
|
||
% HyCAM 在每层 Transformer 中引入的额外计算主要来自三部分:共享 CAM 的投影运算、专用 CAM 的低秩投影运算以及路由器的 logit 计算。设隐藏维度为 $d$,序列长度为 $T$,专用模块数为 $N_s$,低秩维度为 $r$,则各部分的计算复杂度分别为:共享 CAM 的投影为 $O(Td^2)$,与原始自注意力中的 QKV 投影同阶;各专用 CAM 的 SLoRA 投影为 $O(N_s \cdot T \cdot (dr + r^2))$;路由器计算为 $O(TdN_s)$。由于 $r \ll d$ 且 $N_s$ 通常较小(实验中 $N_s = 5$),专用模块与路由器的计算开销远小于共享模块和原始注意力计算。
|
||
|
||
% 在实际训练中,相比标准 LoRA 作用于所有线性层的设置,HyCAM 仅在注意力输出处引入调制模块,而不改变 QKV 投影和 FFN 层。因此,HyCAM 的每步训练耗时与 LoRA 接近,在部分骨干模型上甚至略低。推理阶段,由于 HyCAM 的调制仅包含矩阵乘法与逐元素乘法,不引入额外的注意力计算或序列扫描,因此推理延迟增加可控。
|
||
|
||
\subsubsection{方法定位与适用场景}
|
||
|
||
HyCAM 的核心优势在于其对自注意力表示流的定向调制设计,这使得它特别适用于以下场景:(1)多任务联合训练,尤其是任务间既存在共性又存在显著差异的场景;(2)需要在保持预训练通用知识的同时实现任务特化的应用;(3)对参数效率有要求、但又需要超越标准 LoRA 表达能力的场景。
|
||
|
||
然而,HyCAM 的调制粒度仍然停留在注意力输出的整体表示层面。具体而言,HyCAM 对 $\mathbf{H}_{att}^{(\ell)}$ 的每个元素施加独立调制,但并未显式区分不同维度在位置编码结构中的功能差异。例如,在采用 RoPE 位置编码的模型中,不同维度对承担不同频率的旋转,分别编码了不同尺度的位置信息。这种维度间的结构性差异在本章方法中尚未被感知与利用。此外,HyCAM 目前主要关注注意力模块的输出调制,对于 FFN 层内部可能存在的结构化适配机会也未加探索。这些方向构成了后续章节进一步深化的出发点。
|
||
|
||
|
||
\section{本章小结}
|
||
\label{sec:ch3_summary}
|
||
|
||
本章围绕多任务适配中的模块级结构异质性问题,提出了一种基于模块功能角色感知的多任务表征适配方法。本章的主要工作与贡献可概括为以下四个方面。
|
||
|
||
第一,本章从模块级结构角色差异出发,系统分析了 Transformer 架构中自注意力模块与前馈网络模块在多任务适配中的不同功能定位,指出面向自注意力表示流的定向调制是兼顾知识保持与任务特化的更优路径,并在第一章统一分析框架下给出了模块级调制算子的形式化定义。
|
||
|
||
第二,本章提出了上下文注意力调制机制 CAM,通过对自注意力输出表示流施加输入条件化的逐元素调制,实现对预训练知识调用方式的精细修正。CAM 的设计以零初始化保证训练稳定性,以乘性残差结构保证与预训练行为的平滑过渡,为后续多任务扩展提供了机制基础。
|
||
|
||
第三,本章在 CAM 基础上提出了 HyCAM 框架,通过”全参数共享 CAM + 参数高效专用 CAM + Gumbel-Softmax 动态路由”的混合架构,实现了跨任务共享知识与任务特有模式之间的自适应平衡。负载均衡损失的引入进一步保证了多专用模块的合理协同使用。
|
||
|
||
第四,本章在涵盖五类异质任务的通用多任务基准上进行了系统验证,实验覆盖 Llama、Mistral 与 Qwen 三大模型家族及从 0.5B 到 14B 的多个规模区间。结果表明,HyCAM 在整体性能、跨任务均衡性、参数效率与训练稳定性等方面均表现出稳定优势。消融实验与可视化分析进一步验证了各组件设计的合理性。
|
||
|
||
从全文的统一研究主线来看,本章主要解决的是统一分析框架中的\emph{模块级结构异质性}问题,即关注不同功能模块在表示流组织中的角色差异,并给出了相应的适配机制。然而,本章的方法仍然主要作用于注意力输出整体表示流,尚未进一步刻画注意力表示内部不同维度、不同位置编码成分之间可能存在的细粒度角色差异。在采用 RoPE 位置编码的模型中,不同维度对承担不同频率的旋转,分别编码了不同尺度的位置信息,这种维度间的结构性差异在本章方法中尚未被感知与利用。因此,下一章将在本章工作的基础上,进一步转向\emph{维度级结构异质性},研究位置结构感知的选择性表征适配方法,从更细粒度的表示维度层面对适配机制进行深化。
|