% 第三章 基于模块功能角色感知的多任务表征适配方法 \chapter{基于模块功能角色感知的多任务表征适配方法} \label{chap:hycam} \section{本章概述} \label{sec:ch3_overview} 本章开始进入本文方法体系的\emph{表示空间}层,首先研究模块级功能异质性问题。第一章建立了基于结构感知调制的统一分析框架(式~\ref{eq:ch1_unified_M}),将大语言模型不同层级所呈现的结构差异归纳为四类结构异质性,并统一刻画为乘性调制、组合式调制与结构分解调制三种基本形式。在该统一框架下,不同方法可理解为针对特定结构角色描述符$\mathcal{R}$的具体实例化。本章作为方法体系的第一部分,聚焦于\emph{模块级功能异质性}($\mathcal{R}_{mod}$)。 在多任务适配场景中,模型需要在统一表示空间内同时刻画多任务共享规律与任务特有结构,这对模型内部不同计算模块的协同方式提出了更高要求。从表示机制来看,Transformer架构中的自注意力模块与前馈网络模块在功能上存在显著差异:自注意力模块主要负责输入上下文之间的依赖建模与信息整合,而前馈网络模块则更多承担参数化知识表达与非线性映射功能。这种功能分工使得不同模块在表征学习过程中承担不同的结构角色。 然而,现有适配方法通常采用均匀式参数更新或统一形式的表示调制策略,将不同模块视为等价的可调对象。该类方法一方面可能对预训练模型中已形成的知识结构产生干扰,另一方面也难以针对承担关键表征功能的模块进行有效调控,从而限制模型在复杂多任务场景中的适配能力。 针对上述问题,本章从模块级结构角色差异出发,研究基于表示流调制的结构感知适配方法。在统一框架下,该问题可表述为:在$\mathcal{R}_{mod}$约束下,构造依赖于输入与任务条件的调制算子$\mathcal{M}_\theta$,以对自注意力表示进行差异化调控。对应地,本章方法属于乘性调制形式(式~\ref{eq:ch1_multiplicative}),通过对注意力表示流施加输入条件化的门控信号,实现对关键信息通道的选择性增强与抑制。 在具体实现上,本章首先构建上下文注意力调制(Contextual Attention Modulation, CAM)机制,通过通道级乘性调制对自注意力输出进行输入依赖的动态调整;在此基础上,进一步构建混合上下文注意力调制框架(Hybrid Contextual Attention Modulation, HyCAM),通过共享调制模块与任务特有调制模块的结构组合,并结合动态路由机制,在统一模型中实现跨任务知识共享与任务特定表达之间的协调。 本章后续安排如下:第~\ref{sec:ch3_problem}~节分析多任务适配中的模块级结构异质性问题;第~\ref{sec:ch3_cam_mechanism}~节介绍基于模块角色感知的表示流调制机制;第~\ref{sec:ch3_hycam}~节给出混合上下文注意力调制框架;第~\ref{sec:ch3_routing}~节介绍动态路由与协同训练机制;第~\ref{sec:ch3_experiments}~节进行实验验证与结果分析;第~\ref{sec:ch3_summary}~节对本章内容进行总结。 \section{多任务适配问题与结构分析} \label{sec:ch3_problem} \subsection{大语言模型多任务适配的研究背景} \label{subsec:ch3_background} 随着大语言模型在实际应用中的不断推广,智能任务的形态正由单一目标优化逐步演进为面向多任务协同与多需求融合的综合建模问题。在真实应用环境中,不同任务在输入形式、推理模式与决策目标等方面往往存在显著差异,例如逻辑推理、专业领域问答、代码生成、信息检索以及通用指令跟随等任务在表示需求上具有不同侧重点。这种多维度任务需求使模型需要在统一表示框架下同时具备共享能力与任务特化能力。 从表示学习视角来看,多任务场景中的共享性与差异性并存。不同任务虽然在表面目标上存在差异,但往往共享预训练模型中积累的通用知识与语义表示能力。例如,逻辑推理任务依赖多步推理链的组织,代码生成依赖结构化符号的精确表达,而信息检索问答则需要从大量上下文中选择关键证据并进行整合。其次,不同任务对模型内部表示的需求并不一致:有些任务更强调局部语境对齐,有些任务更依赖长程依赖建模,还有些任务则更需要对少量关键上下文线索进行精细选择。这意味着,多任务适配不仅是多个目标函数的并列优化问题,更是一个关于\emph{如何在共享预训练知识基础上进行结构化上下文重组}的问题。 大语言模型经过大规模语料预训练后,已经具备较强的通用知识记忆与上下文推理能力,因此为多任务协同建模提供了统一的技术路径。大语言模型能够在统一表示空间内处理异构任务,并通过指令化输入自然支持问答、推理、生成与解释等复杂目标。然而,这种通用能力并不意味着模型能够直接适配所有复杂多任务场景。一方面,通用预训练知识与具体下游任务之间存在明显的语义与结构落差;另一方面,若直接采用传统全参数微调方式,容易破坏既有预训练结构,导致灾难性遗忘、任务干扰与适配不稳定等问题。因此,如何在保留预训练基础能力的同时,使模型对复杂多任务上下文形成更细粒度、更具针对性的响应机制,成为本章关注的核心问题。 \subsection{多任务适配中的模块级结构异质性} \label{subsec:ch3_module_hetero} 从第~\ref{sec:unified_framework} 节所提出的统一分析框架出发,本文认为,大语言模型在适配下游任务时面临的关键困难之一,在于其内部不同功能模块并非同质、等价地参与任务建模,而是具有显著的\emph{结构角色异质性}。具体到 Transformer 架构,不同子模块在表征生成过程中承担不同的功能角色:自注意力模块侧重于建模输入上下文之间的依赖关系,负责动态组织、选择与融合时序和语义线索;前馈网络(FFN)则更多承担参数化知识存储与非线性映射功能,形成模型的静态知识基础。 对于复杂多任务场景而言,这种差异尤为重要。复杂多任务场景中的输入通常包含多种类型的实体关系、背景知识、推理链条、用户意图与上下文语义等复合信息。模型能否正确完成任务,很大程度上并不只取决于其是否”记住”了某类知识,更取决于其能否在具体上下文中\emph{动态组织这些知识},并将注意力聚焦于与当前任务目标最相关的上下文线索之上。换言之,问题的关键不完全是“增加任务知识”,而更在于“重新组织知识与上下文之间的匹配方式”。 从这一视角出发,若采用均匀式适配策略,将所有模块都视为等价可调对象,则可能带来两类问题。第一,过度更新 FFN 等参数规模较大的知识承载模块,会改变预训练阶段已形成的通用知识分布,增加灾难性遗忘风险。第二,若缺乏对自注意力上下文组织机制的定向调节,则模型即便保留了知识,也可能无法在复杂多任务场景中正确选择与整合这些知识,从而表现为任务间干扰、泛化能力不足与适配效率下降。因此,从模块级结构异质性的角度出发,面向多任务适配的高效适配,更合理的路径应当是:在尽量保持预训练知识主体结构稳定的前提下,重点对上下文组织路径进行有针对性的调制。 \subsection{从均匀适配到结构感知调制} \label{subsec:ch3_uniform_to_aware} 现有全参数微调与多数参数高效微调方法,本质上大多采用某种形式的均匀适配思想,即默认模型内部所有参数或所有目标层具有相近的适配地位,仅通过统一的增量更新方式来完成任务迁移。然而,在复杂多任务场景中,不同任务之间既存在共享的通用知识与语义规律,又存在对特定上下文结构的差异化偏好。例如,逻辑推理任务可能更依赖多步推理链的精细组织,代码生成任务更强调结构化依赖的长程追踪,而信息检索问答任务则更关注证据选择与上下文整合。这些任务需求并不是通过统一的低秩增量便可充分表达的。 基于此,本章延续第~\ref{sec:unified_framework} 节建立的统一建模视角,认为更合理的适配方式应当是引入\emph{结构感知的非均匀调制}:不再对模型内部所有部分施加同质更新,而是根据不同模块的结构角色,对更适合承担任务适配职责的表示流进行定向调控。在本章中,所关注的结构角色记为 \begin{equation} \mathcal{R}_{mod}, \label{eq:ch3_module_role} \end{equation} 其对应于 Transformer 中模块级功能角色差异,尤其是自注意力模块与前馈网络模块在知识存储、上下文整合与任务适配中的不同作用。 在这一基础上,本章首先将第~\ref{sec:unified_framework} 节提出的统一结构感知调制算子在模块级场景下实例化为: \begin{equation} \tilde{\mathbf{H}}_{att}^{(\ell)} = \mathcal{M}_{\theta}^{mod} \Big( \mathbf{H}_{att}^{(\ell)};\, \mathbf{X},\, \mathcal{R}_{mod} \Big), \label{eq:ch3_unified_modulation} \end{equation} 其中,$\mathbf{X}$ 表示输入样本或指令序列,$\mathbf{H}_{att}^{(\ell)}$ 表示第 $\ell$ 层自注意力模块的输出表示,$\mathcal{M}_{\theta}^{mod}$ 表示面向模块角色异质性的结构感知调制算子,而 $\tilde{\mathbf{H}}_{att}^{(\ell)}$ 则是调制后的上下文表示。该公式表明,本章方法并不直接重写整个模型的参数空间,而是在保留骨干模型 $\Theta_0$ 主体稳定的前提下,对承担上下文组织功能的注意力表示流进行输入条件化调制。 在具体实现上,本章将这种模块级调制设计为一种乘性残差调制机制,即通过上下文驱动的调制信号,对自注意力输出表示中的关键维度进行增强或抑制,从而改变信息流在后续层中的传播方式。其核心思想是:若预训练模型已经具备较强的通用知识,则多任务适配的关键不一定是重写知识本身,而更在于改变\emph{知识被调用、组织与融合的方式}。这一思想构成了本章所提出方法 HyCAM 的理论出发点。 \subsection{本章研究目标与技术路线} \label{subsec:ch3_goal} 基于上述分析,本章聚焦于多任务适配中的模块级异质性问题,主要关注以下三个方面: 第一,在大语言模型适配多任务场景时,是否可以通过优先调制自注意力表示流而非大规模修改骨干参数,获得更优的知识保持与任务适配平衡? 第二,在多任务建模中,如何同时兼顾跨任务共享知识与任务特有模式,使模型能够在统一框架中实现共享与专用能力的协同? 第三,在面向多种异质任务的联合建模过程中,如何通过动态路由机制使不同适配分支获得更合理的使用,从而缓解任务冲突与专家塌缩问题? 围绕这些问题,本章提出一种基于模块功能角色感知的多任务表征适配方法,其总体技术路线如图~\ref{fig:ch3_framework} 所示。该方法首先构造上下文注意力调制机制(Contextual Attention Modulation, CAM),对每层自注意力输出进行输入条件化调制;随后,在此基础上进一步提出混合式上下文注意力调制框架(Hybrid Contextual Attention Modulation, HyCAM),通过“共享 CAM + 专用 CAM + 动态路由”的结构实现多任务协同建模。整体上,本章的方法可统一理解为一种\emph{模块角色感知的表示流调制方法},它为后续第四章从维度级进一步研究位置结构与表示各向异性问题提供了基础。 \begin{figure}[htp] \centering \includegraphics[width=0.82\linewidth]{assets/3_model.pdf} \caption{基于模块功能角色感知的多任务表征适配总体框架示意图。} \label{fig:ch3_framework} \end{figure} \section{模块角色感知的表示流调制机制} \label{sec:ch3_cam_mechanism} \subsection{问题形式化} \label{subsec:ch3_formulation} 在多任务适配场景下,设训练数据集为 \begin{equation} \mathcal{D} = \left\{ (\mathbf{X}_i,\mathbf{Y}_i,\tau_i) \right\}_{i=1}^{N}, \label{eq:ch3_dataset} \end{equation} 其中,$\mathbf{X}_i$ 表示第 $i$ 个输入样本,可由自然语言指令、问题描述、上下文信息、结构化输入及其他任务相关上下文组成;$\mathbf{Y}_i$ 表示对应的目标输出;$\tau_i \in \mathcal{T}$ 表示该样本所属的任务类型,$\mathcal{T}$ 为任务集合。$\mathcal{T}$ 可对应于逻辑推理、专业领域问答、代码生成、信息检索、通用指令跟随等不同子任务。骨干大语言模型的预训练参数记为 $\Theta_0$,本章的适配参数记为 $\Theta_a$,则最终模型可统一写为 \begin{equation} \Theta = \Theta_0 + \Delta \Theta(\Theta_a), \label{eq:ch3_theta_decompose} \end{equation} 其中 $\Delta \Theta(\Theta_a)$ 并非对全部参数的均匀更新,而是由模块角色感知调制结构所诱导的有效增量。 给定输入序列 $\mathbf{X} = (x_1,\dots,x_T)$,在第 $\ell$ 层 Transformer 中,隐藏表示记为 \begin{equation} \mathbf{H}^{(\ell)} \in \mathbb{R}^{T \times d}, \label{eq:ch3_hidden} \end{equation} 其中 $T$ 为序列长度,$d$ 为隐藏维度。采用预归一化 Transformer 时,输入到自注意力模块的归一化表示为 \begin{equation} \bar{\mathbf{H}}^{(\ell)} = \mathrm{LayerNorm}\!\left(\mathbf{H}^{(\ell)}\right). \label{eq:ch3_norm} \end{equation} 标准自注意力输出表示可写为 \begin{equation} \mathbf{H}_{att}^{(\ell)} = \mathrm{SelfAttn}\!\left(\bar{\mathbf{H}}^{(\ell)}\right). \label{eq:ch3_attn_output} \end{equation} 本章关注的核心问题并非直接重构 $\mathbf{H}_{att}^{(\ell)}$,而是在保持其基础结构不变的前提下,基于输入上下文生成调制信号对其进行结构感知修正,从而得到适于当前任务的表示流: \begin{equation} \tilde{\mathbf{H}}_{att}^{(\ell)} = \mathbf{H}_{att}^{(\ell)} + \mathbf{H}_{att}^{(\ell)} \odot \mathbf{S}_{\theta}^{mod} \!\left( \bar{\mathbf{H}}^{(\ell)}, \mathbf{X}, \mathcal{R}_{mod} \right), \label{eq:ch3_mod_general} \end{equation} 其中 $\odot$ 表示 Hadamard 逐元素乘法,$\mathbf{S}_{\theta}^{mod}(\cdot)$ 表示模块角色感知的调制信号生成函数。式~\eqref{eq:ch3_mod_general} 是本章方法最基本的形式化表达,它说明 HyCAM 作用的对象并非整个隐藏空间,而是\emph{自注意力输出表示流}本身。 \subsection{模块角色差异与注意力表示流的适配价值} \label{subsec:ch3_attn_value} 之所以选择自注意力模块作为核心调制对象,原因在于其在预训练语言模型中承担着比 FFN 更直接的上下文组织职责。FFN 虽然在参数规模上占据主导地位并承载预训练知识,但其作用更接近于位置独立的非线性变换。相比之下,自注意力模块通过 Query、Key、Value 之间的交互显式建模不同 token 间的依赖关系,是输入上下文信息聚合与任务相关证据选择的关键场所。 在复杂多任务场景中,这一点尤为关键。例如,当输入涉及需要从多种知识来源中选择关键线索的复杂推理问题时,模型需要从多个实体、概念、上下文片段中选择与任务最相关的线索,并依据任务意图动态调整不同上下文成分的重要性。若仍沿用均匀式参数更新,则模型往往只能通过低效的全局增量来“间接”修正上下文组织方式;而若直接在注意力输出处引入调制,则能够更直接地改变上下文信息的流向与组合方式。因此,从结构角色层面看,自注意力模块是实现任务专门化与知识保持平衡的更优切入点,提供了更直接、可控的上下文组织调节点。 从表示学习角度进一步理解,$\mathbf{H}_{att}^{(\ell)}$ 并不是静态知识本体,而是\emph{在当前上下文条件下对知识进行组织后的中间结果}。因此,对 $\mathbf{H}_{att}^{(\ell)}$ 施加适度、输入驱动的调制,本质上是在改变模型对已有知识的调用模式,而非粗暴覆盖预训练知识本身。这一差异使得本章方法天然更适合用于多任务场景:不同任务可以通过不同调制模式,选择性地突出最有用的上下文特征,而共享的预训练知识底座则得以较好保留。 \subsection{模块级结构调制的统一表达} \label{subsec:ch3_unified_mod} 结合第~\ref{sec:unified_framework} 节提出的统一调制框架,本章将模块级异质性建模为一种乘性调制形式。设本章的调制对象为 \begin{equation} \mathbf{Z}^{(\ell)} = \mathbf{H}_{att}^{(\ell)}, \label{eq:ch3_Z} \end{equation} 则结构角色感知调制算子可具体实例化为 \begin{equation} \mathcal{M}_{\theta}^{mod} \Big( \mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R}_{mod} \Big) = \mathbf{Z}^{(\ell)} \odot \mathbf{S}_{\theta}^{mod} \Big( \bar{\mathbf{H}}^{(\ell)},\mathbf{X},\mathcal{R}_{mod} \Big), \label{eq:ch3_mod_operator} \end{equation} 从而式~\eqref{eq:ch3_unified_modulation} 可改写为 \begin{equation} \tilde{\mathbf{H}}_{att}^{(\ell)} = \mathbf{H}_{att}^{(\ell)} + \mathcal{M}_{\theta}^{mod} \Big( \mathbf{H}_{att}^{(\ell)};\mathbf{X},\mathcal{R}_{mod} \Big). \label{eq:ch3_mod_residual} \end{equation} 式~\eqref{eq:ch3_mod_operator} 和式~\eqref{eq:ch3_mod_residual} 的意义在于,它们为本章后续方法提供了统一的理论骨架。具体而言,后续 CAM 将给出 $\mathbf{S}_{\theta}^{mod}$ 的具体参数化形式,从而将上述抽象调制算子实例化为可学习的上下文调制机制;HyCAM 则在 CAM 之上进一步引入共享与专用调制分支,并通过动态路由完成多任务知识融合。也正因为本章方法是对注意力表示流进行模块角色感知调制,因此其在全文方法体系中的定位可概括为:\emph{模块级异质性驱动的表示流适配}。这一点与下一章从表示维度和位置结构角度研究各向异性调制的方法形成自然递进。 \section{混合上下文注意力调制框架} \label{sec:ch3_hycam} \subsection{上下文注意力调制机制} \label{subsec:ch3_cam_basic} 为实现式~\eqref{eq:ch3_mod_general} 所刻画的模块级调制形式,本章对调制信号生成函数 $\mathbf{S}_{\theta}^{mod}(\cdot)$ 进行具体参数化,构建上下文注意力调制机制(Contextual Attention Modulation, CAM)。该机制在每一层 Transformer 中基于归一化输入表示 $\bar{\mathbf{H}}^{(\ell)}$ 生成逐元素调制信号,并作用于自注意力输出 $\mathbf{H}_{att}^{(\ell)}$,从而实现对上下文相关信息的选择性增强与抑制。 设第 $\ell$ 层输入隐藏状态为 $\mathbf{H}^{(\ell)}$,则其归一化表示已经由式~\eqref{eq:ch3_norm} 给出。基于该表示,调制信号通过如下映射生成: \begin{equation} \mathbf{A}_{CAM}^{(\ell)} = \mathrm{SiLU} \left( \bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{proj}^{(\ell)} \right), \label{eq:ch3_cam_weight} \end{equation} 其中, \begin{equation} \mathbf{W}_{proj}^{(\ell)} \in \mathbb{R}^{d \times d} \label{eq:ch3_cam_proj} \end{equation} 为可训练投影矩阵,$\mathrm{SiLU}(\cdot)$~\cite{elfwing2018sigmoid} 为非线性激活函数。由此得到的 $\mathbf{A}_{CAM}^{(\ell)} \in \mathbb{R}^{T \times d}$ 为逐 token、逐维度的调制信号。随后,CAM 将其施加于注意力输出表示上,得到调制后的输出: \begin{equation} \tilde{\mathbf{H}}_{att}^{(\ell)} = \mathbf{H}_{att}^{(\ell)} + \mathbf{H}_{att}^{(\ell)} \odot \mathbf{A}_{CAM}^{(\ell)}. \label{eq:ch3_cam_output} \end{equation} 由式~\eqref{eq:ch3_cam_weight} 与式~\eqref{eq:ch3_cam_output} 可知,CAM 对自注意力输出施加输入依赖的逐元素门控,从而实现对表示流的残差式调制。该形式对应于式~\eqref{eq:ch3_mod_operator} 中调制算子的具体参数化实现,其中调制信号由 $\bar{\mathbf{H}}^{(\ell)}$ 动态生成,使模型能够针对不同输入样本自适应地改变上下文组织方式。 \subsection{初始化与训练稳定性设计} \label{subsec:ch3_cam_init} 在微调初期,若新引入的调制模块对预训练模型产生过强干预,则容易破坏原有表示分布,导致训练不稳定甚至引发性能显著退化。为保证训练稳定性,CAM 采用零初始化策略,即将投影矩阵 $\mathbf{W}_{proj}^{(\ell)}$ 初始设为零矩阵: \begin{equation} \mathbf{W}_{proj}^{(\ell)} = \mathbf{0}. \label{eq:ch3_zero_init} \end{equation} 在该初始化下,由式~\eqref{eq:ch3_cam_weight} 可知,训练开始时 \begin{equation} \mathbf{A}_{CAM}^{(\ell)} \approx \mathbf{0}, \label{eq:ch3_init_acam} \end{equation} 从而式~\eqref{eq:ch3_cam_output} 退化为 \begin{equation} \tilde{\mathbf{H}}_{att}^{(\ell)} \approx \mathbf{H}_{att}^{(\ell)}. \label{eq:ch3_identity_start} \end{equation} 这意味着 CAM 在训练初期近似保持恒等映射,不会改变预训练模型的原始行为,并在训练过程中逐步学习对表示流的有效调制,从而兼顾训练稳定性与知识保持能力。 在多任务场景中,这一设计尤为重要。由于不同任务共享同一预训练骨干模型,若某一任务在训练早期对模型施加过强更新,往往会对其他任务可用的通用知识造成损害。零初始化策略在一定程度上抑制了这种早期干扰,使不同任务的影响更多体现在对上下文组织方式的渐进式修正上,而非对模型知识底座的立即重写。 \subsection{共享与专用调制的协同设计} \label{subsec:ch3_cam_to_hycam} 上述 CAM 机制对应于调制信号生成函数 $\mathbf{S}_{\theta}^{mod}$ 的单一参数化形式。为同时建模跨任务共享模式与任务特有模式,本章将该调制过程扩展为多分支结构,构建混合上下文注意力调制框架(Hybrid Contextual Attention Modulation, HyCAM)。在该框架下,调制信号由共享分支与多个专用分支共同生成,并通过动态路由机制进行组合。共享分支用于建模跨任务稳定存在的上下文调制模式,专用分支用于刻画任务相关或上下文相关的差异性调制结构。 HyCAM 的本质仍然遵循式~\eqref{eq:ch3_mod_residual} 的统一母式,只是将调制信号 $\mathbf{S}_{\theta}^{mod}$ 的生成方式从单一映射扩展为多分支组合生成。 \subsection{共享调制模块} \label{subsec:ch3_shared_cam} 共享 CAM 模块用于建模跨任务共享的上下文调制模式,例如一般性的实体对齐模式、语义匹配结构与通用上下文组织规律。设第 $\ell$ 层共享 CAM 的投影矩阵为 \begin{equation} \mathbf{W}_{sh}^{(\ell)} \in \mathbb{R}^{d \times d}, \label{eq:ch3_shared_proj} \end{equation} 则共享调制信号定义为 \begin{equation} \mathbf{A}_{sh}^{(\ell)} = \mathrm{SiLU} \left( \bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{sh}^{(\ell)} \right). \label{eq:ch3_shared_cam} \end{equation} 共享 CAM 模块采用全参数形式,其原因在于该分支承担的是跨任务共性模式的建模职责,需要具有相对充分的表达能力,以便在不同任务之间形成稳定共享的表示流调制基础。该分支在所有任务间共享参数,从而形成稳定的全局调制基准。 \subsection{专用调制模块} \label{subsec:ch3_spec_cam} 与共享 CAM 相对,专用 CAM 模块旨在建模任务差异性更强的上下文调制模式。例如,不同任务可能对上下文依赖范围、关键线索类型与局部模式选择具有不同偏好:推理任务更注重多步逻辑链的组织,专业问答更强调领域知识的精确检索,代码生成类任务则对符号化依赖更为敏感。因此,引入 $N_s$ 个专用调制模块以刻画不同潜在模式。 设专用 CAM 模块的个数为 $N_s$,第 $k$ 个专用模块在第 $\ell$ 层的调制信号定义为 \begin{equation} \mathbf{A}_{sp,k}^{(\ell)} = \mathrm{SiLU} \left( \bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{sp,k}^{(\ell)} \right), \quad k = 1,\dots,N_s. \label{eq:ch3_spec_cam} \end{equation} 其中,$\mathbf{W}_{sp,k}^{(\ell)}$ 采用带中间映射矩阵的低秩参数化形式~\cite{guo2025nlora},以在保持表达能力的同时降低参数量: \begin{equation} \mathbf{W}_{sp,k}^{(\ell)} = \mathbf{B}_{k}^{(\ell)} \mathbf{N}_{k}^{(\ell)} \mathbf{A}_{k}^{(\ell)}, \label{eq:ch3_slora} \end{equation} 其中 \begin{equation} \mathbf{A}_{k}^{(\ell)} \in \mathbb{R}^{r \times d}, \quad \mathbf{N}_{k}^{(\ell)} \in \mathbb{R}^{r \times r}, \quad \mathbf{B}_{k}^{(\ell)} \in \mathbb{R}^{d \times r}, \label{eq:ch3_slora_shape} \end{equation} 且 $r \ll d$。这种结构相较于标准 LoRA 的两矩阵分解引入额外的低维变换 $\mathbf{N}_{k}^{(\ell)}$,从而在较小参数预算下提升专用模块的表示灵活性。 为保证训练初期的稳定性,专用模块同样采用保守初始化策略。具体而言,$\mathbf{A}_{k}^{(\ell)}$ 与 $\mathbf{N}_{k}^{(\ell)}$ 可采用 Kaiming 初始化~\cite{he2015delving},而 $\mathbf{B}_{k}^{(\ell)}$ 采用零初始化: \begin{equation} \mathbf{B}_{k}^{(\ell)} = \mathbf{0}. \label{eq:ch3_spec_zero} \end{equation} 因此在训练初期,专用模块近似不对骨干模型产生显著影响,并在训练过程中逐步形成各自的专门化调制方向。 \section{动态路由与协同训练机制} \label{sec:ch3_routing} \subsection{动态路由的设计动机} \label{subsec:ch3_routing_motivation} 在 HyCAM 中,共享 CAM 提供跨任务的公共调制基础,而多个专用 CAM 则提供潜在的任务特化能力。然而,仅有多个专用分支并不足以自动形成有效的多任务协同。其根本原因在于:不同输入样本所对应的任务结构、上下文模式和难点位置并不相同,因此各专用分支对不同样本的重要性也必然不同。若简单地平均融合所有专用 CAM,则模型难以形成明确的功能分工;若为每个任务静态绑定固定专家,又会削弱对任务内部异质性与输入级细粒度差异的适应能力。 复杂多任务场景尤其需要动态路由。即便同属于某一特定任务类型,不同样本也可能分别强调逻辑推理关系、实体属性关系、因果关联或常识推断关系。静态分配无法充分表达这种输入级差异。因此,HyCAM 引入基于输入上下文的软路由机制,对专用 CAM 的贡献进行逐 token 或逐样本的动态加权,从而实现更细粒度的知识调用。 \subsection{基于输入上下文的路由权重生成} \label{subsec:ch3_router_weight} 设第 $\ell$ 层的路由器参数为 \begin{equation} \mathbf{W}_{router}^{(\ell)} \in \mathbb{R}^{d \times N_s}, \label{eq:ch3_router_param} \end{equation} 则根据归一化后的输入表示 $\bar{\mathbf{H}}^{(\ell)}$,可生成第 $\ell$ 层的路由 logits: \begin{equation} \mathbf{\Pi}^{(\ell)} = \bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{router}^{(\ell)}, \label{eq:ch3_router_logits} \end{equation} 其中 $\mathbf{\Pi}^{(\ell)} \in \mathbb{R}^{T \times N_s}$,其第 $t$ 个 token 对应的第 $k$ 个专家 logit 记为 $\pi_{t,k}^{(\ell)}$。为了在保持可微性的同时鼓励离散化选择,本章采用 Gumbel-Softmax~\cite{jang2016categorical} 机制生成软路由权重: \begin{equation} p_{t,k}^{(\ell)} = \frac{ \exp\left( (\log \pi_{t,k}^{(\ell)} + g_{t,k}^{(\ell)}) / \tau \right) }{ \sum_{j=1}^{N_s} \exp\left( (\log \pi_{t,j}^{(\ell)} + g_{t,j}^{(\ell)}) / \tau \right) }, \label{eq:ch3_gumbel} \end{equation} 其中 $g_{t,k}^{(\ell)} \sim \mathrm{Gumbel}(0,1)$ 为 Gumbel 噪声,$\tau$ 为温度系数。温度较小时,权重分布更尖锐,更接近离散专家选择;温度较大时,分布更平滑,有利于训练早期稳定探索。 式~\eqref{eq:ch3_gumbel} 使得 HyCAM 可以根据输入上下文对专用模块进行自适应加权。进一步地,这种路由不是直接作用于模型最终输出,而是作用于注意力调制信号的融合,因此其本质是在输入依赖条件下\emph{动态选择不同的上下文组织方式},而不是简单切换不同解码器或任务头。这也是 HyCAM 能够兼顾统一骨干建模与多任务灵活适配的重要原因。 \subsection{共享与专用调制信号的融合} \label{subsec:ch3_fusion} 在获得共享 CAM 与专用 CAM 的调制信号之后,HyCAM 将其进行融合,形成最终的模块级调制张量。第 $\ell$ 层的融合调制信号定义为 \begin{equation} \mathbf{A}_{fusion}^{(\ell)} = \mathbf{A}_{sh}^{(\ell)} + \sum_{k=1}^{N_s} \mathbf{P}_{k}^{(\ell)} \odot \mathbf{A}_{sp,k}^{(\ell)}, \label{eq:ch3_fusion} \end{equation} 其中 $\mathbf{P}_{k}^{(\ell)}$ 表示第 $k$ 个专用 CAM 的广播路由权重张量,其由式~\eqref{eq:ch3_gumbel} 生成的 $p_{t,k}^{(\ell)}$ 按维度扩展得到,以便与 $\mathbf{A}_{sp,k}^{(\ell)} \in \mathbb{R}^{T \times d}$ 做逐元素乘积。由此,第 $\ell$ 层经 HyCAM 调制后的注意力输出表示为 \begin{equation} \tilde{\mathbf{H}}_{att}^{(\ell)} = \mathbf{H}_{att}^{(\ell)} + \mathbf{H}_{att}^{(\ell)} \odot \mathbf{A}_{fusion}^{(\ell)}. \label{eq:ch3_hycam_output} \end{equation} 式~\eqref{eq:ch3_fusion} 与式~\eqref{eq:ch3_hycam_output} 说明,HyCAM 的本质并不是对注意力层进行替代,而是在原始自注意力输出之上叠加一个由共享规律与专门化规律共同构成的动态调制残差。这种设计既保留了预训练模型原有的上下文建模能力,也为不同任务、不同输入模式引入了额外的适应自由度。 \subsection{负载均衡约束与专家协同} \label{subsec:ch3_balance} 在多专家结构中,若缺乏额外约束,路由器往往会偏向少数几个容易获得较高回报的专用模块,从而导致专家利用不均、训练效率下降和专用结构退化。为缓解这一问题,HyCAM 在训练中引入负载均衡损失,对各专用模块的使用分布施加约束。 设一个 batch 内共有 $B$ 个路由单元(可对应于 token 数或聚合后的样本数),则第 $k$ 个专用模块的平均软选择概率与平均标准 softmax 概率分别可统计为 \begin{equation} \bar{p}_{k} = \frac{1}{B} \sum_{b=1}^{B} p_{b,k}, \qquad \bar{s}_{k} = \frac{1}{B} \sum_{b=1}^{B} \mathrm{softmax}(\mathbf{\Pi}_{b})_{k}. \label{eq:ch3_balance_avg} \end{equation} 在此基础上,负载均衡损失定义为 \begin{equation} \mathcal{L}_{balance} = \sum_{k=1}^{N_s} \bar{p}_{k}\,\bar{s}_{k}. \label{eq:ch3_balance} \end{equation} 该损失鼓励不同专用模块都能够在训练中获得一定程度的激活,从而避免少数模块垄断路由结果。对于复杂多任务建模,这一约束具有重要意义:由于不同任务及其内部子模式具有复杂异质性,若专用模块过早塌缩为少量活跃分支,则模型将难以真正学习到多样化的调制行为,进而削弱 HyCAM 在多任务场景下的特化能力。 \subsection{训练目标} \label{subsec:ch3_training_obj} 本章方法在训练时保持骨干模型主体冻结,仅更新 HyCAM 相关的适配参数 $\Theta_a$,包括共享 CAM、专用 CAM 以及动态路由器。对于自回归生成式任务,给定输入输出对 $(\mathbf{X}_i,\mathbf{Y}_i)$,其任务损失可写为 \begin{equation} \mathcal{L}_{task} = - \sum_{i=1}^{|\mathcal{D}_b|} \sum_{t=1}^{|\mathbf{Y}_i|} \log P \left( y_{i,t} \mid \mathbf{X}_i,\mathbf{Y}_{i,