LLMver_v1

This commit is contained in:
panda361
2026-03-20 22:40:13 +08:00
parent cf02f82db0
commit cacdc79ae2
75 changed files with 2553 additions and 10203 deletions

View File

@@ -1,49 +1,49 @@
% 第三章 模块角色感知的多任务时空表征学习方法
\chapter{模块角色感知的多任务时空表征学习方法}
% 第三章 基于模块功能角色感知的多任务表征适配方法
\chapter{基于模块功能角色感知的多任务表征适配方法}
\label{chap:hycam}
\section{本章概述}
\label{sec:ch3_overview}
第一章建立了基于结构感知调制的统一分析框架(式~\ref{eq:ch1_unified_M}),将时空数据在大语言模型不同层级所诱导的结构差异归纳为四类结构异质性,并统一刻画为乘性调制、组合式调制与结构分解调制三种基本形式。在该统一框架下,不同方法可理解为针对特定结构角色描述符$\mathcal{R}$的具体实例化。本章作为方法体系的第一部分,聚焦于\emph{模块级功能异质性}$\mathcal{R}_{mod}$)。
本章开始进入本文方法体系的\emph{表示空间}层,首先研究模块级功能异质性问题。第一章建立了基于结构感知调制的统一分析框架(式~\ref{eq:ch1_unified_M}),将大语言模型不同层级所呈现的结构差异归纳为四类结构异质性,并统一刻画为乘性调制、组合式调制与结构分解调制三种基本形式。在该统一框架下,不同方法可理解为针对特定结构角色描述符$\mathcal{R}$的具体实例化。本章作为方法体系的第一部分,聚焦于\emph{模块级功能异质性}$\mathcal{R}_{mod}$)。
城市多任务时空建模场景中模型需要在统一表示空间内同时刻画多任务共享规律与任务特有结构这对模型内部不同计算模块的协同方式提出了更高要求。从表示机制来看Transformer架构中的自注意力模块与前馈网络模块在功能上存在显著差异自注意力模块主要负责输入上下文之间的依赖建模与信息整合而前馈网络模块则更多承担参数化知识表达与非线性映射功能。这种功能分工使得不同模块在表征学习过程中承担不同的结构角色。
在多任务适配场景中模型需要在统一表示空间内同时刻画多任务共享规律与任务特有结构这对模型内部不同计算模块的协同方式提出了更高要求。从表示机制来看Transformer架构中的自注意力模块与前馈网络模块在功能上存在显著差异自注意力模块主要负责输入上下文之间的依赖建模与信息整合而前馈网络模块则更多承担参数化知识表达与非线性映射功能。这种功能分工使得不同模块在表征学习过程中承担不同的结构角色。
然而,现有适配方法通常采用均匀式参数更新或统一形式的表示调制策略,将不同模块视为等价的可调对象。该类方法一方面可能对预训练模型中已形成的知识结构产生干扰,另一方面也难以针对承担关键表征功能的模块进行有效调控,从而限制模型在复杂多任务时空场景中的适配能力。
然而,现有适配方法通常采用均匀式参数更新或统一形式的表示调制策略,将不同模块视为等价的可调对象。该类方法一方面可能对预训练模型中已形成的知识结构产生干扰,另一方面也难以针对承担关键表征功能的模块进行有效调控,从而限制模型在复杂多任务场景中的适配能力。
针对上述问题,本章从模块级结构角色差异出发,研究基于表示流调制的结构感知适配方法。在统一框架下,该问题可表述为:在$\mathcal{R}_{mod}$约束下,构造依赖于输入与任务条件的调制算子$\mathcal{M}_\theta$,以对自注意力表示进行差异化调控。对应地,本章方法属于乘性调制形式(式~\ref{eq:ch1_multiplicative}),通过对注意力表示流施加输入条件化的门控信号,实现对关键信息通道的选择性增强与抑制。
在具体实现上本章首先构建上下文注意力调制Contextual Attention Modulation, CAM机制通过通道级乘性调制对自注意力输出进行输入依赖的动态调整在此基础上进一步构建混合上下文注意力调制框架Hybrid Contextual Attention Modulation, HyCAM通过共享调制模块与任务特有调制模块的结构组合并结合动态路由机制在统一模型中实现跨任务知识共享与任务特定表达之间的协调。
本章后续安排如下:第~\ref{sec:ch3_problem}~节分析城市多任务时空建模中的模块级结构异质性问题;第~\ref{sec:ch3_cam_mechanism}~节介绍基于模块角色感知的表示流调制机制;第~\ref{sec:ch3_hycam}~节给出混合上下文注意力调制框架;第~\ref{sec:ch3_routing}~节介绍动态路由与协同训练机制;第~\ref{sec:ch3_experiments}~节进行实验验证与结果分析;第~\ref{sec:ch3_summary}~节对本章内容进行总结。
本章后续安排如下:第~\ref{sec:ch3_problem}~节分析多任务适配中的模块级结构异质性问题;第~\ref{sec:ch3_cam_mechanism}~节介绍基于模块角色感知的表示流调制机制;第~\ref{sec:ch3_hycam}~节给出混合上下文注意力调制框架;第~\ref{sec:ch3_routing}~节介绍动态路由与协同训练机制;第~\ref{sec:ch3_experiments}~节进行实验验证与结果分析;第~\ref{sec:ch3_summary}~节对本章内容进行总结。
\section{多任务时空建模问题与结构分析}
\section{多任务适配问题与结构分析}
\label{sec:ch3_problem}
\subsection{城市多任务时空建模的研究背景}
\subsection{大语言模型多任务适配的研究背景}
\label{subsec:ch3_background}
城市系统本质上是由人、地、设施、交通、事件与服务等多类实体耦合形成的复杂开放系统,其运行过程伴随着持续产生的多源时空数据。随着城市数字化基础设施与智能感知体系的不断完善,围绕城市治理、公共服务、交通调度、空间规划与城市计算所形成的建模任务,正在从传统单任务分析逐步转向面向统一城市智能体的多任务协同建模范式。典型任务包括城市问答与知识检索、时空事件理解、地点语义识别、行为模式分析、城市功能分类、交通状态预测以及基于复杂上下文的决策支持等
随着大语言模型在实际应用中的不断推广,智能任务的形态正由单一目标优化逐步演进为面向多任务协同与多需求融合的综合建模问题。在真实应用环境中,不同任务在输入形式、推理模式与决策目标等方面往往存在显著差异,例如逻辑推理、专业领域问答、代码生成、信息检索以及通用指令跟随等任务在表示需求上具有不同侧重点。这种多维度任务需求使模型需要在统一表示框架下同时具备共享能力与任务特化能力
与一般文本任务不同,城市多任务时空建模具有更强的结构复杂性。首先,不同任务虽然在表面目标上存在差异,但往往共享同一城市系统中的实体知识语义关系与行为规律。例如,地点问答任务依赖位置实体之间的关系理解,轨迹语义分析依赖区域功能与时段模式知识,而城市事件解释则需要同时融合空间邻近性、时间先后关系与社会语义背景。其次,不同任务对模型内部表示的需求并不一致:有些任务更强调局部语境对齐,有些任务更依赖长程依赖建模,还有些任务则更需要对少量关键上下文线索进行精细选择。这意味着,城市多任务时空建模不仅是多个目标函数的并列优化问题,更是一个关于\emph{如何在共享预训练知识基础上进行结构化上下文重组}的问题。
从表示学习视角来看,多任务场景中的共享性与差异性并存。不同任务虽然在表面目标上存在差异,但往往共享预训练模型中积累的通用知识语义表示能力。例如,逻辑推理任务依赖多步推理链的组织,代码生成依赖结构化符号的精确表达,而信息检索问答则需要从大量上下文中选择关键证据并进行整合。其次,不同任务对模型内部表示的需求并不一致:有些任务更强调局部语境对齐,有些任务更依赖长程依赖建模,还有些任务则更需要对少量关键上下文线索进行精细选择。这意味着,多任务适配不仅是多个目标函数的并列优化问题,更是一个关于\emph{如何在共享预训练知识基础上进行结构化上下文重组}的问题。
大语言模型经过大规模语料预训练后,已经具备较强的通用知识记忆与上下文推理能力,因此为城市多任务时空建模提供了的技术路径。相比传统时空模型,大语言模型能够在统一表示空间内处理异构任务,并通过指令化输入自然支持问答、推理、生成与解释等复杂目标。然而,这种能力并不意味着模型能够直接适配复杂城市任务。一方面,通用预训练知识与具体城市任务之间存在明显的语义与结构落差;另一方面,若直接采用传统全参数微调方式,这种数据知识偏差会使模型优化时容易破坏既有预训练结构,导致灾难性遗忘、任务干扰与适配不稳定等问题。因此,如何在保留预训练基础能力的同时,使模型对城市多任务时空上下文形成更细粒度、更具针对性的响应机制,成为本章关注的核心问题。
大语言模型经过大规模语料预训练后,已经具备较强的通用知识记忆与上下文推理能力,因此为多任务协同建模提供了统一的技术路径。大语言模型能够在统一表示空间内处理异构任务,并通过指令化输入自然支持问答、推理、生成与解释等复杂目标。然而,这种通用能力并不意味着模型能够直接适配所有复杂多任务场景。一方面,通用预训练知识与具体下游任务之间存在明显的语义与结构落差;另一方面,若直接采用传统全参数微调方式,容易破坏既有预训练结构,导致灾难性遗忘、任务干扰与适配不稳定等问题。因此,如何在保留预训练基础能力的同时,使模型对复杂多任务上下文形成更细粒度、更具针对性的响应机制,成为本章关注的核心问题。
\subsection{城市多任务时空建模中的模块级结构异质性}
\subsection{多任务适配中的模块级结构异质性}
\label{subsec:ch3_module_hetero}
从第~\ref{sec:unified_framework} 节所提出的统一分析框架出发,本文认为,大语言模型在适配时空任务时面临的关键困难之一,在于其内部不同功能模块并非同质、等价地参与任务建模,而是具有显著的\emph{结构角色异质性}。具体到 Transformer 架构不同子模块在表征生成过程中承担不同的功能角色自注意力模块侧重于建模输入上下文之间的依赖关系负责动态组织、选择与融合时序和语义线索前馈网络FFN则更多承担参数化知识存储与非线性映射功能形成模型的静态知识基础。
从第~\ref{sec:unified_framework} 节所提出的统一分析框架出发,本文认为,大语言模型在适配下游任务时面临的关键困难之一,在于其内部不同功能模块并非同质、等价地参与任务建模,而是具有显著的\emph{结构角色异质性}。具体到 Transformer 架构不同子模块在表征生成过程中承担不同的功能角色自注意力模块侧重于建模输入上下文之间的依赖关系负责动态组织、选择与融合时序和语义线索前馈网络FFN则更多承担参数化知识存储与非线性映射功能形成模型的静态知识基础。
对于城市时空任务而言,这种差异尤为重要。城市多任务场景中的输入通常包含地点、时间、实体关系、事件描述、用户意图与背景语义等复合信息。模型能否正确完成任务,很大程度上并不只取决于其是否记住”了某类知识,更取决于其能否在具体上下文中\emph{动态组织这些知识},并将注意力聚焦于与当前任务目标最相关的时空线索之上。换言之,问题的关键不完全是“增加任务知识”,而更在于“重新组织知识与上下文之间的匹配方式”。
对于复杂多任务场景而言,这种差异尤为重要。复杂多任务场景中的输入通常包含多种类型的实体关系、背景知识、推理链条、用户意图与上下文语义等复合信息。模型能否正确完成任务,很大程度上并不只取决于其是否记住”了某类知识,更取决于其能否在具体上下文中\emph{动态组织这些知识},并将注意力聚焦于与当前任务目标最相关的上下文线索之上。换言之,问题的关键不完全是“增加任务知识”,而更在于“重新组织知识与上下文之间的匹配方式”。
从这一视角出发,若采用均匀式适配策略,将所有模块都视为等价可调对象,则可能带来两类问题。第一,过度更新 FFN 等参数规模较大的知识承载模块,会改变预训练阶段已形成的通用知识分布,增加灾难性遗忘风险。第二,若缺乏对自注意力上下文组织机制的定向调节,则模型即便保留了知识,也可能无法在复杂多任务场景中正确选择与整合这些知识,从而表现为任务间干扰、泛化能力不足与适配效率下降。因此,从模块级结构异质性的角度出发,面向城市多任务时空建模的高效适配,更合理的路径应当是:在尽量保持预训练知识主体结构稳定的前提下,重点对上下文组织路径进行有针对性的调制。
从这一视角出发,若采用均匀式适配策略,将所有模块都视为等价可调对象,则可能带来两类问题。第一,过度更新 FFN 等参数规模较大的知识承载模块,会改变预训练阶段已形成的通用知识分布,增加灾难性遗忘风险。第二,若缺乏对自注意力上下文组织机制的定向调节,则模型即便保留了知识,也可能无法在复杂多任务场景中正确选择与整合这些知识,从而表现为任务间干扰、泛化能力不足与适配效率下降。因此,从模块级结构异质性的角度出发,面向多任务适配的高效适配,更合理的路径应当是:在尽量保持预训练知识主体结构稳定的前提下,重点对上下文组织路径进行有针对性的调制。
\subsection{从均匀适配到结构感知调制}
\label{subsec:ch3_uniform_to_aware}
现有全参数微调与多数参数高效微调方法,本质上大多采用某种形式的均匀适配思想,即默认模型内部所有参数或所有目标层具有相近的适配地位,仅通过统一的增量更新方式来完成任务迁移。然而,在城市多任务时空场景中,不同任务之间既存在共享的城市常识、空间语义与时序规律,又存在对特定上下文结构的差异化偏好。例如,城市问答任务可能更依赖局部实体关系的精细选择,城市事件解释任务更强调长程上下文整合,而交通语义分析类任务则更关注周期性模式与条件依赖。这些任务需求并不是通过统一的低秩增量便可充分表达的。
现有全参数微调与多数参数高效微调方法,本质上大多采用某种形式的均匀适配思想,即默认模型内部所有参数或所有目标层具有相近的适配地位,仅通过统一的增量更新方式来完成任务迁移。然而,在复杂多任务场景中,不同任务之间既存在共享的通用知识与语义规律,又存在对特定上下文结构的差异化偏好。例如,逻辑推理任务可能更依赖多步推理链的精细组织,代码生成任务更强调结构化依赖的长程追踪,而信息检索问答任务则更关注证据选择与上下文整合。这些任务需求并不是通过统一的低秩增量便可充分表达的。
基于此,本章延续第~\ref{sec:unified_framework} 节建立的统一建模视角,认为更合理的适配方式应当是引入\emph{结构感知的非均匀调制}:不再对模型内部所有部分施加同质更新,而是根据不同模块的结构角色,对更适合承担时空任务适配职责的表示流进行定向调控。在本章中,所关注的结构角色记为
基于此,本章延续第~\ref{sec:unified_framework} 节建立的统一建模视角,认为更合理的适配方式应当是引入\emph{结构感知的非均匀调制}:不再对模型内部所有部分施加同质更新,而是根据不同模块的结构角色,对更适合承担任务适配职责的表示流进行定向调控。在本章中,所关注的结构角色记为
\begin{equation}
\mathcal{R}_{mod},
\label{eq:ch3_module_role}
@@ -62,27 +62,27 @@
\Big),
\label{eq:ch3_unified_modulation}
\end{equation}
其中,$\mathbf{X}$ 表示输入时空样本或时空指令序列,$\mathbf{H}_{att}^{(\ell)}$ 表示第 $\ell$ 层自注意力模块的输出表示,$\mathcal{M}_{\theta}^{mod}$ 表示面向模块角色异质性的结构感知调制算子,而 $\tilde{\mathbf{H}}_{att}^{(\ell)}$ 则是调制后的上下文表示。该公式表明,本章方法并不直接重写整个模型的参数空间,而是在保留骨干模型 $\Theta_0$ 主体稳定的前提下,对承担上下文组织功能的注意力表示流进行输入条件化调制。
其中,$\mathbf{X}$ 表示输入样本或指令序列,$\mathbf{H}_{att}^{(\ell)}$ 表示第 $\ell$ 层自注意力模块的输出表示,$\mathcal{M}_{\theta}^{mod}$ 表示面向模块角色异质性的结构感知调制算子,而 $\tilde{\mathbf{H}}_{att}^{(\ell)}$ 则是调制后的上下文表示。该公式表明,本章方法并不直接重写整个模型的参数空间,而是在保留骨干模型 $\Theta_0$ 主体稳定的前提下,对承担上下文组织功能的注意力表示流进行输入条件化调制。
在具体实现上,本章将这种模块级调制设计为一种乘性残差调制机制,即通过上下文驱动的调制信号,对自注意力输出表示中的关键维度进行增强或抑制,从而改变信息流在后续层中的传播方式。其核心思想是:若预训练模型已经具备较强的通用知识,则多任务适配的关键不一定是重写知识本身,而更在于改变\emph{知识被调用、组织与融合的方式}。这一思想构成了本章所提出方法 HyCAM 的理论出发点。
\subsection{本章研究目标与技术路线}
\label{subsec:ch3_goal}
基于上述分析,本章聚焦于城市多任务时空建模中的模块级异质性问题,主要关注以下三个方面:
基于上述分析,本章聚焦于多任务适配中的模块级异质性问题,主要关注以下三个方面:
第一,在大语言模型适配城市多任务场景时,是否可以通过优先调制自注意力表示流而非大规模修改骨干参数,获得更优的知识保持与任务适配平衡?
第一,在大语言模型适配多任务场景时,是否可以通过优先调制自注意力表示流而非大规模修改骨干参数,获得更优的知识保持与任务适配平衡?
第二,在多任务建模中,如何同时兼顾跨任务共享知识与任务特有模式,使模型能够在统一框架中实现共享与专用能力的协同?
第三,在面向多种城市任务的联合建模过程中,如何通过动态路由机制使不同适配分支获得更合理的使用,从而缓解任务冲突与专家塌缩问题?
第三,在面向多种异质任务的联合建模过程中,如何通过动态路由机制使不同适配分支获得更合理的使用,从而缓解任务冲突与专家塌缩问题?
围绕这些问题,本章提出一种模块角色感知的多任务时空表征学习方法,其总体技术路线如图~\ref{fig:ch3_framework} 所示(图为占位,后续可根据论文总图风格统一重绘)。该方法首先构造上下文注意力调制机制Contextual Attention Modulation, CAM对每层自注意力输出进行输入条件化调制随后在此基础上进一步提出混合式上下文注意力调制框架Hybrid Contextual Attention Modulation, HyCAM通过“共享 CAM + 专用 CAM + 动态路由”的结构实现多任务协同建模。整体上,本章的方法可统一理解为一种\emph{模块角色感知的表示流调制方法},它为后续第四章从维度级进一步研究位置结构与表示各向异性问题提供了基础。
围绕这些问题,本章提出一种基于模块功能角色感知的多任务表征适配方法,其总体技术路线如图~\ref{fig:ch3_framework} 所示。该方法首先构造上下文注意力调制机制Contextual Attention Modulation, CAM对每层自注意力输出进行输入条件化调制随后在此基础上进一步提出混合式上下文注意力调制框架Hybrid Contextual Attention Modulation, HyCAM通过“共享 CAM + 专用 CAM + 动态路由”的结构实现多任务协同建模。整体上,本章的方法可统一理解为一种\emph{模块角色感知的表示流调制方法},它为后续第四章从维度级进一步研究位置结构与表示各向异性问题提供了基础。
\begin{figure}[htp]
\centering
\includegraphics[width=0.82\linewidth]{assets/3_model.pdf}
\caption{模块角色感知的多任务时空表征学习总体框架示意图。}
\caption{基于模块功能角色感知的多任务表征适配总体框架示意图。}
\label{fig:ch3_framework}
\end{figure}
@@ -92,7 +92,7 @@
\subsection{问题形式化}
\label{subsec:ch3_formulation}
城市多任务时空建模场景下,设训练数据集为
在多任务适配场景下,设训练数据集为
\begin{equation}
\mathcal{D}
=
@@ -101,7 +101,7 @@
\right\}_{i=1}^{N},
\label{eq:ch3_dataset}
\end{equation}
其中,$\mathbf{X}_i$ 表示第 $i$ 个输入样本,可由地点序列、事件描述、时间提示、空间关系文本、指令模板及其他结构化时空上下文组成;$\mathbf{Y}_i$ 表示对应的目标输出;$\tau_i \in \mathcal{T}$ 表示该样本所属的任务类型,$\mathcal{T}$ 为任务集合。对于城市多任务场景,$\mathcal{T}$ 可对应于城市问答、时空推理、地点语义生成、事件解释、辅助决策等不同子任务。骨干大语言模型的预训练参数记为 $\Theta_0$,本章的适配参数记为 $\Theta_a$,则最终模型可统一写为
其中,$\mathbf{X}_i$ 表示第 $i$ 个输入样本,可由自然语言指令、问题描述、上下文信息、结构化输入及其他任务相关上下文组成;$\mathbf{Y}_i$ 表示对应的目标输出;$\tau_i \in \mathcal{T}$ 表示该样本所属的任务类型,$\mathcal{T}$ 为任务集合。$\mathcal{T}$ 可对应于逻辑推理、专业领域问答、代码生成、信息检索、通用指令跟随等不同子任务。骨干大语言模型的预训练参数记为 $\Theta_0$,本章的适配参数记为 $\Theta_a$,则最终模型可统一写为
\begin{equation}
\Theta = \Theta_0 + \Delta \Theta(\Theta_a),
\label{eq:ch3_theta_decompose}
@@ -148,7 +148,7 @@
之所以选择自注意力模块作为核心调制对象,原因在于其在预训练语言模型中承担着比 FFN 更直接的上下文组织职责。FFN 虽然在参数规模上占据主导地位并承载预训练知识,但其作用更接近于位置独立的非线性变换。相比之下,自注意力模块通过 Query、Key、Value 之间的交互显式建模不同 token 间的依赖关系,是输入上下文信息聚合与任务相关证据选择的关键场所。
城市时空任务中,这一点尤为关键。例如,当输入涉及“某时间段内某区域附近设施与事件的关系”时,模型需要从多个地点、实体、时间表达中选择与任务最相关的线索,并依据任务意图动态调整不同上下文成分的重要性。若仍沿用均匀式参数更新,则模型往往只能通过低效的全局增量来“间接”修正上下文组织方式;而若直接在注意力输出处引入调制,则能够更直接地改变上下文信息的流向与组合方式。因此,从结构角色层面看,自注意力模块是实现任务专门化与知识保持平衡的更优切入点,提供了更直接、可控的上下文组织调节点。
复杂多任务场景中,这一点尤为关键。例如,当输入涉及需要从多种知识来源中选择关键线索的复杂推理问题时,模型需要从多个实体、概念、上下文片段中选择与任务最相关的线索,并依据任务意图动态调整不同上下文成分的重要性。若仍沿用均匀式参数更新,则模型往往只能通过低效的全局增量来“间接”修正上下文组织方式;而若直接在注意力输出处引入调制,则能够更直接地改变上下文信息的流向与组合方式。因此,从结构角色层面看,自注意力模块是实现任务专门化与知识保持平衡的更优切入点,提供了更直接、可控的上下文组织调节点。
从表示学习角度进一步理解,$\mathbf{H}_{att}^{(\ell)}$ 并不是静态知识本体,而是\emph{在当前上下文条件下对知识进行组织后的中间结果}。因此,对 $\mathbf{H}_{att}^{(\ell)}$ 施加适度、输入驱动的调制,本质上是在改变模型对已有知识的调用模式,而非粗暴覆盖预训练知识本身。这一差异使得本章方法天然更适合用于多任务场景:不同任务可以通过不同调制模式,选择性地突出最有用的上下文特征,而共享的预训练知识底座则得以较好保留。
@@ -246,7 +246,7 @@
\end{equation}
这意味着 CAM 在训练初期近似保持恒等映射,不会改变预训练模型的原始行为,并在训练过程中逐步学习对表示流的有效调制,从而兼顾训练稳定性与知识保持能力。
城市多任务场景中,这一设计尤为重要。由于不同任务共享同一预训练骨干模型,若某一任务在训练早期对模型施加过强更新,往往会对其他任务可用的通用知识造成损害。零初始化策略在一定程度上抑制了这种早期干扰,使不同任务的影响更多体现在对上下文组织方式的渐进式修正上,而非对模型知识底座的立即重写。
在多任务场景中,这一设计尤为重要。由于不同任务共享同一预训练骨干模型,若某一任务在训练早期对模型施加过强更新,往往会对其他任务可用的通用知识造成损害。零初始化策略在一定程度上抑制了这种早期干扰,使不同任务的影响更多体现在对上下文组织方式的渐进式修正上,而非对模型知识底座的立即重写。
\subsection{共享与专用调制的协同设计}
\label{subsec:ch3_cam_to_hycam}
@@ -258,7 +258,7 @@ HyCAM 的本质仍然遵循式~\eqref{eq:ch3_mod_residual} 的统一母式,只
\subsection{共享调制模块}
\label{subsec:ch3_shared_cam}
共享 CAM 模块用于建模跨任务共享的上下文调制模式,例如一般性的实体对齐模式、语义匹配结构、时间条件约束的基础表达以及城市语义理解中常见的共性线索。设第 $\ell$ 层共享 CAM 的投影矩阵为
共享 CAM 模块用于建模跨任务共享的上下文调制模式,例如一般性的实体对齐模式、语义匹配结构与通用上下文组织规律。设第 $\ell$ 层共享 CAM 的投影矩阵为
\begin{equation}
\mathbf{W}_{sh}^{(\ell)} \in \mathbb{R}^{d \times d},
\label{eq:ch3_shared_proj}
@@ -279,7 +279,7 @@ HyCAM 的本质仍然遵循式~\eqref{eq:ch3_mod_residual} 的统一母式,只
\subsection{专用调制模块}
\label{subsec:ch3_spec_cam}
与共享 CAM 相对,专用 CAM 模块旨在建模任务差异性更强的上下文调制模式。例如,不同城市任务可能对上下文依赖范围、关键线索类型与局部模式选择具有不同偏好:时空问答更注重实体关系和条件约束,城市事件生成更强调长程语义结构,代码或规则生成类任务则对符号化依赖更为敏感。因此,引入 $N_s$ 个专用调制模块以刻画不同潜在模式。
与共享 CAM 相对,专用 CAM 模块旨在建模任务差异性更强的上下文调制模式。例如,不同任务可能对上下文依赖范围、关键线索类型与局部模式选择具有不同偏好:推理任务更注重多步逻辑链的组织,专业问答更强调领域知识的精确检索,代码生成类任务则对符号化依赖更为敏感。因此,引入 $N_s$ 个专用调制模块以刻画不同潜在模式。
设专用 CAM 模块的个数为 $N_s$,第 $k$ 个专用模块在第 $\ell$ 层的调制信号定义为
\begin{equation}
@@ -328,7 +328,7 @@ k = 1,\dots,N_s.
在 HyCAM 中,共享 CAM 提供跨任务的公共调制基础,而多个专用 CAM 则提供潜在的任务特化能力。然而,仅有多个专用分支并不足以自动形成有效的多任务协同。其根本原因在于:不同输入样本所对应的任务结构、上下文模式和难点位置并不相同,因此各专用分支对不同样本的重要性也必然不同。若简单地平均融合所有专用 CAM则模型难以形成明确的功能分工若为每个任务静态绑定固定专家又会削弱对任务内部异质性与输入级细粒度差异的适应能力。
城市多任务时空场景尤其需要动态路由。即便同属于“城市问答”任务,不同样本也可能分别强调空间邻近关系、时间顺序关系、设施属性关系或常识推断关系。静态分配无法充分表达这种输入级差异。因此HyCAM 引入基于输入上下文的软路由机制,对专用 CAM 的贡献进行逐 token 或逐样本的动态加权,从而实现更细粒度的知识调用。
复杂多任务场景尤其需要动态路由。即便同属于某一特定任务类型,不同样本也可能分别强调逻辑推理关系、实体属性关系、因果关联或常识推断关系。静态分配无法充分表达这种输入级差异。因此HyCAM 引入基于输入上下文的软路由机制,对专用 CAM 的贡献进行逐 token 或逐样本的动态加权,从而实现更细粒度的知识调用。
\subsection{基于输入上下文的路由权重生成}
\label{subsec:ch3_router_weight}
@@ -419,7 +419,7 @@ p_{b,k},
\label{eq:ch3_balance}
\end{equation}
该损失鼓励不同专用模块都能够在训练中获得一定程度的激活,从而避免少数模块垄断路由结果。对于城市多任务时空建模,这一约束具有重要意义:由于不同任务及其内部子模式具有复杂异质性,若专用模块过早塌缩为少量活跃分支,则模型将难以真正学习到多样化的调制行为,进而削弱 HyCAM 在多任务场景下的特化能力。
该损失鼓励不同专用模块都能够在训练中获得一定程度的激活,从而避免少数模块垄断路由结果。对于复杂多任务建模,这一约束具有重要意义:由于不同任务及其内部子模式具有复杂异质性,若专用模块过早塌缩为少量活跃分支,则模型将难以真正学习到多样化的调制行为,进而削弱 HyCAM 在多任务场景下的特化能力。
\subsection{训练目标}
\label{subsec:ch3_training_obj}
@@ -452,7 +452,7 @@ y_{i,t}
\end{equation}
其中 $\lambda_{balance}$ 为平衡系数。
式~\eqref{eq:ch3_total_loss} 表明,本章方法优化的并不仅仅是任务性能本身,还包括多专用模块的合理协同使用。前者保证模型能够有效适配城市多任务目标,后者保证模型能够形成更稳定、更多样化的专门化上下文调制结构。二者共同构成 HyCAM 的训练基础。
式~\eqref{eq:ch3_total_loss} 表明,本章方法优化的并不仅仅是任务性能本身,还包括多专用模块的合理协同使用。前者保证模型能够有效适配多任务目标,后者保证模型能够形成更稳定、更多样化的专门化上下文调制结构。二者共同构成 HyCAM 的训练基础。
算法~\ref{alg:ch3_hycam} 给出了 HyCAM 的完整训练流程。
@@ -491,7 +491,7 @@ y_{i,t}
\subsection{实验设置}
\label{subsec:ch3_exp_setup}
为验证本章提出的模块角色感知多任务时空表征学习方法的有效性,本节围绕以下几个研究问题展开实验分析:
为验证本章提出的基于模块功能角色感知多任务表征适配方法的有效性,本节围绕以下几个研究问题展开实验分析:
\begin{enumerate}
\item HyCAM 相比全参数微调和现有参数高效微调方法,是否能够在多任务联合适配中取得更好的整体性能?
@@ -501,11 +501,11 @@ y_{i,t}
\item HyCAM 对注意力表示空间与训练过程带来了怎样的可解释变化?
\end{enumerate}
需要说明的是,由于 HyCAM 原始论文发表于通用多任务学习场景,其公开实验主要基于逻辑推理、医疗问答、通用指令跟随、代码生成与信息检索问答等任务构建的综合基准。因此,本节首先将这些实验作为\emph{通用多任务有效性验证},用于说明模块角色感知调制在复杂多任务场景中的一般性作用。与此同时,考虑到本文整体主题为时空表征学习,本节最后补充面向城市多任务时空任务的小规模验证实验,以增强章节与全文主线的一致性。
需要说明的是,由于 HyCAM 原始论文发表于通用多任务学习场景,其公开实验主要基于逻辑推理、医疗问答、通用指令跟随、代码生成与信息检索问答等任务构建的综合基准。因此,本节将这些实验作为\emph{通用多任务有效性验证},用于说明模块角色感知调制在复杂多任务场景中的一般性作用。
\subsubsection{数据集}
原始实验构建了一个五任务综合基准涵盖逻辑推理Auto CoT、医疗问答iCliniq、通用指令跟随Dolly 2.0、代码生成CodeAlpaca和信息检索问答WebGPT等任务。尽管这些任务并非时空任务本身,但它们在任务形式、输出长度、知识需求与推理模式上具有较强异质性,能够较好模拟城市多任务场景中“多目标并存、共享知识与任务特化并存”的一般挑战。因此,本文将其视为验证 HyCAM 模块级调制能力的通用多任务基准。
原始实验构建了一个五任务综合基准涵盖逻辑推理Auto CoT、医疗问答iCliniq、通用指令跟随Dolly 2.0、代码生成CodeAlpaca和信息检索问答WebGPT等任务。这些任务在任务形式、输出长度、知识需求与推理模式上具有较强异质性具有”多目标并存、共享知识与任务特化并存”的典型多任务挑战。因此,本文将其视为验证 HyCAM 模块级调制能力的通用多任务基准。
具体数据统计可整理如表~\ref{tab:ch3_dataset_stat} 所示。训练、验证与测试采用 $7:2:1$ 划分,并进行五折交叉验证以增强结果稳定性。实验骨干模型覆盖多个主流开源大语言模型系列,包括 Llama、Mistral 与 Qwen 家族,从而考察方法的跨模型泛化性。
@@ -632,7 +632,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
这一结果可从三个层面理解。第一相较于全参数微调HyCAM 在仅引入少量适配参数的前提下取得了更优或相当的性能,表明其并不依赖对整个模型进行重写,而是通过更有效的上下文调制获得收益。第二,相较于 LoRAHyCAM 的优势说明单纯依赖低秩参数增量并不足以充分应对复杂多任务场景中的结构差异,而围绕自注意力表示流构造输入条件化调制可以更直接地提升任务适配能力。第三,相较于 Multi-LoRA 与 RieMoE-LoRAHyCAM 的优势说明“共享 + 专用 + 动态路由”的混合设计比单纯并行适配或一般专家融合更适合多任务协同建模。
对于本文的城市多任务时空建模主题而言,这一结论具有直接启发意义:面对多种城市任务同时建模时,模型的关键改进方向未必是持续扩大参数更新规模,而更可能是增强其对时空上下文进行任务感知组织的能力。本章实验虽然基于通用多任务集合,但其所验证的正是这种\emph{模块级结构调制}的普适有效性。
对于本文的多任务适配主题而言,这一结论具有直接启发意义:面对多种异质任务同时建模时,模型的关键改进方向未必是持续扩大参数更新规模,而更可能是增强其对上下文进行任务感知组织的能力。本章实验虽然基于通用多任务集合,但其所验证的正是这种\emph{模块级结构调制}的普适有效性。
\begin{table}[ht]
@@ -720,7 +720,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
在 Llama3.2 小规模系列中,值得注意的是全参数微调在 1B 模型上仍然是最强方法。这与小模型的知识容量有限、需要更大幅度的参数更新来适配新任务的特点有关。然而即使在这一不利条件下HyCAM 仍然取得了接近全参数微调的性能PPL 4.227 vs 4.221),且显著优于所有其他 PEFT 基线。随着模型规模增加至 3BHyCAM 即超越全参数微调PPL 3.778 vs 3.747 稍有差距,但 BLEU 0.167 vs 0.159 显著领先)。这进一步支持了本章的核心假设:当模型具有足够的预训练知识储备时,结构感知的调制式适配比全面重写参数的方式更为有效。
对于城市时空任务而言,这意味着随着未来更大规模城市基础模型的出现,类似 HyCAM 的模块级结构感知适配方式仍具有较强适用前景。
对于复杂多任务场景而言,这意味着随着未来更大规模基础模型的出现,类似 HyCAM 的模块级结构感知适配方式仍具有较强适用前景。
\subsubsection{跨任务性能分析}
@@ -774,11 +774,11 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
}
\end{table}
需要指出的是,不同任务之间的性能水平本身存在显著差异。例如,医疗问答和部分开放式指令任务通常具有更高输出不确定性,因此其绝对指标可能整体较低。这一现象在城市多任务时空建模中同样会存在:例如,封闭式地点属性问答与开放式城市事件解释的难度本就不可简单等同。因此更重要的不是要求所有任务在同一数值尺度上接近而是观察方法能否在面对异质目标时保持相对稳定、均衡的适配能力。从这一意义上看HyCAM 的结果具有较好的说服力。
需要指出的是,不同任务之间的性能水平本身存在显著差异。例如,医疗问答和部分开放式指令任务通常具有更高输出不确定性,因此其绝对指标可能整体较低。这一现象在多任务建模中普遍存在:例如,封闭式事实判断与开放式推理解释的难度本就不可简单等同。因此更重要的不是要求所有任务在同一数值尺度上接近而是观察方法能否在面对异质目标时保持相对稳定、均衡的适配能力。从这一意义上看HyCAM 的结果具有较好的说服力。
具体到各任务的表现,可以从以下几个角度进行分析。在 Auto CoT 推理任务中HyCAM 取得了最低的 PPL1.777)和最高的 BLEU0.283),这说明其调制机制对涉及多步推理的上下文组织尤其有效,能够在推理链的各步之间维持更一致的表示流。在 CodeAlpaca 代码生成任务中HyCAM 同样取得了显著优势BLEU 0.163 vs 基线最优 0.146),表明注意力调制有助于模型在需要长距离结构对齐(如代码块嵌套、函数调用关系)的任务中保持更精确的上下文追踪。在 WebGPT 信息检索问答任务中HyCAM 在 PPL 上取得最优1.845),说明其在需要从大量检索信息中选择关键证据并整合为连贯回答的场景中表现突出。
相对而言,在 iCliniq 医疗问答任务中全参数微调仍表现最佳PPL 7.497),而 HyCAM 虽然次优但差距不大。这可能是因为医疗领域的专业术语和知识模式与预训练数据分布差异较大,需要更多的参数容量来学习领域特有知识。这一观察对于城市时空任务同样具有参考价值:对于需要大量领域专属知识注入的任务(如专业交通规则推理),可能需要在 HyCAM 框架内进一步增强知识学习容量。
相对而言,在 iCliniq 医疗问答任务中全参数微调仍表现最佳PPL 7.497),而 HyCAM 虽然次优但差距不大。这可能是因为医疗领域的专业术语和知识模式与预训练数据分布差异较大,需要更多的参数容量来学习领域特有知识。这一观察具有一般性参考价值:对于需要大量领域专属知识注入的任务,可能需要在 HyCAM 框架内进一步增强知识学习容量。
\subsection{消融实验与深入分析}
\label{subsec:ch3_ablation}
@@ -817,9 +817,9 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
从表~\ref{tab:ch3_ablation} 可以看出,完整 HyCAM 取得了最优表现,这说明共享与专用分支之间确实具有互补性。仅使用共享 CAM 时,模型虽能学习跨任务共性调制,但缺乏足够的任务特化能力;仅使用专用 CAM 时,则由于缺乏统一共享底座,容易导致跨任务知识无法有效复用,反而降低整体性能。将所有专用模块都替换为全参数结构虽然也能取得较好结果,但会显著增加参数成本,与本章追求高效适配的目标不符。反向分配参数预算同样说明:让共享分支保持较强表达能力、让专用分支采用轻量结构,是当前框架下更合理的设计。
这一结论对于城市多任务时空建模同样具有启发性。城市任务之间通常既共享通用语义和城市常识,又存在具体任务差异,因此更适合采用”强共享底座 + 轻量专用分支”的结构,而非纯共享或纯专用策略。
这一结论对于多任务适配同样具有启发性。不同任务之间通常既共享通用语义和识,又存在具体任务差异,因此更适合采用”强共享底座 + 轻量专用分支”的结构,而非纯共享或纯专用策略。
进一步地,对比 Shared-CAM-OnlyPPL 3.129)与 LoRAPPL 3.222)可以发现,即使不引入多分支结构,仅在注意力输出表示流上进行单分支 CAM 调制也已经优于标准的低秩参数增量方法。这从实验层面印证了本章的核心假设在多任务适配中对上下文组织路径的定向调制比对所有权重的均匀低秩更新更为有效。HyCAM 在此基础上通过引入多分支混合结构进一步获得提升PPL 3.129 $\to$ 3.081),证了混合设计的附加价值。
进一步地,对比 Shared-CAM-OnlyPPL 3.129)与 LoRAPPL 3.222)可以发现,即使不引入多分支结构,仅在注意力输出表示流上进行单分支 CAM 调制也已经优于标准的低秩参数增量方法。这从实验层面印证了本章的核心假设在多任务适配中对上下文组织路径的定向调制比对所有权重的均匀低秩更新更为有效。HyCAM 在此基础上通过引入多分支混合结构进一步获得提升PPL 3.129 $\to$ 3.081证了混合设计的附加价值。
\subsubsection{超参数敏感性分析}
@@ -840,6 +840,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
为了全面评估 HyCAM 在参数效率方面的优势,本节对各方法的可训练参数量进行了系统比较。以 Llama2-7B 为例,各方法的参数量统计如表~\ref{tab:ch3_param_count} 所示。
% TODO: 此表中的参数量数值如HyCAM 236.1M等)需要根据实际实现代码进行核实,原论文中未包含此表。
\begin{table}[htp]
\centering
\caption{不同适配方法在 Llama2-7B 上的可训练参数量对比。}
@@ -907,7 +908,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
具体而言从训练损失曲线可以观察到HyCAM 在训练初期即表现出较快的下降速度且在整个训练过程中损失曲线更为平稳波动较小。这一现象可以从两个方面理解。一方面HyCAM 的零初始化策略保证了训练起点与预训练模型行为一致,避免了随机初始化可能带来的初始震荡。另一方面,由于 HyCAM 仅对注意力表示流进行调制其有效适配参数空间相比全参数更新或作用于所有层的低秩更新更加紧凑和聚焦使得优化过程能够更高效地找到有效的适配方向。相比之下Multi-LoRA 和 RieMoE-LoRA 的训练曲线表现出更多的波动,这可能与其多分支结构在训练早期尚未充分分化、各分支之间存在竞争有关。
需要指出的是,当前这些可视化结果主要来自通用多任务实验。若进一步面向城市时空任务开展补充实验,则可在后续工作中考察如下现象:不同城市任务下路由权重是否呈现稳定分工、空间关系类问题是否更依赖某类专用 CAM、事件解释类问题是否倾向激活更强长程上下文调制等。这些问题有助于将本章的方法分析进一步与城市时空结构建立直接联系。
需要指出的是,当前这些可视化结果主要来自通用多任务实验。在后续工作中,可进一步考察如下现象:不同类型任务下路由权重是否呈现稳定分工、不同推理模式的问题是否更依赖某类专用 CAM、需要长程上下文整合的问题是否倾向激活更强调制等。这些问题有助于将本章的方法分析进一步与具体任务结构建立直接联系。
% \subsubsection{计算复杂度分析}
@@ -921,100 +922,13 @@ HyCAM 的核心优势在于其对自注意力表示流的定向调制设计,
然而HyCAM 的调制粒度仍然停留在注意力输出的整体表示层面。具体而言HyCAM 对 $\mathbf{H}_{att}^{(\ell)}$ 的每个元素施加独立调制,但并未显式区分不同维度在位置编码结构中的功能差异。例如,在采用 RoPE 位置编码的模型中不同维度对承担不同频率的旋转分别编码了不同尺度的位置信息。这种维度间的结构性差异在本章方法中尚未被感知与利用。此外HyCAM 目前主要关注注意力模块的输出调制,对于 FFN 层内部可能存在的结构化适配机会也未加探索。这些方向构成了后续章节进一步深化的出发点。
% \subsection{面向城市多任务时空场景的补充验证}
% \label{subsec:ch3_st_validation}
% 前述实验已在通用多任务基准上验证了 HyCAM 模块角色感知调制的有效性。为进一步考察该方法在城市多任务时空场景中的实际表现,本节设计了一组面向城市时空任务的补充验证实验。
% \subsubsection{任务设置}
% \label{subsubsec:ch3_st_tasks}
% 基于第六章所构建的评测基础设施,本节从城市多任务时空建模的典型需求出发,构造了包含以下三类子任务的联合训练集:
% \begin{itemize}
% \item \textbf{城市 POI 问答}:给定包含地点、时间、空间关系等结构化信息的问题,要求模型生成准确的地点属性回答或推荐结果。该任务主要考察模型对空间实体语义与上下文关系的理解能力。
% \item \textbf{区域功能识别}:给定某区域内的 POI 分布、出行模式或活动特征描述,要求模型判别该区域的主要功能类型(如商业区、居住区、交通枢纽等)。该任务侧重于空间语义聚合与分类推理。
% \item \textbf{城市事件解释}:给定城市运行过程中的异常事件描述(如交通拥堵、客流激增等),要求模型生成合理的成因分析与影响范围评估。该任务要求模型具备长程上下文整合与多因素推理能力。
% \end{itemize}
% 三类任务在输出形式、依赖的上下文类型以及推理模式上具有显著差异,能够有效考察 HyCAM 在城市异质任务间的协同适配能力。
% \subsubsection{数据构造与实验设置}
% \label{subsubsec:ch3_st_data}
% % TODO: 补充具体数据构造方式与统计信息
% 城市 POI 问答数据基于 POI-QA 数据集的子集进行构造,区域功能识别数据基于公开城市功能区数据集进行文本化处理,城市事件解释数据基于交通事件报告进行结构化采样。各任务数据统计如表~\ref{tab:ch3_st_dataset} 所示。
% \begin{table}[htp]
% \centering
% \caption{城市多任务时空验证数据统计。}
% \label{tab:ch3_st_dataset}
% \resizebox{0.78\linewidth}{!}{
% \begin{tabular}{lccc}
% \toprule
% 任务 & 训练样本数 & 测试样本数 & 平均输出长度 \\
% \midrule
% 城市 POI 问答 & -- & -- & -- \\
% 区域功能识别 & -- & -- & -- \\
% 城市事件解释 & -- & -- & -- \\
% \bottomrule
% \end{tabular}
% }
% \end{table}
% 骨干模型采用 Qwen2.5-7B实验超参数与通用基准实验保持一致。基线方法同样包括 Full Fine-Tuning、LoRA、Multi-LoRA 与 RieMoE-LoRA。
% \subsubsection{实验结果}
% \label{subsubsec:ch3_st_results}
% % TODO: 补充实验结果数值
% \begin{table}[htp]
% \centering
% \caption{城市多任务时空场景下各方法的性能对比。}
% \label{tab:ch3_st_results}
% \resizebox{0.88\linewidth}{!}{
% \begin{tabular}{l|cc|cc|cc|cc}
% \toprule
% & \multicolumn{2}{c|}{POI 问答} & \multicolumn{2}{c|}{功能识别} & \multicolumn{2}{c|}{事件解释} & \multicolumn{2}{c}{总体平均} \\
% \midrule
% 方法 & PPL$\downarrow$ & ROUGE$\uparrow$ & PPL$\downarrow$ & Acc.$\uparrow$ & PPL$\downarrow$ & ROUGE$\uparrow$ & PPL$\downarrow$ & Avg.$\uparrow$ \\
% \midrule
% Full Finetune & -- & -- & -- & -- & -- & -- & -- & -- \\
% LoRA & -- & -- & -- & -- & -- & -- & -- & -- \\
% Multi LoRA & -- & -- & -- & -- & -- & -- & -- & -- \\
% RieMoE-LoRA & -- & -- & -- & -- & -- & -- & -- & -- \\
% HyCAM & -- & -- & -- & -- & -- & -- & -- & -- \\
% \bottomrule
% \end{tabular}
% }
% \end{table}
% TODO: 补充结果分析段落。预期分析方向包括:
% (1) HyCAM 在时空多任务场景中是否仍然保持通用基准中观察到的优势;
% (2) 不同城市任务之间的性能差异是否与第二节分析的模块角色假设一致;
% (3) 共享 CAM 是否有效捕获了城市通用语义,专用 CAM 是否在不同任务间形成分化。
% \subsubsection{路由行为分析}
% \label{subsubsec:ch3_st_routing}
% % TODO: 补充路由权重可视化分析。预期内容包括:
% % (1) 不同城市任务下各专用 CAM 的平均路由权重分布;
% % (2) 空间关系类问题 vs 时间推理类问题的路由偏好差异;
% % (3) 与通用基准实验中路由行为的对比分析。
% 为进一步理解 HyCAM 在城市时空任务中的内部行为,本节对不同任务样本下的路由权重分布进行了可视化分析。
% % TODO: 补充路由权重可视化图
% 初步分析表明,不同类型的城市任务倾向于激活不同的专用 CAM 组合。例如POI 问答任务中涉及空间关系推理的样本更倾向于集中激活特定的专用模块,而城市事件解释任务中需要整合多种上下文信息的样本则倾向于更均匀地融合多个专用模块。这一观察与本章从模块角色感知出发的设计思想一致:不同任务对上下文组织方式的需求差异,可以通过动态路由机制自然地映射为不同的专用模块使用模式。
\section{本章小结}
\label{sec:ch3_summary}
本章围绕城市多任务时空建模中的模块级结构异质性问题,提出了一种模块角色感知的多任务时空表征学习方法。本章的主要工作与贡献可概括为以下四个方面。
本章围绕多任务适配中的模块级结构异质性问题,提出了一种基于模块功能角色感知的多任务表征适配方法。本章的主要工作与贡献可概括为以下四个方面。
第一,本章从模块级结构角色差异出发,系统分析了 Transformer 架构中自注意力模块与前馈网络模块在时空任务适配中的不同功能定位,指出面向自注意力表示流的定向调制是兼顾知识保持与任务特化的更优路径,并在第一章统一分析框架下给出了模块级调制算子的形式化定义。
第一,本章从模块级结构角色差异出发,系统分析了 Transformer 架构中自注意力模块与前馈网络模块在任务适配中的不同功能定位,指出面向自注意力表示流的定向调制是兼顾知识保持与任务特化的更优路径,并在第一章统一分析框架下给出了模块级调制算子的形式化定义。
第二,本章提出了上下文注意力调制机制 CAM通过对自注意力输出表示流施加输入条件化的逐元素调制实现对预训练知识调用方式的精细修正。CAM 的设计以零初始化保证训练稳定性,以乘性残差结构保证与预训练行为的平滑过渡,为后续多任务扩展提供了机制基础。
@@ -1022,4 +936,4 @@ HyCAM 的核心优势在于其对自注意力表示流的定向调制设计,
第四,本章在涵盖五类异质任务的通用多任务基准上进行了系统验证,实验覆盖 Llama、Mistral 与 Qwen 三大模型家族及从 0.5B 到 14B 的多个规模区间。结果表明HyCAM 在整体性能、跨任务均衡性、参数效率与训练稳定性等方面均表现出稳定优势。消融实验与可视化分析进一步验证了各组件设计的合理性。
从全文的统一研究主线来看,本章主要解决的是统一分析框架中的\emph{模块级结构异质性}问题,即关注不同功能模块在表示流组织中的角色差异,并给出了相应的适配机制。然而,本章的方法仍然主要作用于注意力输出整体表示流,尚未进一步刻画注意力表示内部不同维度、不同位置编码成分之间可能存在的细粒度角色差异。特别是在城市时空任务中,空间相对位置、时间周期结构以及不同表示维度承担的结构建模功能,往往呈现出显著的非均匀性与各向异性。因此,下一章将在本章工作的基础上,进一步转向\emph{维度级结构异质性},研究位置结构驱动的各向异性时空表征学习方法,从更细粒度的表示几何层面对大模型时空适配机制进行深化。
从全文的统一研究主线来看,本章主要解决的是统一分析框架中的\emph{模块级结构异质性}问题,即关注不同功能模块在表示流组织中的角色差异,并给出了相应的适配机制。然而,本章的方法仍然主要作用于注意力输出整体表示流,尚未进一步刻画注意力表示内部不同维度、不同位置编码成分之间可能存在的细粒度角色差异。在采用 RoPE 位置编码的模型中,不同维度承担不同频率的旋转,分别编码了不同尺度的位置信息,这种维度间的结构性差异在本章方法中尚未被感知与利用。因此,下一章将在本章工作的基础上,进一步转向\emph{维度级结构异质性},研究位置结构感知的选择性表征适配方法,从更细粒度的表示维度层面对适配机制进行深化。