2857 lines
238 KiB
TeX
2857 lines
238 KiB
TeX
原标题:时空数据的表征学习建模方法研究
|
||
% 第一章 绪论
|
||
\chapter{绪论}
|
||
\label{chap:introduction}
|
||
|
||
\section{研究背景与意义}
|
||
\label{sec:background}
|
||
|
||
\subsection{城市时空智能建模的发展背景与关键挑战}
|
||
\label{subsec:background_challenges}
|
||
\subsubsection{城市复杂系统演化与时空数据驱动需求}
|
||
|
||
随着全球城镇化进程的持续推进,城市正在由以静态基础设施为核心的空间载体,逐步演化为由人口活动、交通运行、产业组织、资源配置与公共服务等多类过程共同耦合的复杂动态系统\cite{}。在这一系统中,不同要素之间存在持续的相互作用与反馈关系:人口流动影响交通负载与服务需求,土地利用与功能布局塑造出行模式与商业活力,公共事件与环境变化又进一步改变城市运行状态。由此,城市运行呈现出显著的动态性、开放性与多主体协同特征,其演化过程难以通过单一规则或局部观测加以充分刻画。
|
||
|
||
\begin{figure}[!h]
|
||
\centering
|
||
\caption{占位图片}
|
||
\end{figure}
|
||
|
||
|
||
与此同时,移动互联网、物联网、车联网、卫星遥感以及城市感知基础设施的快速发展,使得城市运行过程能够以更加连续、细粒度与多模态的方式被记录与表征。交通传感器、移动终端定位数据、轨迹数据、遥感影像、兴趣点信息以及环境监测数据等,持续刻画城市中人、车、路、地及各类服务设施的时空活动状态\cite{}。这些数据在空间上覆盖从路段、区域到城市全域的多层级结构,在时间上涵盖实时感知、短期波动与长期演化等多尺度过程,从而为理解城市运行机理、识别潜在规律以及支撑智能决策提供了重要基础。
|
||
|
||
|
||
大规模观测数据的持续积累,使研究者能够在更细粒度层面刻画交通拥堵传播、人口迁移演化、功能区活动强度变化以及公共服务供需波动等复杂城市现象;与此同时,城市智能任务也逐步由传统的统计分析扩展至状态预测、行为推断、空间语义理解、过程模拟与决策支持等更具综合性的建模问题\cite{}。在这一过程中,城市智能研究的核心关注点正由"数据获取能力"转向"如何从复杂时空数据中学习具有泛化性与可迁移性的有效表示"。
|
||
|
||
然而,数据规模的扩张并不必然带来建模能力的同步提升。随着观测来源、空间尺度与任务类型的不断增加,城市系统所呈现的高维非线性关系、多主体交互过程以及跨时间尺度演化特征,使得传统依赖经验规则或低维统计假设的建模方法难以充分刻画其内在结构规律\cite{}。因此,面向复杂城市系统的发展需求,研究能够从大规模时空观测数据中提取关键结构信息并支撑多类城市智能任务的表征学习方法,已成为当前时空智能建模的重要科学问题。
|
||
|
||
\subsubsection{复杂时空任务的多维特征与建模挑战}
|
||
|
||
在上述数据与应用背景下,城市智能研究正由针对单一现象的建模,逐步发展为面向多类型任务的综合分析与决策问题。典型的城市时空任务通常同时涉及状态预测、行为分析、空间语义理解以及过程推理等多种目标形式,其任务定义、输入信息与输出需求在同一系统中交织,使得建模问题呈现出显著的多维特征。在这一背景下,不同任务之间既共享部分基础结构信息,又在建模目标与决策侧重点上存在差异,这种“共享—差异”并存的关系对统一建模提出了更高要求。
|
||
|
||
进一步地,城市时空过程在空间与时间维度上表现出显著的结构复杂性。不同区域在功能属性、交通拓扑及人口分布等方面存在差异,使得城市活动具有明显的位置依赖与非均匀性特征;同时,城市运行过程往往叠加多尺度动态模式,例如日周期与周周期所体现的稳定规律,以及突发事件引发的短时扰动。空间结构与时间演化之间的耦合作用,使得城市系统呈现出复杂的时空交互机制。此外,多源观测数据在采样频率、语义粒度与噪声分布等方面存在差异,进一步增加了统一建模的难度 \cite{}。
|
||
|
||
从表征学习的视角来看,上述多维特征不仅体现为数据与任务层面的复杂性,更对模型内部表示提出了更高要求。模型需要在统一的表示空间中同时刻画跨任务与跨区域的共享规律,并对局部结构差异、多尺度动态变化及语义异构性保持足够敏感。这意味着,在同一模型中,不同层级与不同子结构往往需要承担差异化的表征功能。如何在统一建模框架下协调这些差异化需求,使模型能够兼顾共享性与结构敏感性,构成了复杂时空任务建模的核心挑战之一。
|
||
|
||
\subsubsection{时空数据表征学习范式的发展}
|
||
|
||
随着城市时空系统建模复杂度的不断提升,传统依赖显式规则与统计假设的方法逐渐难以刻画高维动态过程。在此背景下,表征学习(Representation Learning)逐步成为时空数据建模的核心范式。相较于依赖人工特征设计的方法,其通过数据驱动方式构建隐式表示空间,使模型能够在较少先验约束的条件下刻画复杂的非线性时空关系,从而提升对真实城市运行过程的建模能力\cite{}。深度学习方法的发展进一步推动了这一转变,通过卷积结构、序列建模机制与图结构建模等方式,使模型能够在端到端框架下学习潜在时空表示,并在交通预测、人口流动分析等任务中取得良好效果\cite{}。
|
||
|
||
尽管上述方法在特定任务上表现出较强能力,其学习到的表示仍普遍与具体任务目标紧密耦合,缺乏跨任务与跨场景的通用性。在城市时空智能逐步向多任务协同与综合决策支持演进的背景下,这种“任务特定表征”范式逐渐暴露出局限:模型难以在不同任务之间共享知识,重复训练成本较高,且在面对新任务或新场景时泛化能力有限。这一问题在结构复杂且任务耦合紧密的城市系统中尤为突出。
|
||
|
||
围绕上述问题,时空表征学习逐步由面向单一任务的特征建模,转向构建具有更强迁移性与泛化能力的通用表示(general-purpose representation)。该方向强调在统一表示空间中刻画跨任务、跨区域及跨时间尺度的共享结构规律,使模型能够在不同任务之间实现知识复用与能力迁移。整体来看,时空表征学习呈现出由显式建模向隐式表示、由任务特定表示向通用表示的演进趋势。然而,如何在实际建模过程中有效学习并利用这种通用表示,使其适应多类型时空任务的需求,仍是当前研究中的关键问题。
|
||
|
||
\subsubsection{大语言模型推动时空智能建模范式转变}
|
||
|
||
随着时空表征学习逐步由任务特定建模向通用表示建模演进,以大语言模型为代表的基础模型(foundation models)为复杂城市系统的统一建模提供了新的技术路径。通过大规模数据预训练,大语言模型在统一的序列建模框架下构建共享表示空间,使模型能够在不同任务之间共享知识并实现跨场景泛化\cite{}。相较于针对单一任务独立建模的传统方式,该范式为在同一模型中整合多源信息与多类型任务需求提供了可能。
|
||
|
||
从建模能力上看,大语言模型在长程依赖建模与多步推理方面所表现出的能力,使其在处理跨区域关联与跨时间尺度动态关系时具有潜在优势。已有研究开始探索将基础模型引入城市时空任务,例如通过序列化方式刻画轨迹演化过程,或利用统一表示空间支持空间语义理解与跨任务推理\cite{}。这些初步工作表明,基础模型为时空智能建模提供了一种兼具表达能力与统一性的建模范式。
|
||
|
||
然而,大语言模型所具备的通用表示能力并不意味着其能够直接适配复杂城市时空任务。城市时空数据的多维特征要求模型在统一表示空间中同时刻画共享规律与结构差异,而大语言模型的预训练过程主要基于通用语料,其内部表示结构与时空建模需求之间仍存在一定差异。因此,如何在保持预训练通用能力的基础上,使模型内部表示与时空数据的结构特征相协调,成为将基础模型引入时空智能建模的关键问题。
|
||
\subsubsection{面向时空建模的模型适配问题与挑战}
|
||
|
||
如前所述,大语言模型通过大规模预训练所构建的通用表示能力,为复杂时空任务的统一建模提供了新的技术路径。然而,预训练阶段获得的通用能力并不等同于对具体时空任务的有效建模能力。在实际应用中,模型仍需在保持已有知识结构的前提下,对特定任务的输入模式与输出需求形成针对性的适配。因此,如何设计有效的模型适配机制,使其能够在复杂时空场景中发挥作用,成为基础模型应用中的关键问题。
|
||
|
||
现有适配方法通常采用统一的参数更新或表示调制策略,在模型不同层级与子结构上施加形式一致的调整。这类方法隐含假设模型内部各组成部分在适配过程中的作用是近似一致的。然而,从模型表示机制来看,不同模块、不同表示维度及不同参数子空间在信息建模中往往承担差异化功能。本文将这种现象概括为\emph{模型内部的结构角色差异}。
|
||
|
||
在时空建模场景中,这一问题更加突出。城市时空任务要求模型在统一表示空间中同时刻画跨任务共享规律、多尺度动态变化及局部结构差异,这意味着模型内部不同层级与子结构需要承担不同的表征职责。如果适配机制无法感知这种结构角色差异,而仍采用均匀调整方式,则难以在有限的适配能力下实现对关键表示的有效调控,从而影响模型在复杂场景中的泛化能力与稳定性。
|
||
|
||
因此,面向时空建模的模型适配问题,其核心在于如何使适配过程与模型内部结构相协调,即在统一模型框架下刻画并利用结构角色差异,从而实现对复杂时空任务的有效适配。围绕这一问题,第~\ref{sec:unified_framework}~节将从不同结构层级出发,对模型表示调制机制进行系统分析与方法设计。
|
||
\newpage
|
||
\subsection{理论意义、方法体系与应用价值}
|
||
\label{subsec:significance}
|
||
|
||
面向复杂城市时空数据的表征学习与模型适配问题开展系统研究,在理论理解、方法体系构建与工程实践支撑三个层面均具有重要意义。
|
||
|
||
{\heiti \underline{理论意义}}:
|
||
从理论层面看,城市运行过程本质上体现为多维度、多层级结构信息的动态耦合与演化过程。不同空间区域、不同时间尺度以及不同功能任务之间存在复杂的交互关系,使得有效建模不仅需要刻画整体运行规律,还需反映局部结构差异与动态变化特征。因此,如何在统一表示框架下刻画复杂时空系统中的多维结构信息,构成了时空表征学习中的核心问题。
|
||
|
||
随着表征学习方法的发展,模型通过隐式表示空间刻画复杂系统行为已成为主流路径。然而,现有研究多从任务建模或参数优化角度展开,对于模型内部表示如何在复杂任务中分工协作,缺乏系统性认识。特别是在多任务耦合与多尺度动态并存的时空场景中,模型需要在统一表示空间中同时刻画共享规律与结构差异,这对表示结构的组织方式提出了更高要求。
|
||
|
||
进一步地,从模型表示机制出发,可以观察到大模型在不同模块、不同表示维度及不同参数子空间中往往形成差异化的功能分工。例如,自注意力结构侧重上下文依赖建模,前馈网络承担知识表达功能,位置编码在不同维度上引入异质的结构特征。这种模型内部的结构角色差异,为理解复杂时空表征能力的形成机制提供了重要线索。
|
||
|
||
基于上述认识,本文从结构角色差异的视角出发,系统分析模型内部不同层级结构在复杂时空任务中的功能贡献,并建立时空数据多维特征与模型表示调制机制之间的联系。该研究有助于深化对“预训练表征如何通过适配形成任务特定能力”的理解,为复杂时空系统表征能力的形成机制提供新的理论视角。
|
||
|
||
\begin{figure}[!h]
|
||
\caption{占位图片\\第二行题注}
|
||
\end{figure}
|
||
|
||
{\heiti \underline{方法体系意义}}:
|
||
现有模型适配方法多从单一层级或局部机制出发进行设计,不同方法之间缺乏统一的结构建模视角与内在关联。这些方法通常分别关注表示调制、参数选择或更新结构等不同方面,虽在各自场景中表现出有效性,但由于缺乏统一理论框架,难以系统解释其作用机制及相互关系。
|
||
|
||
针对上述问题,本文围绕模型内部结构角色差异,构建了一个从模块、维度到参数级逐层递进的表征适配方法体系。在该体系中,不同层级的适配方法共享统一的结构感知建模思想,即根据模型内部不同子结构在建模中的功能角色,对表示流或参数更新施加差异化的非均匀调制。在统一形式化框架下,这些方法可归纳为乘性调制、组合式调制与结构分解调制等不同实现形式,从而在理论上实现了不同适配策略的统一刻画。
|
||
|
||
这种具有内在逻辑一致性的分层方法体系,不仅能够更精细地刻画复杂时空任务中的多维结构特征,也使不同层级的模型改进能够在统一视角下得到解释与整合,为跨任务与跨场景的表示迁移提供了系统化的方法基础。
|
||
|
||
{\heiti \underline{应用与工程价值}}:
|
||
从工程实践角度看,城市智能系统正逐步由面向单一任务的优化问题,发展为面向多任务协同与综合决策支持的复杂系统,对建模方法的可扩展性、稳定性及持续评估能力提出了更高要求。在这一背景下,如何在有限计算资源条件下高效适配大语言模型,并在接近真实应用环境的条件下系统评估其性能,成为时空智能研究中的重要问题。
|
||
|
||
本文提出的结构感知适配方法通过在模型内部关键结构上进行有针对性的调制,在保持预训练模型主体参数不变的前提下,实现对复杂时空任务的有效适配,从而降低了大模型在城市智能场景中的应用门槛。同时,围绕复杂时空任务的验证需求,构建了面向多任务与多阶段评估的实验基础设施,通过统一的任务组织方式与评估流程,使模型性能能够在更接近实际应用环境的条件下得到系统检验。
|
||
|
||
此外,针对时空推理与决策类任务的评测需求,构建相应的数据资源与实验基准,有助于弥补现有城市计算研究在复杂任务评估方面的不足,使模型不仅能够进行状态预测,还能够支持更高层次的语义理解与决策分析。上述方法体系与评测环境的结合,有助于形成从模型设计到系统验证的完整研究闭环,为时空智能建模技术向工程实践的转化提供重要支撑。
|
||
|
||
总体而言,从理论分析到方法体系构建,再到工程评测与应用支撑,围绕复杂时空表征学习与模型适配问题的系统研究,有助于推动时空智能建模方法向更高表达能力与更强泛化能力的发展,为构建高效、可持续的城市智能系统提供重要技术基础。
|
||
% \newpage
|
||
|
||
\section{时空表征学习研究现状与关键问题分析}
|
||
\label{sec:research_status}
|
||
\subsection{时空数据建模与表征学习研究现状}
|
||
\label{subsec:status_st_modeling}
|
||
|
||
城市时空建模方法经历了由显式数学建模向数据驱动表征学习的范式演进。早期研究主要基于时间序列分析与空间统计方法,通过构建带有先验假设的数学模型对交通流、人口分布及环境变化等过程进行刻画\cite{}。此类方法在系统结构相对稳定或数据规模有限的场景中具有一定适用性,但其表达能力依赖于模型假设与特征设计,难以刻画复杂城市系统中普遍存在的非线性与动态耦合关系。
|
||
|
||
随着深度学习技术的发展,研究者逐步引入循环神经网络、卷积神经网络及图神经网络等模型,通过端到端学习方式提取潜在时空表示,在交通预测、出行行为建模及城市功能区分析等任务中取得了显著进展\cite{}。特别是结合图结构建模与注意力机制的方法,能够在一定程度上刻画空间拓扑依赖与长程时间关联,为复杂城市系统建模提供了更为灵活的技术路径\cite{}。
|
||
|
||
然而,从城市智能建模的整体需求来看,现有方法仍存在两方面局限。其一,模型通常围绕特定任务进行设计,所学习的表示与任务目标紧密耦合,缺乏跨任务与跨场景的通用性。在多任务协同建模环境中,这种“任务特定表征”范式导致知识难以共享,模型在面对新任务时泛化能力有限。其二,城市时空数据普遍具有多尺度动态模式、空间非均匀性及多源语义差异等结构特征,而基于单一结构假设的模型设计难以在统一表示空间中同时刻画这些复杂属性。
|
||
|
||
因此,如何构建能够刻画多维结构特征、并具备跨任务迁移能力的通用时空表征学习方法,已成为该领域的重要研究方向。
|
||
|
||
\subsection{模型适配与结构感知建模研究现状}
|
||
\label{subsec:status_peft}
|
||
|
||
随着基础模型的发展,通过大规模预训练获取通用表示,并在下游任务中进行适配优化,逐渐成为复杂系统建模的重要范式\cite{}。参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法通过仅更新少量参数实现模型适配,在降低计算成本的同时保持了较好的性能表现。典型方法包括低秩适配(LoRA)\cite{hu2021lora}、适配器插入\cite{houlsby2019parameter}以及前缀调制\cite{li2021prefix}等。
|
||
|
||
从时空建模需求出发审视上述方法,可以发现其核心策略通常在模型不同层级与子结构上施加形式一致的参数更新或表示调制,隐含假设模型内部各组成部分在适配过程中具有相似作用。然而,已有研究表明,模型内部不同结构单元在信息建模中往往承担差异化功能。例如,自注意力模块侧重上下文依赖的动态整合,前馈网络主要承担知识表达功能\cite{geva2021transformer};位置编码在不同维度上引入具有频率结构的表示偏置,使得表示在维度空间中呈现系统性的功能差异\cite{su2024roformer};参数更新在频谱空间中亦表现出全局与局部结构并存的特性。
|
||
|
||
在多任务学习方面,动态路由机制与混合专家结构被用于缓解任务间干扰并提升模型容量利用效率\cite{}。然而,现有方法多从任务权重分配或参数更新策略角度进行设计,对于模型内部不同表示层级在复杂任务中的功能分工缺乏系统性刻画。在多任务耦合且结构复杂的时空场景中,均匀适配策略难以同时兼顾预训练知识的保持与任务特定能力的获取。
|
||
|
||
因此,如何从模型内部结构出发,刻画不同层级与子结构在表征学习中的功能角色,并据此设计具有结构感知能力的适配机制,成为当前模型适配研究中的关键问题。
|
||
|
||
\subsection{时空智能数据与评测体系研究现状}
|
||
\label{subsec:status_benchmark}
|
||
|
||
模型能力的有效评估依赖于系统化的数据资源与标准化的实验基准。在数据集方面,城市计算研究已构建了大量面向交通预测、轨迹分析及空间分布建模的公开数据资源,例如METR-LA、PEMS-BAY以及GeoLife等\cite{}。这些数据集通常围绕特定预测目标构建,能够在单一任务场景中较好地反映模型性能。
|
||
|
||
然而,随着城市智能应用逐步向推理与决策支持任务拓展,现有数据集在任务复杂度与评测维度方面的局限逐渐显现。一方面,传统数据资源主要侧重短期动态建模,对于跨时间尺度的逻辑推理与复杂情境理解支持不足;另一方面,现有问答类数据集在空间与时间信息的结合方面仍较为有限,难以系统评估模型对时空关系的理解与推理能力\cite{}。
|
||
|
||
在评测体系方面,已有工作提出了若干面向时空预测任务的统一评测框架,如LibCity、DL-Traff及TorchSpatial等\cite{},通过规范化数据处理流程与评价指标实现模型间的公平比较。然而,这类框架普遍依赖人工维护,在可扩展性与持续性方面存在不足,难以跟进快速增长的研究工作;同时,不同框架之间在评估设置上的差异,也影响了实验结果的可比性与可复现性。
|
||
|
||
此外,城市时空任务在实际应用中往往具有持续演化与多阶段决策特征,仅依赖静态离线数据难以全面反映模型在动态环境中的表现。因此,构建能够支持复杂任务、多阶段验证及持续更新的评测基础设施,已成为推动时空智能研究向实际应用转化的重要方向。
|
||
\subsection{现有研究的主要挑战总结}
|
||
|
||
综合前述分析可以看出,尽管现有研究在时空数据建模、模型适配及评测体系等方面取得了一定进展,但在面向复杂城市时空智能任务的统一建模过程中,仍存在若干关键问题有待进一步解决,主要体现在以下三个方面。
|
||
|
||
(1)\textbf{模型内部结构角色差异的刻画不足。}
|
||
复杂时空数据要求模型在统一表示空间中同时刻画多任务共享规律、位置依赖关系及多尺度动态变化。然而,现有方法多采用形式一致的建模或适配策略,隐含假设模型各层级与子结构作用相近,缺乏对不同模块、不同表示维度及不同参数子空间功能角色差异的刻画。这种均匀建模方式难以针对关键结构进行有效调控,从而限制了模型对复杂时空模式的表达能力\cite{}。
|
||
|
||
(2)\textbf{多任务场景下结构角色协同与容量分配机制不足。}
|
||
在多任务时空建模中,不同任务之间既存在共享结构规律,又在表示需求上存在差异,对模型内部结构的协同与资源分配提出了更高要求。现有方法多从参数更新或任务权重角度进行设计,缺乏对不同结构单元功能分工的系统建模。在有限参数预算下,如何实现共享能力与任务特定能力的有效平衡仍有待进一步研究\cite{}。
|
||
|
||
(3)\textbf{面向复杂时空任务的评测基础设施尚不完善。}
|
||
现有研究主要依赖静态离线数据集进行验证,其评测目标多集中于单一任务或短期预测指标,难以全面反映模型在复杂城市环境中的综合表现。在数据资源方面,现有时空数据集主要面向状态预测任务构建,缺乏同时包含空间位置与时间上下文、且对时空条件敏感的评测资源,难以系统评估模型的时空推理与情境理解能力。在评测平台方面,现有框架普遍依赖人工维护,在模型收录的可扩展性与评估流程的持续更新能力方面存在不足,难以支撑多任务、多阶段的系统化评估需求\cite{}。
|
||
|
||
|
||
综上,复杂时空数据所引入的结构异质性不仅体现在数据与任务层面,也体现在模型内部结构角色的功能分化上。如何在统一框架下刻画并利用这种结构角色差异,设计结构感知的适配机制,并构建支撑复杂任务验证的评测体系,构成了本文的核心研究问题。围绕上述问题,第~\ref{sec:unified_framework}~节将进一步提出面向时空数据的结构感知适配统一分析框架。
|
||
|
||
\section{面向时空数据的结构感知适配统一分析框架}
|
||
\label{sec:unified_framework}
|
||
|
||
前述分析表明,城市时空数据在空间结构、时间演化及任务目标等方面均呈现出显著的异质性特征。这种异质性不仅体现在数据分布与任务定义层面,也进一步体现在模型表征过程中:不同类型的时空结构信息往往需要在模型内部由不同层级与不同子结构进行刻画。
|
||
|
||
在此背景下,若在模型适配过程中对所有表示与参数施加形式一致的调整,则难以兼顾多任务共享规律与局部结构差异,容易导致关键结构信息表达不足。因此,从时空建模需求出发,模型适配过程需要具备\emph{结构敏感性},即能够根据不同结构特征,对模型内部表示进行差异化调控。
|
||
|
||
为进一步刻画这一过程,可以从模型前向计算的角度进行理解。对于输入样本 $\mathbf{X}$,模型在逐层计算过程中会产生一系列中间表示,并通过这些表示在不同层级之间逐步传递与变换。该过程可视为一种\emph{表示流}(representation flow),即信息在模型内部随层级推进而不断演化的动态过程。
|
||
|
||
从表示学习的角度来看,结构敏感性可以统一理解为:在上述表示流的传播过程中,对中间表示施加依赖于输入与结构特征的非均匀变换。基于这一认识,本文将模型适配过程抽象为对表示流的\emph{结构感知调制},并在此基础上构建统一分析框架,以刻画后续各章方法的核心机制。
|
||
|
||
\subsection{结构感知调制的统一形式化}
|
||
\label{subsec:unified_formulation}
|
||
|
||
在上述直觉基础上,考虑预训练模型在适配过程中的表示变换形式。设预训练模型参数为 $\Theta_0$,适配参数为 $\Theta_a$。对于第 $\ell$ 层,给定输入时空样本 $\mathbf{X}$,该层产生的中间表示记为 $\mathbf{Z}^{(\ell)}$(例如注意力输出或前馈网络输出),其构成了表示流在该层的状态。
|
||
|
||
结构感知调制的统一形式可表示为:
|
||
\begin{equation}
|
||
\tilde{\mathbf{Z}}^{(\ell)}
|
||
=
|
||
\mathcal{M}_{\theta}
|
||
\Big(
|
||
\mathbf{Z}^{(\ell)};\,
|
||
\mathbf{X},\,
|
||
\mathcal{R}
|
||
\Big),
|
||
\label{eq:ch1_unified_M}
|
||
\end{equation}
|
||
其中,$\mathcal{M}_{\theta}(\cdot)$ 为结构感知调制算子,$\tilde{\mathbf{Z}}^{(\ell)}$ 为调制后的表示,$\mathcal{R}$ 为结构角色描述符,用于刻画由时空数据结构特性所诱导的模型内部结构异质性类型,例如模块级、维度级及参数级等不同层级的结构差异。
|
||
|
||
该形式化表达了一个基本观点:模型适配的关键不在于对参数进行全面更新,而在于根据时空结构特征,对表示流中不同组成部分施加有针对性的调制。通过引入结构角色描述符 $\mathcal{R}$,可以在统一框架下区分不同类型的结构异质性,并据此设计差异化的调制策略。
|
||
|
||
\subsection{三种调制形式}
|
||
\label{subsec:modulation_forms}
|
||
|
||
在上述统一形式下,不同适配方法的差异主要体现在调制算子的具体实现方式上。根据调制机制与建模需求的不同,本文将结构感知调制归纳为三类基本形式。
|
||
|
||
\textbf{乘性调制}适用于刻画表示流中不同成分的重要性差异。在多任务与多结构并存的场景下,不同表示维度或通道对任务目标的贡献程度存在差异,因而需要通过门控机制进行选择性增强或抑制。其形式为:
|
||
\begin{equation}
|
||
\mathcal{M}_{\theta}(\mathbf{Z};\mathbf{X},\mathcal{R})
|
||
=
|
||
\mathbf{Z} \odot \mathbf{S}_{\theta}(\mathbf{X},\mathcal{R}),
|
||
\label{eq:ch1_multiplicative}
|
||
\end{equation}
|
||
其中 $\mathbf{S}_{\theta}(\cdot)$ 为条件化调制信号。第三章的 HyCAM 方法以及第四章的 RoSA、DyPAM 方法均属于此类形式。
|
||
|
||
\textbf{组合式调制}适用于刻画多尺度结构特征。在城市时空数据中,不同时间尺度与空间尺度上的模式往往对应不同频率成分,需要在统一框架下进行分解与重组。其形式为:
|
||
\begin{equation}
|
||
\mathcal{M}_{\theta}(\mathbf{Z};\mathbf{X},\mathcal{R})
|
||
=
|
||
\bigoplus_{s=1}^{S}
|
||
\mathbf{Z}_{s} \cdot g_{\theta,s}(\mathbf{X},\mathcal{R}),
|
||
\label{eq:ch1_compositional}
|
||
\end{equation}
|
||
其中 $\mathbf{Z}_s$ 表示第 $s$ 个频段的表示分量。第五章的 CASCADE 方法采用此类形式。
|
||
|
||
\textbf{结构分解调制}适用于刻画多任务场景下的共享与专用结构。在有限参数预算下,不同任务对模型容量的需求存在差异,需要在共享表示与任务特有表示之间进行分配。其形式为:
|
||
\begin{equation}
|
||
\mathcal{M}_{\theta}(\mathbf{Z};\mathbf{X},\mathcal{R})
|
||
=
|
||
\mathbf{Z} \cdot \left(\Delta\Theta_{shared} + \mathbf{m} \odot \Delta\Theta_{specific}\right),
|
||
\label{eq:ch1_structural}
|
||
\end{equation}
|
||
其中 $\Delta\Theta_{shared}$ 与 $\Delta\Theta_{specific}$ 分别对应共享与专用参数增量。第五章的 MESSA 方法采用此类形式。
|
||
|
||
\begin{table}[h]
|
||
\centering
|
||
\caption{本文方法体系与结构异质性的对应关系。}
|
||
\label{tab:ch1_method_overview}
|
||
\resizebox{0.95\linewidth}{!}{
|
||
\begin{tabular}{llllc}
|
||
\toprule
|
||
结构异质性类型 & 结构角色描述符 & 调制形式 & 对应方法 & 章节 \\
|
||
\midrule
|
||
模块级功能异质性 & $\mathcal{R}_{mod}$ & 乘性调制 & HyCAM & 第三章 \\
|
||
维度级位置结构异质性 & $\mathcal{R}_{dim}$ & 乘性调制 & RoSA, DyPAM & 第四章 \\
|
||
频谱级多尺度异质性 & $\mathcal{R}_{spec}$ & 组合式调制 & CASCADE & 第五章 \\
|
||
参数级容量分配异质性 & $\mathcal{R}_{param}$ & 结构分解调制 & MESSA & 第五章 \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
\subsection{结构异质性类型与本文方法体系}
|
||
\label{subsec:method_system}
|
||
|
||
基于上述统一框架,本文从时空数据的结构特性出发,将模型适配过程中涉及的结构异质性划分为四类,并构建了相应的方法体系,如表~\ref{tab:ch1_method_overview} 所示。
|
||
|
||
第三章从模块级功能差异出发,研究多任务场景下的表示调制问题;第四章进一步从表示维度层面分析位置结构所引入的异质性;第五章则从参数空间角度,分别从多尺度结构与容量分配两个方面对适配机制进行扩展。尽管各方法关注的结构层级不同,但在本节提出的统一框架下,均可理解为对表示流施加结构感知调制的不同实例化,从而形成由粗到细、由表示空间到参数空间的递进式建模路径。
|
||
|
||
\section{研究内容与技术路线}
|
||
\label{sec:research_content}
|
||
|
||
\subsection{主要研究内容}
|
||
\label{subsec:research_content_detail}
|
||
|
||
针对上述挑战,本文以城市时空数据的结构特性为导向,在第~\ref{sec:unified_framework}~节建立的统一分析框架下,系统研究面向时空智能任务的大语言模型结构感知适配方法,并构建相应的评测基础设施,以形成方法设计与系统验证相结合的研究闭环。
|
||
|
||
总体而言,本文围绕模型内部结构角色差异,从不同层级展开研究,主要包括以下四个方面:
|
||
|
||
(1)针对多任务时空建模中不同模块承担差异化功能的问题,研究模块级结构异质性($\mathcal{R}_{mod}$),构建基于乘性调制的表示适配方法;
|
||
|
||
(2)针对位置编码引入的维度级结构差异问题,研究维度级结构异质性($\mathcal{R}_{dim}$),构建面向位置结构的细粒度调制机制;
|
||
|
||
(3)针对参数更新过程中的多尺度结构与容量分配问题,研究频谱级与参数级结构异质性($\mathcal{R}_{spec}, \mathcal{R}_{param}$),构建组合式与结构分解调制方法;
|
||
|
||
(4)针对复杂时空任务缺乏统一评测环境的问题,构建面向多任务与多阶段验证的评测数据与实验基础设施。
|
||
|
||
在上述总体框架下,本文的具体研究内容如下。
|
||
|
||
\textbf{研究内容一:基于模块功能角色感知的多任务时空表征适配方法(第三章)}
|
||
|
||
针对城市多任务时空建模中Transformer不同功能模块承担差异化角色的问题,本文从模块级结构异质性($\mathcal{R}_{mod}$)出发,研究基于乘性调制的表示适配机制,并提出混合上下文注意力调制方法(Hybrid Contextual Attention Modulation, HyCAM)。
|
||
|
||
该方法基于如下认识:自注意力模块主要负责上下文依赖关系的动态建模,而前馈网络更多承担参数化知识表达功能,因此在适配过程中应优先对注意力表示进行定向调制,而非对所有模块施加均匀更新。基于此,本文构建上下文注意力调制(Contextual Attention Modulation, CAM)模块,通过通道级门控机制对自注意力输出进行输入条件化的乘性调制,以实现对关键表示成分的选择性增强或抑制。
|
||
|
||
在此基础上,进一步设计"共享CAM—专用CAM—动态路由"的混合结构,其中共享模块用于建模跨任务的通用调制模式,专用模块用于刻画任务特定结构,动态路由机制根据输入上下文自适应地融合两类调制信号,从而在统一模型中实现知识共享与任务特化之间的平衡。
|
||
|
||
\textbf{研究内容二:基于位置结构感知的维度级时空表征适配方法(第四章)}
|
||
|
||
针对位置编码在表示维度上引入的结构差异问题,本文从维度级结构异质性($\mathcal{R}_{dim}$)出发,研究面向位置结构的细粒度表示调制方法。
|
||
|
||
以旋转位置编码(RoPE)为例,其频率结构使不同维度承担不同的位置信息表达功能,从而导致注意力表示在维度空间中呈现显著的非均匀性。现有适配方法通常忽略这种结构差异,对所有维度施加同质化更新,难以充分利用位置结构信息。
|
||
|
||
为此,本文提出两类递进式方法。首先,提出RoPE感知的选择性适配方法(RoPE-aware Selective Adaptation, RoSA),通过构建RoPE感知注意力增强模块(RoAE)对关键维度进行定向增强,并结合动态层选择策略实现跨层级的资源分配。进一步地,提出动态位置注意力调制方法(Dynamic Positional Attention Modulation, DyPAM),将维度级适配由静态选择扩展为输入条件化的动态调制,通过低秩投影与维度嵌入机制生成与位置结构对齐的调制信号,从而在不同输入条件下实现更精细的结构感知建模。
|
||
|
||
\textbf{研究内容三:基于多尺度频谱结构与参数容量分配的适配方法(第五章)}
|
||
|
||
在上述表示空间建模的基础上,本文进一步将研究视角扩展至参数空间,针对多尺度结构与容量分配问题,分别从频谱级结构异质性($\mathcal{R}_{spec}$)与参数级结构异质性($\mathcal{R}_{param}$)出发,构建相应的适配方法。
|
||
|
||
首先,针对权重更新中的多尺度特征,提出基于频谱级联的多尺度参数适配方法(Coarse-to-Fine Spectral Cascading, CASCADE)。该方法通过构建由低频与高频专家组成的异构结构,并通过级联调制机制建立不同频段之间的依赖关系,从而实现对全局趋势与局部细节的协同建模。
|
||
|
||
其次,针对多任务场景中的参数容量分配问题,提出基于共享-特有稀疏分解的多任务适配方法(Multi-task Efficient Shared-Specific Sparse Adaptation, MESSA)。该方法将参数更新分解为跨任务共享部分与任务特有部分,通过可学习的结构门控实现参数在不同任务之间的自适应分配,从而在有限参数预算下提升多任务建模能力。
|
||
|
||
\textbf{研究内容四:面向时空智能的大模型评测体系与实验基础设施(第六章)}
|
||
|
||
为支撑上述方法在复杂时空任务中的系统验证,本文进一步构建面向多任务与多阶段评估的实验基础设施。
|
||
|
||
一方面,构建AI驱动的交通预测持续评测框架AgentCity,通过多智能体协同机制实现模型集成、任务组织与评估流程的自动化,从而提升评测体系的可扩展性与持续更新能力。另一方面,构建时空敏感的兴趣点问答数据集POI-QA,通过引入空间位置与时间上下文信息,构建能够反映时空推理能力的评测任务,从而弥补现有数据集在复杂时空理解方面的不足。
|
||
|
||
上述评测体系与数据资源,为结构感知适配方法在真实城市时空场景中的验证提供了统一环境。
|
||
|
||
综上,本文四项研究内容在统一框架下形成递进关系:研究内容一与二从表示空间出发,分别在模块级与维度级刻画结构角色差异;研究内容三进一步扩展至参数空间,从多尺度结构与容量分配角度进行建模;研究内容四则从评测基础设施角度提供系统验证支撑,从而形成面向时空智能建模的方法—数据—系统闭环。
|
||
|
||
\subsection{整体技术路线}
|
||
\label{subsec:technical_route}
|
||
|
||
为系统开展面向复杂时空任务的表征学习研究,本文围绕城市时空数据的结构特征构建统一的分层建模技术路线,其总体框架如图~\ref{fig:tech_route}所示。
|
||
|
||
\begin{figure}[htbp]
|
||
\centering
|
||
% \includegraphics[width=0.9\textwidth]{tech_route.pdf}
|
||
\caption{本文整体技术路线示意图。该图从时空数据的结构复杂性出发,展示了结构角色感知表征学习方法体系的层级化建模思路,包括模块级表示流调制、维度级结构敏感建模、多尺度参数更新机制以及参数结构优化策略,并进一步给出统一实验验证与评测体系在整体研究框架中的支撑作用。}
|
||
\label{fig:tech_route}
|
||
\end{figure}
|
||
|
||
该技术路线以时空结构异质性分析为起点,首先从城市系统中的多任务耦合关系、位置依赖特征以及多尺度动态模式等结构属性出发,对时空建模问题进行系统刻画;在此基础上,通过第~\ref{sec:unified_framework}~节提出的统一分析框架,将时空结构特性映射为模型内部不同层级的结构角色差异,并据此设计相应的表示调制与参数适配方法。
|
||
|
||
具体而言,在模块层面,研究表示在不同计算单元中的组织方式,通过结构感知调制机制增强模型对任务相关信息的表达能力;在维度与位置结构层面,刻画表示空间中的非均匀性特征,提升模型对空间依赖与时间动态的建模能力;在参数层面,进一步分析多尺度结构与容量分配对模型适配行为的影响,构建兼顾全局与局部特征的结构化更新机制。
|
||
|
||
在上述方法体系基础上,本文通过统一的实验组织与评测流程,对不同层级结构适配策略进行系统验证,并分析其在复杂时空任务中的协同作用。整体技术路线体现出由时空结构问题出发,经统一框架抽象,逐层展开方法设计,并最终通过评测基础设施完成验证的递进式研究路径,从而形成完整的时空智能建模研究闭环。
|
||
|
||
\section{论文组织结构}
|
||
\label{sec:organization}
|
||
|
||
本文围绕复杂城市时空数据的结构特性,系统研究基础模型在多任务时空智能建模中的表征适配机制,并构建相应的评测基础设施。全文按照”问题提出—统一分析—方法设计—系统验证”的逻辑展开,各章节内容安排如下。
|
||
|
||
第一章为绪论,介绍研究背景与研究意义,梳理时空表征学习与模型适配领域的研究现状与关键问题,在此基础上提出面向时空数据的结构感知适配统一分析框架,并给出本文的研究内容与整体技术路线。
|
||
|
||
第二章为国内外研究现状,系统综述与本文研究相关的四类工作,包括时空数据建模与表征学习方法、基础模型与大语言模型表示机制、参数高效适配与结构建模方法以及时空智能数据与评测体系,并对现有研究的主要挑战进行总结分析。
|
||
|
||
第三章针对多任务时空建模中的模块级结构异质性问题,研究基于模块功能角色差异的表征适配方法,构建上下文注意力调制机制及其扩展框架,以提升模型在多任务场景中的协同建模能力。
|
||
|
||
第四章针对位置编码引入的维度级结构差异问题,研究位置结构驱动的各向异性表征学习方法,从表示维度与层级结构出发设计结构感知调制机制,以增强模型对复杂时空依赖关系的刻画能力。
|
||
|
||
第五章面向多尺度动态模式与多任务容量分配问题,从参数空间视角出发研究多尺度结构建模与参数结构自适应方法,分别从频谱结构与参数分解两个方面构建适配机制,以提升模型在复杂场景下的整体建模能力。
|
||
|
||
第六章围绕复杂时空任务的评测需求,构建面向多任务与多阶段验证的实验基础设施,包括交通预测持续评测框架与时空敏感问答数据集,并在统一评测环境下对相关方法进行系统验证与分析。
|
||
|
||
第七章为总结与展望,总结本文的主要研究内容与创新点,并结合时空智能建模与基础模型的发展趋势,对未来研究方向进行讨论。
|
||
|
||
|
||
% 第二章 国内外研究现状
|
||
\chapter{国内外研究现状}
|
||
\section{时空数据建模与表征学习研究}
|
||
\subsection{时空数据建模问题类型与应用场景}
|
||
\subsection{传统时空建模方法}
|
||
\subsection{深度学习驱动的时空表征学习方法}
|
||
\subsection{时空建模中的结构复杂性问题}
|
||
|
||
\section{基础模型与大语言模型表征机制研究}
|
||
\subsection{Transformer表示学习机制}
|
||
\subsection{预训练基础模型与表示迁移学习}
|
||
\subsection{大语言模型在复杂任务建模中的潜力}
|
||
\subsection{大模型在时空智能领域的初步探索}
|
||
|
||
\section{参数高效适配与结构建模方法研究}
|
||
\subsection{参数高效微调方法}
|
||
\subsection{多任务学习与知识路由机制}
|
||
\subsection{表示各向异性与结构感知学习}
|
||
\subsection{多尺度学习与频谱建模方法}
|
||
\subsection{模型结构优化与容量分配方法}
|
||
\subsection{现有适配方法的对比分析与不足}
|
||
|
||
\section{时空智能数据集与评测基础设施研究}
|
||
\subsection{时空预测与分析数据集}
|
||
\subsection{面向推理与决策的时空任务数据}
|
||
\subsection{城市仿真环境与智能体平台}
|
||
\subsection{现有评测体系的局限性}
|
||
|
||
\section{本章小结}
|
||
|
||
% 第三章 模块角色感知的多任务时空表征学习方法
|
||
\chapter{模块角色感知的多任务时空表征学习方法}
|
||
\label{chap:hycam}
|
||
|
||
\section{本章概述}
|
||
\label{sec:ch3_overview}
|
||
|
||
第一章建立了基于结构感知调制的统一分析框架(式~\ref{eq:ch1_unified_M}),将时空数据在大语言模型不同层级所诱导的结构差异归纳为四类结构异质性,并统一刻画为乘性调制、组合式调制与结构分解调制三种基本形式。在该统一框架下,不同方法可理解为针对特定结构角色描述符$\mathcal{R}$的具体实例化。本章作为方法体系的第一部分,聚焦于\emph{模块级功能异质性}($\mathcal{R}_{mod}$)。
|
||
|
||
在城市多任务时空建模场景中,模型需要在统一表示空间内同时刻画多任务共享规律与任务特有结构,这对模型内部不同计算模块的协同方式提出了更高要求。从表示机制来看,Transformer架构中的自注意力模块与前馈网络模块在功能上存在显著差异:自注意力模块主要负责输入上下文之间的依赖建模与信息整合,而前馈网络模块则更多承担参数化知识表达与非线性映射功能。这种功能分工使得不同模块在表征学习过程中承担不同的结构角色。
|
||
|
||
然而,现有适配方法通常采用均匀式参数更新或统一形式的表示调制策略,将不同模块视为等价的可调对象。该类方法一方面可能对预训练模型中已形成的知识结构产生干扰,另一方面也难以针对承担关键表征功能的模块进行有效调控,从而限制模型在复杂多任务时空场景中的适配能力。
|
||
|
||
针对上述问题,本章从模块级结构角色差异出发,研究基于表示流调制的结构感知适配方法。在统一框架下,该问题可表述为:在$\mathcal{R}_{mod}$约束下,构造依赖于输入与任务条件的调制算子$\mathcal{M}_\theta$,以对自注意力表示进行差异化调控。对应地,本章方法属于乘性调制形式(式~\ref{eq:ch1_multiplicative}),通过对注意力表示流施加输入条件化的门控信号,实现对关键信息通道的选择性增强与抑制。
|
||
|
||
在具体实现上,本章首先构建上下文注意力调制(Contextual Attention Modulation, CAM)机制,通过通道级乘性调制对自注意力输出进行输入依赖的动态调整;在此基础上,进一步构建混合上下文注意力调制框架(Hybrid Contextual Attention Modulation, HyCAM),通过共享调制模块与任务特有调制模块的结构组合,并结合动态路由机制,在统一模型中实现跨任务知识共享与任务特定表达之间的协调。
|
||
|
||
本章后续安排如下:第~\ref{sec:ch3_problem}~节分析城市多任务时空建模中的模块级结构异质性问题;第~\ref{sec:ch3_cam_mechanism}~节介绍基于模块角色感知的表示流调制机制;第~\ref{sec:ch3_hycam}~节给出混合上下文注意力调制框架;第~\ref{sec:ch3_routing}~节介绍动态路由与协同训练机制;第~\ref{sec:ch3_experiments}~节进行实验验证与结果分析;第~\ref{sec:ch3_summary}~节对本章内容进行总结。
|
||
|
||
\section{多任务时空建模问题与结构分析}
|
||
\label{sec:ch3_problem}
|
||
|
||
\subsection{城市多任务时空建模的研究背景}
|
||
\label{subsec:ch3_background}
|
||
|
||
城市系统本质上是由人、地、设施、交通、事件与服务等多类实体耦合形成的复杂开放系统,其运行过程伴随着持续产生的多源时空数据。随着城市数字化基础设施与智能感知体系的不断完善,围绕城市治理、公共服务、交通调度、空间规划与城市计算所形成的建模任务,正在从传统单任务分析逐步转向面向统一城市智能体的多任务协同建模范式。典型任务包括城市问答与知识检索、时空事件理解、地点语义识别、行为模式分析、城市功能分类、交通状态预测以及基于复杂上下文的决策支持等。
|
||
|
||
与一般文本任务不同,城市多任务时空建模具有更强的结构复杂性。首先,不同任务虽然在表面目标上存在差异,但往往共享同一城市系统中的实体知识、语义关系与行为规律。例如,地点问答任务依赖位置实体之间的关系理解,轨迹语义分析依赖区域功能与时段模式知识,而城市事件解释则需要同时融合空间邻近性、时间先后关系与社会语义背景。其次,不同任务对模型内部表示的需求并不一致:有些任务更强调局部语境对齐,有些任务更依赖长程依赖建模,还有些任务则更需要对少量关键上下文线索进行精细选择。这意味着,城市多任务时空建模不仅是多个目标函数的并列优化问题,更是一个关于\emph{如何在共享预训练知识基础上进行结构化上下文重组}的问题。
|
||
|
||
大语言模型经过大规模语料预训练后,已经具备较强的通用知识记忆与上下文推理能力,因此为城市多任务时空建模提供了新的技术路径。相比传统时空模型,大语言模型能够在统一表示空间内处理异构任务,并通过指令化输入自然支持问答、推理、生成与解释等复杂目标。然而,这种能力并不意味着模型能够直接适配复杂城市任务。一方面,通用预训练知识与具体城市任务之间存在明显的语义与结构落差;另一方面,若直接采用传统全参数微调方式,这种数据知识偏差会使模型优化时容易破坏既有预训练结构,导致灾难性遗忘、任务干扰与适配不稳定等问题。因此,如何在保留预训练基础能力的同时,使模型对城市多任务时空上下文形成更细粒度、更具针对性的响应机制,成为本章关注的核心问题。
|
||
|
||
\subsection{城市多任务时空建模中的模块级结构异质性}
|
||
\label{subsec:ch3_module_hetero}
|
||
|
||
从第~\ref{sec:unified_framework} 节所提出的统一分析框架出发,本文认为,大语言模型在适配时空任务时面临的关键困难之一,在于其内部不同功能模块并非同质、等价地参与任务建模,而是具有显著的\emph{结构角色异质性}。具体到 Transformer 架构,不同子模块在表征生成过程中承担不同的功能角色:自注意力模块侧重于建模输入上下文之间的依赖关系,负责动态组织、选择与融合时序和语义线索;前馈网络(FFN)则更多承担参数化知识存储与非线性映射功能,形成模型的静态知识基础。
|
||
|
||
对于城市时空任务而言,这种差异尤为重要。城市多任务场景中的输入通常包含地点、时间、实体关系、事件描述、用户意图与背景语义等复合信息。模型能否正确完成任务,很大程度上并不只取决于其是否“记住”了某类知识,更取决于其能否在具体上下文中\emph{动态组织这些知识},并将注意力聚焦于与当前任务目标最相关的时空线索之上。换言之,问题的关键不完全是“增加任务知识”,而更在于“重新组织知识与上下文之间的匹配方式”。
|
||
|
||
从这一视角出发,若采用均匀式适配策略,将所有模块都视为等价可调对象,则可能带来两类问题。第一,过度更新 FFN 等参数规模较大的知识承载模块,会改变预训练阶段已形成的通用知识分布,增加灾难性遗忘风险。第二,若缺乏对自注意力上下文组织机制的定向调节,则模型即便保留了知识,也可能无法在复杂多任务场景中正确选择与整合这些知识,从而表现为任务间干扰、泛化能力不足与适配效率下降。因此,从模块级结构异质性的角度出发,面向城市多任务时空建模的高效适配,更合理的路径应当是:在尽量保持预训练知识主体结构稳定的前提下,重点对上下文组织路径进行有针对性的调制。
|
||
|
||
\subsection{从均匀适配到结构感知调制}
|
||
\label{subsec:ch3_uniform_to_aware}
|
||
|
||
现有全参数微调与多数参数高效微调方法,本质上大多采用某种形式的均匀适配思想,即默认模型内部所有参数或所有目标层具有相近的适配地位,仅通过统一的增量更新方式来完成任务迁移。然而,在城市多任务时空场景中,不同任务之间既存在共享的城市常识、空间语义与时序规律,又存在对特定上下文结构的差异化偏好。例如,城市问答任务可能更依赖局部实体关系的精细选择,城市事件解释任务更强调长程上下文整合,而交通语义分析类任务则更关注周期性模式与条件依赖。这些任务需求并不是通过统一的低秩增量便可充分表达的。
|
||
|
||
基于此,本章延续第~\ref{sec:unified_framework} 节建立的统一建模视角,认为更合理的适配方式应当是引入\emph{结构感知的非均匀调制}:不再对模型内部所有部分施加同质更新,而是根据不同模块的结构角色,对更适合承担时空任务适配职责的表示流进行定向调控。在本章中,所关注的结构角色记为
|
||
\begin{equation}
|
||
\mathcal{R}_{mod},
|
||
\label{eq:ch3_module_role}
|
||
\end{equation}
|
||
其对应于 Transformer 中模块级功能角色差异,尤其是自注意力模块与前馈网络模块在知识存储、上下文整合与任务适配中的不同作用。
|
||
|
||
在这一基础上,本章首先将第~\ref{sec:unified_framework} 节提出的统一结构感知调制算子在模块级场景下实例化为:
|
||
\begin{equation}
|
||
\tilde{\mathbf{H}}_{att}^{(\ell)}
|
||
=
|
||
\mathcal{M}_{\theta}^{mod}
|
||
\Big(
|
||
\mathbf{H}_{att}^{(\ell)};\,
|
||
\mathbf{X},\,
|
||
\mathcal{R}_{mod}
|
||
\Big),
|
||
\label{eq:ch3_unified_modulation}
|
||
\end{equation}
|
||
其中,$\mathbf{X}$ 表示输入时空样本或时空指令序列,$\mathbf{H}_{att}^{(\ell)}$ 表示第 $\ell$ 层自注意力模块的输出表示,$\mathcal{M}_{\theta}^{mod}$ 表示面向模块角色异质性的结构感知调制算子,而 $\tilde{\mathbf{H}}_{att}^{(\ell)}$ 则是调制后的上下文表示。该公式表明,本章方法并不直接重写整个模型的参数空间,而是在保留骨干模型 $\Theta_0$ 主体稳定的前提下,对承担上下文组织功能的注意力表示流进行输入条件化调制。
|
||
|
||
在具体实现上,本章将这种模块级调制设计为一种乘性残差调制机制,即通过上下文驱动的调制信号,对自注意力输出表示中的关键维度进行增强或抑制,从而改变信息流在后续层中的传播方式。其核心思想是:若预训练模型已经具备较强的通用知识,则多任务适配的关键不一定是重写知识本身,而更在于改变\emph{知识被调用、组织与融合的方式}。这一思想构成了本章所提出方法 HyCAM 的理论出发点。
|
||
|
||
\subsection{本章研究目标与技术路线}
|
||
\label{subsec:ch3_goal}
|
||
|
||
基于上述分析,本章聚焦于城市多任务时空建模中的模块级异质性问题,主要关注以下三个方面:
|
||
|
||
第一,在大语言模型适配城市多任务场景时,是否可以通过优先调制自注意力表示流而非大规模修改骨干参数,获得更优的知识保持与任务适配平衡?
|
||
|
||
第二,在多任务建模中,如何同时兼顾跨任务共享知识与任务特有模式,使模型能够在统一框架中实现共享与专用能力的协同?
|
||
|
||
第三,在面向多种城市任务的联合建模过程中,如何通过动态路由机制使不同适配分支获得更合理的使用,从而缓解任务冲突与专家塌缩问题?
|
||
|
||
围绕这些问题,本章提出一种模块角色感知的多任务时空表征学习方法,其总体技术路线如图~\ref{fig:ch3_framework} 所示(图为占位,后续可根据论文总图风格统一重绘)。该方法首先构造上下文注意力调制机制(Contextual Attention Modulation, CAM),对每层自注意力输出进行输入条件化调制;随后,在此基础上进一步提出混合式上下文注意力调制框架(Hybrid Contextual Attention Modulation, HyCAM),通过“共享 CAM + 专用 CAM + 动态路由”的结构实现多任务协同建模。整体上,本章的方法可统一理解为一种\emph{模块角色感知的表示流调制方法},它为后续第四章从维度级进一步研究位置结构与表示各向异性问题提供了基础。
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.82\linewidth]{assets/3_model.pdf}
|
||
\caption{模块角色感知的多任务时空表征学习总体框架示意图。}
|
||
\label{fig:ch3_framework}
|
||
\end{figure}
|
||
|
||
\section{模块角色感知的表示流调制机制}
|
||
\label{sec:ch3_cam_mechanism}
|
||
|
||
\subsection{问题形式化}
|
||
\label{subsec:ch3_formulation}
|
||
|
||
在城市多任务时空建模场景下,设训练数据集为
|
||
\begin{equation}
|
||
\mathcal{D}
|
||
=
|
||
\left\{
|
||
(\mathbf{X}_i,\mathbf{Y}_i,\tau_i)
|
||
\right\}_{i=1}^{N},
|
||
\label{eq:ch3_dataset}
|
||
\end{equation}
|
||
其中,$\mathbf{X}_i$ 表示第 $i$ 个输入样本,可由地点序列、事件描述、时间提示、空间关系文本、指令模板及其他结构化时空上下文组成;$\mathbf{Y}_i$ 表示对应的目标输出;$\tau_i \in \mathcal{T}$ 表示该样本所属的任务类型,$\mathcal{T}$ 为任务集合。对于城市多任务场景,$\mathcal{T}$ 可对应于城市问答、时空推理、地点语义生成、事件解释、辅助决策等不同子任务。骨干大语言模型的预训练参数记为 $\Theta_0$,本章的适配参数记为 $\Theta_a$,则最终模型可统一写为
|
||
\begin{equation}
|
||
\Theta = \Theta_0 + \Delta \Theta(\Theta_a),
|
||
\label{eq:ch3_theta_decompose}
|
||
\end{equation}
|
||
其中 $\Delta \Theta(\Theta_a)$ 并非对全部参数的均匀更新,而是由模块角色感知调制结构所诱导的有效增量。
|
||
|
||
给定输入序列 $\mathbf{X} = (x_1,\dots,x_T)$,在第 $\ell$ 层 Transformer 中,隐藏表示记为
|
||
\begin{equation}
|
||
\mathbf{H}^{(\ell)} \in \mathbb{R}^{T \times d},
|
||
\label{eq:ch3_hidden}
|
||
\end{equation}
|
||
其中 $T$ 为序列长度,$d$ 为隐藏维度。采用预归一化 Transformer 时,输入到自注意力模块的归一化表示为
|
||
\begin{equation}
|
||
\bar{\mathbf{H}}^{(\ell)}
|
||
=
|
||
\mathrm{LayerNorm}\!\left(\mathbf{H}^{(\ell)}\right).
|
||
\label{eq:ch3_norm}
|
||
\end{equation}
|
||
标准自注意力输出表示可写为
|
||
\begin{equation}
|
||
\mathbf{H}_{att}^{(\ell)}
|
||
=
|
||
\mathrm{SelfAttn}\!\left(\bar{\mathbf{H}}^{(\ell)}\right).
|
||
\label{eq:ch3_attn_output}
|
||
\end{equation}
|
||
|
||
本章关注的核心问题并非直接重构 $\mathbf{H}_{att}^{(\ell)}$,而是在保持其基础结构不变的前提下,基于输入上下文生成调制信号对其进行结构感知修正,从而得到适于当前任务的表示流:
|
||
\begin{equation}
|
||
\tilde{\mathbf{H}}_{att}^{(\ell)}
|
||
=
|
||
\mathbf{H}_{att}^{(\ell)}
|
||
+
|
||
\mathbf{H}_{att}^{(\ell)} \odot
|
||
\mathbf{S}_{\theta}^{mod}
|
||
\!\left(
|
||
\bar{\mathbf{H}}^{(\ell)}, \mathbf{X}, \mathcal{R}_{mod}
|
||
\right),
|
||
\label{eq:ch3_mod_general}
|
||
\end{equation}
|
||
其中 $\odot$ 表示 Hadamard 逐元素乘法,$\mathbf{S}_{\theta}^{mod}(\cdot)$ 表示模块角色感知的调制信号生成函数。式~\eqref{eq:ch3_mod_general} 是本章方法最基本的形式化表达,它说明 HyCAM 作用的对象并非整个隐藏空间,而是\emph{自注意力输出表示流}本身。
|
||
|
||
\subsection{模块角色差异与注意力表示流的适配价值}
|
||
\label{subsec:ch3_attn_value}
|
||
|
||
之所以选择自注意力模块作为核心调制对象,原因在于其在预训练语言模型中承担着比 FFN 更直接的上下文组织职责。FFN 虽然在参数规模上占据主导地位并承载预训练知识,但其作用更接近于位置独立的非线性变换。相比之下,自注意力模块通过 Query、Key、Value 之间的交互显式建模不同 token 间的依赖关系,是输入上下文信息聚合与任务相关证据选择的关键场所。
|
||
|
||
在城市时空任务中,这一点尤为关键。例如,当输入涉及“某时间段内某区域附近设施与事件的关系”时,模型需要从多个地点、实体、时间表达中选择与任务最相关的线索,并依据任务意图动态调整不同上下文成分的重要性。若仍沿用均匀式参数更新,则模型往往只能通过低效的全局增量来“间接”修正上下文组织方式;而若直接在注意力输出处引入调制,则能够更直接地改变上下文信息的流向与组合方式。因此,从结构角色层面看,自注意力模块是实现任务专门化与知识保持平衡的更优切入点,提供了更直接、可控的上下文组织调节点。
|
||
|
||
从表示学习角度进一步理解,$\mathbf{H}_{att}^{(\ell)}$ 并不是静态知识本体,而是\emph{在当前上下文条件下对知识进行组织后的中间结果}。因此,对 $\mathbf{H}_{att}^{(\ell)}$ 施加适度、输入驱动的调制,本质上是在改变模型对已有知识的调用模式,而非粗暴覆盖预训练知识本身。这一差异使得本章方法天然更适合用于多任务场景:不同任务可以通过不同调制模式,选择性地突出最有用的上下文特征,而共享的预训练知识底座则得以较好保留。
|
||
|
||
\subsection{模块级结构调制的统一表达}
|
||
\label{subsec:ch3_unified_mod}
|
||
|
||
结合第~\ref{sec:unified_framework} 节提出的统一调制框架,本章将模块级异质性建模为一种乘性调制形式。设本章的调制对象为
|
||
\begin{equation}
|
||
\mathbf{Z}^{(\ell)} = \mathbf{H}_{att}^{(\ell)},
|
||
\label{eq:ch3_Z}
|
||
\end{equation}
|
||
则结构角色感知调制算子可具体实例化为
|
||
\begin{equation}
|
||
\mathcal{M}_{\theta}^{mod}
|
||
\Big(
|
||
\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R}_{mod}
|
||
\Big)
|
||
=
|
||
\mathbf{Z}^{(\ell)} \odot
|
||
\mathbf{S}_{\theta}^{mod}
|
||
\Big(
|
||
\bar{\mathbf{H}}^{(\ell)},\mathbf{X},\mathcal{R}_{mod}
|
||
\Big),
|
||
\label{eq:ch3_mod_operator}
|
||
\end{equation}
|
||
从而式~\eqref{eq:ch3_unified_modulation} 可改写为
|
||
\begin{equation}
|
||
\tilde{\mathbf{H}}_{att}^{(\ell)}
|
||
=
|
||
\mathbf{H}_{att}^{(\ell)}
|
||
+
|
||
\mathcal{M}_{\theta}^{mod}
|
||
\Big(
|
||
\mathbf{H}_{att}^{(\ell)};\mathbf{X},\mathcal{R}_{mod}
|
||
\Big).
|
||
\label{eq:ch3_mod_residual}
|
||
\end{equation}
|
||
|
||
式~\eqref{eq:ch3_mod_operator} 和式~\eqref{eq:ch3_mod_residual} 的意义在于,它们为本章后续方法提供了统一的理论骨架。具体而言,后续 CAM 将给出 $\mathbf{S}_{\theta}^{mod}$ 的具体参数化形式,从而将上述抽象调制算子实例化为可学习的上下文调制机制;HyCAM 则在 CAM 之上进一步引入共享与专用调制分支,并通过动态路由完成多任务知识融合。也正因为本章方法是对注意力表示流进行模块角色感知调制,因此其在全文方法体系中的定位可概括为:\emph{模块级异质性驱动的表示流适配}。这一点与下一章从表示维度和位置结构角度研究各向异性调制的方法形成自然递进。
|
||
|
||
\section{混合上下文注意力调制框架}
|
||
\label{sec:ch3_hycam}
|
||
|
||
\subsection{上下文注意力调制机制}
|
||
\label{subsec:ch3_cam_basic}
|
||
|
||
为实现式~\eqref{eq:ch3_mod_general} 所刻画的模块级调制形式,本章对调制信号生成函数 $\mathbf{S}_{\theta}^{mod}(\cdot)$ 进行具体参数化,构建上下文注意力调制机制(Contextual Attention Modulation, CAM)。该机制在每一层 Transformer 中基于归一化输入表示 $\bar{\mathbf{H}}^{(\ell)}$ 生成逐元素调制信号,并作用于自注意力输出 $\mathbf{H}_{att}^{(\ell)}$,从而实现对上下文相关信息的选择性增强与抑制。
|
||
|
||
设第 $\ell$ 层输入隐藏状态为 $\mathbf{H}^{(\ell)}$,则其归一化表示已经由式~\eqref{eq:ch3_norm} 给出。基于该表示,调制信号通过如下映射生成:
|
||
\begin{equation}
|
||
\mathbf{A}_{CAM}^{(\ell)}
|
||
=
|
||
\mathrm{SiLU}
|
||
\left(
|
||
\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{proj}^{(\ell)}
|
||
\right),
|
||
\label{eq:ch3_cam_weight}
|
||
\end{equation}
|
||
其中,
|
||
\begin{equation}
|
||
\mathbf{W}_{proj}^{(\ell)} \in \mathbb{R}^{d \times d}
|
||
\label{eq:ch3_cam_proj}
|
||
\end{equation}
|
||
为可训练投影矩阵,$\mathrm{SiLU}(\cdot)$~\cite{elfwing2018sigmoid} 为非线性激活函数。由此得到的 $\mathbf{A}_{CAM}^{(\ell)} \in \mathbb{R}^{T \times d}$ 为逐 token、逐维度的调制信号。随后,CAM 将其施加于注意力输出表示上,得到调制后的输出:
|
||
\begin{equation}
|
||
\tilde{\mathbf{H}}_{att}^{(\ell)}
|
||
=
|
||
\mathbf{H}_{att}^{(\ell)}
|
||
+
|
||
\mathbf{H}_{att}^{(\ell)} \odot \mathbf{A}_{CAM}^{(\ell)}.
|
||
\label{eq:ch3_cam_output}
|
||
\end{equation}
|
||
|
||
由式~\eqref{eq:ch3_cam_weight} 与式~\eqref{eq:ch3_cam_output} 可知,CAM 对自注意力输出施加输入依赖的逐元素门控,从而实现对表示流的残差式调制。该形式对应于式~\eqref{eq:ch3_mod_operator} 中调制算子的具体参数化实现,其中调制信号由 $\bar{\mathbf{H}}^{(\ell)}$ 动态生成,使模型能够针对不同输入样本自适应地改变上下文组织方式。
|
||
|
||
\subsection{初始化与训练稳定性设计}
|
||
\label{subsec:ch3_cam_init}
|
||
|
||
在微调初期,若新引入的调制模块对预训练模型产生过强干预,则容易破坏原有表示分布,导致训练不稳定甚至引发性能显著退化。为保证训练稳定性,CAM 采用零初始化策略,即将投影矩阵 $\mathbf{W}_{proj}^{(\ell)}$ 初始设为零矩阵:
|
||
\begin{equation}
|
||
\mathbf{W}_{proj}^{(\ell)} = \mathbf{0}.
|
||
\label{eq:ch3_zero_init}
|
||
\end{equation}
|
||
在该初始化下,由式~\eqref{eq:ch3_cam_weight} 可知,训练开始时
|
||
\begin{equation}
|
||
\mathbf{A}_{CAM}^{(\ell)} \approx \mathbf{0},
|
||
\label{eq:ch3_init_acam}
|
||
\end{equation}
|
||
从而式~\eqref{eq:ch3_cam_output} 退化为
|
||
\begin{equation}
|
||
\tilde{\mathbf{H}}_{att}^{(\ell)}
|
||
\approx
|
||
\mathbf{H}_{att}^{(\ell)}.
|
||
\label{eq:ch3_identity_start}
|
||
\end{equation}
|
||
这意味着 CAM 在训练初期近似保持恒等映射,不会改变预训练模型的原始行为,并在训练过程中逐步学习对表示流的有效调制,从而兼顾训练稳定性与知识保持能力。
|
||
|
||
在城市多任务场景中,这一设计尤为重要。由于不同任务共享同一预训练骨干模型,若某一任务在训练早期对模型施加过强更新,往往会对其他任务可用的通用知识造成损害。零初始化策略在一定程度上抑制了这种早期干扰,使不同任务的影响更多体现在对上下文组织方式的渐进式修正上,而非对模型知识底座的立即重写。
|
||
|
||
\subsection{共享与专用调制的协同设计}
|
||
\label{subsec:ch3_cam_to_hycam}
|
||
|
||
上述 CAM 机制对应于调制信号生成函数 $\mathbf{S}_{\theta}^{mod}$ 的单一参数化形式。为同时建模跨任务共享模式与任务特有模式,本章将该调制过程扩展为多分支结构,构建混合上下文注意力调制框架(Hybrid Contextual Attention Modulation, HyCAM)。在该框架下,调制信号由共享分支与多个专用分支共同生成,并通过动态路由机制进行组合。共享分支用于建模跨任务稳定存在的上下文调制模式,专用分支用于刻画任务相关或上下文相关的差异性调制结构。
|
||
|
||
HyCAM 的本质仍然遵循式~\eqref{eq:ch3_mod_residual} 的统一母式,只是将调制信号 $\mathbf{S}_{\theta}^{mod}$ 的生成方式从单一映射扩展为多分支组合生成。
|
||
|
||
\subsection{共享调制模块}
|
||
\label{subsec:ch3_shared_cam}
|
||
|
||
共享 CAM 模块用于建模跨任务共享的上下文调制模式,例如一般性的实体对齐模式、语义匹配结构、时间条件约束的基础表达以及城市语义理解中常见的共性线索。设第 $\ell$ 层共享 CAM 的投影矩阵为
|
||
\begin{equation}
|
||
\mathbf{W}_{sh}^{(\ell)} \in \mathbb{R}^{d \times d},
|
||
\label{eq:ch3_shared_proj}
|
||
\end{equation}
|
||
则共享调制信号定义为
|
||
\begin{equation}
|
||
\mathbf{A}_{sh}^{(\ell)}
|
||
=
|
||
\mathrm{SiLU}
|
||
\left(
|
||
\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{sh}^{(\ell)}
|
||
\right).
|
||
\label{eq:ch3_shared_cam}
|
||
\end{equation}
|
||
|
||
共享 CAM 模块采用全参数形式,其原因在于该分支承担的是跨任务共性模式的建模职责,需要具有相对充分的表达能力,以便在不同任务之间形成稳定共享的表示流调制基础。该分支在所有任务间共享参数,从而形成稳定的全局调制基准。
|
||
|
||
\subsection{专用调制模块}
|
||
\label{subsec:ch3_spec_cam}
|
||
|
||
与共享 CAM 相对,专用 CAM 模块旨在建模任务差异性更强的上下文调制模式。例如,不同城市任务可能对上下文依赖范围、关键线索类型与局部模式选择具有不同偏好:时空问答更注重实体关系和条件约束,城市事件生成更强调长程语义结构,代码或规则生成类任务则对符号化依赖更为敏感。因此,引入 $N_s$ 个专用调制模块以刻画不同潜在模式。
|
||
|
||
设专用 CAM 模块的个数为 $N_s$,第 $k$ 个专用模块在第 $\ell$ 层的调制信号定义为
|
||
\begin{equation}
|
||
\mathbf{A}_{sp,k}^{(\ell)}
|
||
=
|
||
\mathrm{SiLU}
|
||
\left(
|
||
\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{sp,k}^{(\ell)}
|
||
\right),
|
||
\quad
|
||
k = 1,\dots,N_s.
|
||
\label{eq:ch3_spec_cam}
|
||
\end{equation}
|
||
其中,$\mathbf{W}_{sp,k}^{(\ell)}$ 采用带中间映射矩阵的低秩参数化形式~\cite{guo2025nlora},以在保持表达能力的同时降低参数量:
|
||
\begin{equation}
|
||
\mathbf{W}_{sp,k}^{(\ell)}
|
||
=
|
||
\mathbf{B}_{k}^{(\ell)}
|
||
\mathbf{N}_{k}^{(\ell)}
|
||
\mathbf{A}_{k}^{(\ell)},
|
||
\label{eq:ch3_slora}
|
||
\end{equation}
|
||
其中
|
||
\begin{equation}
|
||
\mathbf{A}_{k}^{(\ell)} \in \mathbb{R}^{r \times d},
|
||
\quad
|
||
\mathbf{N}_{k}^{(\ell)} \in \mathbb{R}^{r \times r},
|
||
\quad
|
||
\mathbf{B}_{k}^{(\ell)} \in \mathbb{R}^{d \times r},
|
||
\label{eq:ch3_slora_shape}
|
||
\end{equation}
|
||
且 $r \ll d$。这种结构相较于标准 LoRA 的两矩阵分解引入额外的低维变换 $\mathbf{N}_{k}^{(\ell)}$,从而在较小参数预算下提升专用模块的表示灵活性。
|
||
|
||
为保证训练初期的稳定性,专用模块同样采用保守初始化策略。具体而言,$\mathbf{A}_{k}^{(\ell)}$ 与 $\mathbf{N}_{k}^{(\ell)}$ 可采用 Kaiming 初始化~\cite{he2015delving},而 $\mathbf{B}_{k}^{(\ell)}$ 采用零初始化:
|
||
\begin{equation}
|
||
\mathbf{B}_{k}^{(\ell)} = \mathbf{0}.
|
||
\label{eq:ch3_spec_zero}
|
||
\end{equation}
|
||
因此在训练初期,专用模块近似不对骨干模型产生显著影响,并在训练过程中逐步形成各自的专门化调制方向。
|
||
|
||
\section{动态路由与协同训练机制}
|
||
\label{sec:ch3_routing}
|
||
|
||
\subsection{动态路由的设计动机}
|
||
\label{subsec:ch3_routing_motivation}
|
||
|
||
在 HyCAM 中,共享 CAM 提供跨任务的公共调制基础,而多个专用 CAM 则提供潜在的任务特化能力。然而,仅有多个专用分支并不足以自动形成有效的多任务协同。其根本原因在于:不同输入样本所对应的任务结构、上下文模式和难点位置并不相同,因此各专用分支对不同样本的重要性也必然不同。若简单地平均融合所有专用 CAM,则模型难以形成明确的功能分工;若为每个任务静态绑定固定专家,又会削弱对任务内部异质性与输入级细粒度差异的适应能力。
|
||
|
||
城市多任务时空场景尤其需要动态路由。即便同属于“城市问答”任务,不同样本也可能分别强调空间邻近关系、时间顺序关系、设施属性关系或常识推断关系。静态分配无法充分表达这种输入级差异。因此,HyCAM 引入基于输入上下文的软路由机制,对专用 CAM 的贡献进行逐 token 或逐样本的动态加权,从而实现更细粒度的知识调用。
|
||
|
||
\subsection{基于输入上下文的路由权重生成}
|
||
\label{subsec:ch3_router_weight}
|
||
|
||
设第 $\ell$ 层的路由器参数为
|
||
\begin{equation}
|
||
\mathbf{W}_{router}^{(\ell)} \in \mathbb{R}^{d \times N_s},
|
||
\label{eq:ch3_router_param}
|
||
\end{equation}
|
||
则根据归一化后的输入表示 $\bar{\mathbf{H}}^{(\ell)}$,可生成第 $\ell$ 层的路由 logits:
|
||
\begin{equation}
|
||
\mathbf{\Pi}^{(\ell)}
|
||
=
|
||
\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{router}^{(\ell)},
|
||
\label{eq:ch3_router_logits}
|
||
\end{equation}
|
||
其中 $\mathbf{\Pi}^{(\ell)} \in \mathbb{R}^{T \times N_s}$,其第 $t$ 个 token 对应的第 $k$ 个专家 logit 记为 $\pi_{t,k}^{(\ell)}$。为了在保持可微性的同时鼓励离散化选择,本章采用 Gumbel-Softmax~\cite{jang2016categorical} 机制生成软路由权重:
|
||
\begin{equation}
|
||
p_{t,k}^{(\ell)}
|
||
=
|
||
\frac{
|
||
\exp\left(
|
||
(\log \pi_{t,k}^{(\ell)} + g_{t,k}^{(\ell)}) / \tau
|
||
\right)
|
||
}{
|
||
\sum_{j=1}^{N_s}
|
||
\exp\left(
|
||
(\log \pi_{t,j}^{(\ell)} + g_{t,j}^{(\ell)}) / \tau
|
||
\right)
|
||
},
|
||
\label{eq:ch3_gumbel}
|
||
\end{equation}
|
||
其中 $g_{t,k}^{(\ell)} \sim \mathrm{Gumbel}(0,1)$ 为 Gumbel 噪声,$\tau$ 为温度系数。温度较小时,权重分布更尖锐,更接近离散专家选择;温度较大时,分布更平滑,有利于训练早期稳定探索。
|
||
|
||
式~\eqref{eq:ch3_gumbel} 使得 HyCAM 可以根据输入上下文对专用模块进行自适应加权。进一步地,这种路由不是直接作用于模型最终输出,而是作用于注意力调制信号的融合,因此其本质是在输入依赖条件下\emph{动态选择不同的上下文组织方式},而不是简单切换不同解码器或任务头。这也是 HyCAM 能够兼顾统一骨干建模与多任务灵活适配的重要原因。
|
||
|
||
\subsection{共享与专用调制信号的融合}
|
||
\label{subsec:ch3_fusion}
|
||
|
||
在获得共享 CAM 与专用 CAM 的调制信号之后,HyCAM 将其进行融合,形成最终的模块级调制张量。第 $\ell$ 层的融合调制信号定义为
|
||
\begin{equation}
|
||
\mathbf{A}_{fusion}^{(\ell)}
|
||
=
|
||
\mathbf{A}_{sh}^{(\ell)}
|
||
+
|
||
\sum_{k=1}^{N_s}
|
||
\mathbf{P}_{k}^{(\ell)} \odot \mathbf{A}_{sp,k}^{(\ell)},
|
||
\label{eq:ch3_fusion}
|
||
\end{equation}
|
||
其中 $\mathbf{P}_{k}^{(\ell)}$ 表示第 $k$ 个专用 CAM 的广播路由权重张量,其由式~\eqref{eq:ch3_gumbel} 生成的 $p_{t,k}^{(\ell)}$ 按维度扩展得到,以便与 $\mathbf{A}_{sp,k}^{(\ell)} \in \mathbb{R}^{T \times d}$ 做逐元素乘积。由此,第 $\ell$ 层经 HyCAM 调制后的注意力输出表示为
|
||
\begin{equation}
|
||
\tilde{\mathbf{H}}_{att}^{(\ell)}
|
||
=
|
||
\mathbf{H}_{att}^{(\ell)}
|
||
+
|
||
\mathbf{H}_{att}^{(\ell)} \odot \mathbf{A}_{fusion}^{(\ell)}.
|
||
\label{eq:ch3_hycam_output}
|
||
\end{equation}
|
||
|
||
式~\eqref{eq:ch3_fusion} 与式~\eqref{eq:ch3_hycam_output} 说明,HyCAM 的本质并不是对注意力层进行替代,而是在原始自注意力输出之上叠加一个由共享规律与专门化规律共同构成的动态调制残差。这种设计既保留了预训练模型原有的上下文建模能力,也为不同任务、不同输入模式引入了额外的适应自由度。
|
||
|
||
\subsection{负载均衡约束与专家协同}
|
||
\label{subsec:ch3_balance}
|
||
|
||
在多专家结构中,若缺乏额外约束,路由器往往会偏向少数几个容易获得较高回报的专用模块,从而导致专家利用不均、训练效率下降和专用结构退化。为缓解这一问题,HyCAM 在训练中引入负载均衡损失,对各专用模块的使用分布施加约束。
|
||
|
||
设一个 batch 内共有 $B$ 个路由单元(可对应于 token 数或聚合后的样本数),则第 $k$ 个专用模块的平均软选择概率与平均标准 softmax 概率分别可统计为
|
||
\begin{equation}
|
||
\bar{p}_{k}
|
||
=
|
||
\frac{1}{B}
|
||
\sum_{b=1}^{B}
|
||
p_{b,k},
|
||
\qquad
|
||
\bar{s}_{k}
|
||
=
|
||
\frac{1}{B}
|
||
\sum_{b=1}^{B}
|
||
\mathrm{softmax}(\mathbf{\Pi}_{b})_{k}.
|
||
\label{eq:ch3_balance_avg}
|
||
\end{equation}
|
||
在此基础上,负载均衡损失定义为
|
||
\begin{equation}
|
||
\mathcal{L}_{balance}
|
||
=
|
||
\sum_{k=1}^{N_s}
|
||
\bar{p}_{k}\,\bar{s}_{k}.
|
||
\label{eq:ch3_balance}
|
||
\end{equation}
|
||
|
||
该损失鼓励不同专用模块都能够在训练中获得一定程度的激活,从而避免少数模块垄断路由结果。对于城市多任务时空建模,这一约束具有重要意义:由于不同任务及其内部子模式具有复杂异质性,若专用模块过早塌缩为少量活跃分支,则模型将难以真正学习到多样化的调制行为,进而削弱 HyCAM 在多任务场景下的特化能力。
|
||
|
||
\subsection{训练目标}
|
||
\label{subsec:ch3_training_obj}
|
||
|
||
本章方法在训练时保持骨干模型主体冻结,仅更新 HyCAM 相关的适配参数 $\Theta_a$,包括共享 CAM、专用 CAM 以及动态路由器。对于自回归生成式任务,给定输入输出对 $(\mathbf{X}_i,\mathbf{Y}_i)$,其任务损失可写为
|
||
\begin{equation}
|
||
\mathcal{L}_{task}
|
||
=
|
||
-
|
||
\sum_{i=1}^{|\mathcal{D}_b|}
|
||
\sum_{t=1}^{|\mathbf{Y}_i|}
|
||
\log
|
||
P
|
||
\left(
|
||
y_{i,t}
|
||
\mid
|
||
\mathbf{X}_i,\mathbf{Y}_{i,<t};
|
||
\Theta_0,\Theta_a
|
||
\right),
|
||
\label{eq:ch3_task_loss}
|
||
\end{equation}
|
||
其中 $\mathcal{D}_b$ 表示一个训练 batch。进一步地,将式~\eqref{eq:ch3_balance} 的负载均衡损失纳入整体目标,得到最终优化目标:
|
||
\begin{equation}
|
||
\mathcal{L}_{total}
|
||
=
|
||
\mathcal{L}_{task}
|
||
+
|
||
\lambda_{balance}\mathcal{L}_{balance},
|
||
\label{eq:ch3_total_loss}
|
||
\end{equation}
|
||
其中 $\lambda_{balance}$ 为平衡系数。
|
||
|
||
式~\eqref{eq:ch3_total_loss} 表明,本章方法优化的并不仅仅是任务性能本身,还包括多专用模块的合理协同使用。前者保证模型能够有效适配城市多任务目标,后者保证模型能够形成更稳定、更多样化的专门化上下文调制结构。二者共同构成 HyCAM 的训练基础。
|
||
|
||
算法~\ref{alg:ch3_hycam} 给出了 HyCAM 的完整训练流程。
|
||
|
||
\RestyleAlgo{ruled}
|
||
\begin{algorithm}[htp]
|
||
\caption{HyCAM 多任务训练算法}
|
||
\label{alg:ch3_hycam}
|
||
\KwIn{预训练大语言模型参数 $\Theta_0$,多任务训练集 $\mathcal{D}$,专用模块数 $N_s$,Gumbel-Softmax 温度 $\tau$,负载均衡系数 $\lambda_{balance}$,学习率 $\eta$}
|
||
冻结骨干模型参数 $\Theta_0$\;
|
||
初始化共享 CAM 投影矩阵 $\mathbf{W}_{sh}^{(\ell)} \leftarrow \mathbf{0}$,$\forall \ell$\;
|
||
初始化专用 CAM 模块:$\mathbf{A}_{k}^{(\ell)}, \mathbf{N}_{k}^{(\ell)}$ 采用 Kaiming 初始化,$\mathbf{B}_{k}^{(\ell)} \leftarrow \mathbf{0}$,$\forall k, \ell$\;
|
||
初始化路由器参数 $\mathbf{W}_{router}^{(\ell)}$,$\forall \ell$\;
|
||
\For{每个训练步}{
|
||
从 $\mathcal{D}$ 中采样一个批次 $\mathcal{D}_b$\;
|
||
\For{每一层 $\ell = 1, \dots, L$}{
|
||
计算归一化表示 $\bar{\mathbf{H}}^{(\ell)} = \mathrm{LayerNorm}(\mathbf{H}^{(\ell)})$\;
|
||
计算自注意力输出 $\mathbf{H}_{att}^{(\ell)} = \mathrm{SelfAttn}(\bar{\mathbf{H}}^{(\ell)})$\;
|
||
生成共享调制信号 $\mathbf{A}_{sh}^{(\ell)} = \mathrm{SiLU}(\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{sh}^{(\ell)})$(式~\ref{eq:ch3_shared_cam})\;
|
||
\For{$k = 1, \dots, N_s$}{
|
||
生成专用调制信号 $\mathbf{A}_{sp,k}^{(\ell)} = \mathrm{SiLU}(\bar{\mathbf{H}}^{(\ell)} \mathbf{B}_{k}^{(\ell)} \mathbf{N}_{k}^{(\ell)} \mathbf{A}_{k}^{(\ell)})$(式~\ref{eq:ch3_spec_cam})\;
|
||
}
|
||
计算路由权重 $p_{t,k}^{(\ell)}$ 通过 Gumbel-Softmax(式~\ref{eq:ch3_gumbel})\;
|
||
融合调制信号 $\mathbf{A}_{fusion}^{(\ell)} = \mathbf{A}_{sh}^{(\ell)} + \sum_{k} \mathbf{P}_{k}^{(\ell)} \odot \mathbf{A}_{sp,k}^{(\ell)}$(式~\ref{eq:ch3_fusion})\;
|
||
输出 $\tilde{\mathbf{H}}_{att}^{(\ell)} = \mathbf{H}_{att}^{(\ell)} + \mathbf{H}_{att}^{(\ell)} \odot \mathbf{A}_{fusion}^{(\ell)}$(式~\ref{eq:ch3_hycam_output})\;
|
||
}
|
||
计算任务损失 $\mathcal{L}_{task}$(式~\ref{eq:ch3_task_loss})与负载均衡损失 $\mathcal{L}_{balance}$(式~\ref{eq:ch3_balance})\;
|
||
计算总损失 $\mathcal{L}_{total} = \mathcal{L}_{task} + \lambda_{balance} \mathcal{L}_{balance}$\;
|
||
更新适配参数 $\Theta_a \leftarrow \Theta_a - \eta \nabla_{\Theta_a} \mathcal{L}_{total}$\;
|
||
}
|
||
\end{algorithm}
|
||
|
||
|
||
\section{实验设计与结果分析}
|
||
\label{sec:ch3_experiments}
|
||
|
||
\subsection{实验设置}
|
||
\label{subsec:ch3_exp_setup}
|
||
|
||
为验证本章提出的模块角色感知多任务时空表征学习方法的有效性,本节围绕以下几个研究问题展开实验分析:
|
||
|
||
\begin{enumerate}
|
||
\item HyCAM 相比全参数微调和现有参数高效微调方法,是否能够在多任务联合适配中取得更好的整体性能?
|
||
\item HyCAM 的优势是否能够在不同规模、不同系列的大语言模型骨干上保持稳定?
|
||
\item HyCAM 在不同任务类型之间是否具有更均衡的适配能力,能否有效缓解多任务干扰?
|
||
\item 共享 CAM、专用 CAM 以及动态路由等关键设计分别起到了什么作用?
|
||
\item HyCAM 对注意力表示空间与训练过程带来了怎样的可解释变化?
|
||
\end{enumerate}
|
||
|
||
需要说明的是,由于 HyCAM 原始论文发表于通用多任务学习场景,其公开实验主要基于逻辑推理、医疗问答、通用指令跟随、代码生成与信息检索问答等任务构建的综合基准。因此,本节首先将这些实验作为\emph{通用多任务有效性验证},用于说明模块角色感知调制在复杂多任务场景中的一般性作用。与此同时,考虑到本文整体主题为时空表征学习,本节最后补充面向城市多任务时空任务的小规模验证实验,以增强章节与全文主线的一致性。
|
||
|
||
\subsubsection{数据集}
|
||
|
||
原始实验构建了一个五任务综合基准,涵盖逻辑推理(Auto CoT)、医疗问答(iCliniq)、通用指令跟随(Dolly 2.0)、代码生成(CodeAlpaca)和信息检索问答(WebGPT)等任务。尽管这些任务并非时空任务本身,但它们在任务形式、输出长度、知识需求与推理模式上具有较强异质性,能够较好模拟城市多任务场景中“多目标并存、共享知识与任务特化并存”的一般挑战。因此,本文将其视为验证 HyCAM 模块级调制能力的通用多任务基准。
|
||
|
||
具体数据统计可整理如表~\ref{tab:ch3_dataset_stat} 所示。训练、验证与测试采用 $7:2:1$ 划分,并进行五折交叉验证以增强结果稳定性。实验骨干模型覆盖多个主流开源大语言模型系列,包括 Llama、Mistral 与 Qwen 家族,从而考察方法的跨模型泛化性。
|
||
|
||
\begin{table*}[ht]
|
||
\centering
|
||
\caption{多任务基准数据统计。}
|
||
\label{tab:ch3_dataset_stat}
|
||
\resizebox{0.88\linewidth}{!}{
|
||
\begin{tabular}{lccccc}
|
||
\toprule
|
||
数据集 & 样本数 & 总 Token 数 & 平均 Token 数 & 任务属性 & 数据来源 \\
|
||
\midrule
|
||
Auto CoT & 5,816 & 943,474 & 162.22 & 推理与复杂逻辑 & \cite{zhang2023automatic} \\
|
||
iCliniq & 7,321 & 1,826,306 & 249.46 & 医疗问答 & \cite{li2023chatdoctor} \\
|
||
Dolly 2.0 & 15,015 & 3,061,007 & 203.86 & 通用指令与问答 & \cite{DatabricksBlog2023DollyV2} \\
|
||
CodeAlpaca & 20,222 & 2,195,523 & 109.66 & 代码生成 & \cite{codealpaca} \\
|
||
WebGPT & 18,994 & 13,988,895 & 736.49 & 检索增强问答 & \cite{nakano2021webgpt} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table*}
|
||
|
||
\subsubsection{基线方法}
|
||
|
||
基线方法包括全参数微调(Full Fine-Tuning)、LoRA、Multi-LoRA 以及 RieMoE-LoRA。具体而言:
|
||
|
||
\begin{itemize}
|
||
\item \textbf{全参数微调(Full Fine-Tuning)}:对骨干大语言模型的全部参数进行更新,用以反映充分调参时的性能上界与知识遗忘代价。尽管全参数微调在单任务场景中往往能取得较好效果,但在多任务联合训练中容易因任务间梯度冲突导致部分任务退化。
|
||
\item \textbf{LoRA}:经典参数高效微调方法,通过在目标权重矩阵旁引入低秩分解 $\Delta W = BA$ 实现轻量适配。LoRA 以统一的低秩结构应对所有任务,在参数效率方面表现优异,但其固定秩设计在面对高度异质的多任务场景时可能受限于表达能力。
|
||
\item \textbf{Multi-LoRA}:在标准 LoRA 基础上为不同任务设置多组并行适配器,允许各任务独立学习低秩增量。该方法虽然在任务独立性上有所增强,但缺乏显式的跨任务知识共享机制,且在多任务混合训练中可能导致参数冗余。
|
||
\item \textbf{RieMoE-LoRA}:将黎曼梯度缩放与混合专家 LoRA 结构相结合,通过梯度几何空间的正则化来增强多专家训练的稳定性与收敛性。该方法代表了当前 MoE 风格 PEFT 的先进思路,但可能面临专家利用不均的挑战。
|
||
\end{itemize}
|
||
|
||
评价指标采用困惑度(PPL)、BLEU-4 与 ROUGE-L 三类指标,以综合衡量模型在不同任务上的生成质量与内容匹配程度。其中,PPL 反映模型生成的流畅性与语言建模质量,数值越低越优;BLEU-4 衡量生成文本与参考文本之间的 n-gram 重叠程度,尤其适用于代码生成等结构化输出任务;ROUGE-L 基于最长公共子序列衡量语义覆盖程度,适用于摘要生成与长文本问答等任务。
|
||
|
||
\subsubsection{实现细节}
|
||
\label{subsubsec:ch3_impl_details}
|
||
|
||
所有实验基于 PyTorch 框架实现,训练过程采用 DeepSpeed 分布式加速框架,并启用 BFloat16 混合精度训练以提升显存利用效率。对于所有 LoRA 类方法,低秩维度 $r$ 统一设置为 64,适配模块作用于大语言模型的所有线性层。对于 HyCAM 及其他多专家方法,专用模块数量 $N_s$ 设置为 5。输入序列最大长度设置为 1200 个 token,以适应长文本任务(如 WebGPT)的需求。
|
||
|
||
HyCAM 特有的超参数设置如下:Gumbel-Softmax 温度系数 $\tau$ 设置为 0.5,负载均衡损失系数 $\lambda_{balance}$ 设置为 0.1。所有方法统一采用 AdamW 优化器,学习率设置为 $2 \times 10^{-5}$,并采用余弦退火(Cosine Annealing)学习率调度策略。为防止过拟合,训练过程中引入基于验证集损失的早停机制。具体实现细节汇总于表~\ref{tab:ch3_impl_details}。
|
||
|
||
\begin{table}[h]
|
||
\centering
|
||
\caption{HyCAM 实验实现细节汇总。}
|
||
\label{tab:ch3_impl_details}
|
||
\resizebox{0.6\linewidth}{!}{
|
||
\begin{tabular}{ll}
|
||
\toprule
|
||
配置项 & 设置 \\
|
||
\midrule
|
||
训练框架 & PyTorch + DeepSpeed \\
|
||
精度模式 & BFloat16 混合精度 \\
|
||
优化器 & AdamW \\
|
||
学习率 & $2 \times 10^{-5}$ \\
|
||
学习率调度 & 余弦退火 \\
|
||
LoRA 秩 $r$ & 64 \\
|
||
专用模块数 $N_s$ & 5 \\
|
||
最大序列长度 & 1200 \\
|
||
Gumbel-Softmax $\tau$ & 0.5 \\
|
||
负载均衡系数 $\lambda_{balance}$ & 0.1 \\
|
||
数据划分 & 7:2:1(训练:验证:测试) \\
|
||
评估方式 & 五折交叉验证 \\
|
||
早停策略 & 基于验证集损失 \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
\subsection{实验结果与分析}
|
||
\label{subsec:ch3_main_results}
|
||
|
||
\subsubsection{总体性能比较}
|
||
|
||
表~\ref{tab:ch3_overall_main} 给出了 HyCAM 与各基线方法在不同骨干模型上的总体结果。可以看出,HyCAM 在多数设置下均取得了最优结果,且相对最强基线呈现出稳定优势,平均相对提升约 3.65\%(双侧 $t$ 检验,$p < 0.05$)。这说明,在复杂多任务场景下,通过模块角色感知的方式对自注意力表示流进行定向调制,确实能够比传统低秩更新更有效地兼顾知识保持与任务特化。
|
||
|
||
\begin{table}[h]
|
||
\centering
|
||
\caption{不同骨干模型上的总体实验结果。}
|
||
\label{tab:ch3_overall_main}
|
||
\resizebox{0.62\linewidth}{!}{
|
||
\begin{tabular}{llccc}
|
||
\toprule
|
||
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
|
||
\midrule
|
||
\multirow{5}{*}{Llama 2 7B}
|
||
& Full Finetune & 3.193 & \underline{0.171} & 0.231 \\
|
||
& LoRA & 3.222 & 0.157 & 0.225 \\
|
||
& Multi LoRA & 3.287 & 0.121 & 0.217 \\
|
||
& RieMoE-LoRA & \underline{3.171} & 0.154 & \underline{0.232} \\
|
||
& HyCAM & \textbf{3.081} & \textbf{0.173} & \textbf{0.244} \\
|
||
\midrule
|
||
\multirow{5}{*}{Llama 3 8B}
|
||
& Full Finetune & 3.978 & 0.151 & 0.203 \\
|
||
& LoRA & 3.556 & 0.148 & 0.240 \\
|
||
& Multi LoRA & 3.547 & 0.157 & 0.236 \\
|
||
& RieMoE-LoRA & \underline{3.497} & \underline{0.159} & \underline{0.242} \\
|
||
& HyCAM & \textbf{3.484} & \textbf{0.162} & \textbf{0.245} \\
|
||
\midrule
|
||
\multirow{5}{*}{Llama 3.1 8B}
|
||
& Full Finetune & 3.873 & 0.153 & 0.205 \\
|
||
& LoRA & 3.537 & 0.156 & 0.237 \\
|
||
& Multi LoRA & 3.653 & 0.134 & 0.235 \\
|
||
& RieMoE-LoRA & \underline{3.487} & \underline{0.161} & \underline{0.238} \\
|
||
& HyCAM & \textbf{3.453} & \textbf{0.172} & \textbf{0.251} \\
|
||
\midrule
|
||
\multirow{5}{*}{Mistral 7B}
|
||
& Full Finetune & 4.403 & 0.157 & 0.192 \\
|
||
& LoRA & \underline{3.418} & \underline{0.163} & \underline{0.244} \\
|
||
& Multi LoRA & 3.461 & 0.141 & 0.225 \\
|
||
& RieMoE-LoRA & 3.597 & 0.143 & 0.240 \\
|
||
& HyCAM & \textbf{3.299} & \textbf{0.171} & \textbf{0.249} \\
|
||
\midrule
|
||
\multirow{5}{*}{Qwen 2.5 7B}
|
||
& Full Finetune & 3.024 & \underline{0.169} & 0.225 \\
|
||
& LoRA & 2.840 & 0.137 & \underline{0.239} \\
|
||
& Multi LoRA & 3.069 & 0.136 & 0.222 \\
|
||
& RieMoE-LoRA & \underline{2.830} & 0.157 & 0.227 \\
|
||
& HyCAM & \textbf{2.757} & \textbf{0.172} & \textbf{0.248} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
这一结果可从三个层面理解。第一,相较于全参数微调,HyCAM 在仅引入少量适配参数的前提下取得了更优或相当的性能,表明其并不依赖对整个模型进行重写,而是通过更有效的上下文调制获得收益。第二,相较于 LoRA,HyCAM 的优势说明单纯依赖低秩参数增量并不足以充分应对复杂多任务场景中的结构差异,而围绕自注意力表示流构造输入条件化调制可以更直接地提升任务适配能力。第三,相较于 Multi-LoRA 与 RieMoE-LoRA,HyCAM 的优势说明“共享 + 专用 + 动态路由”的混合设计比单纯并行适配或一般专家融合更适合多任务协同建模。
|
||
|
||
对于本文的城市多任务时空建模主题而言,这一结论具有直接启发意义:面对多种城市任务同时建模时,模型的关键改进方向未必是持续扩大参数更新规模,而更可能是增强其对时空上下文进行任务感知组织的能力。本章实验虽然基于通用多任务集合,但其所验证的正是这种\emph{模块级结构调制}的普适有效性。
|
||
|
||
|
||
\begin{table}[ht]
|
||
\centering
|
||
\caption{Qwen2.5 系列不同规模下的可扩展性实验结果。最优结果加粗,次优结果加下划线。}
|
||
\label{tab:ch3_qwen_scale}
|
||
\resizebox{0.42\linewidth}{!}{
|
||
\begin{tabular}{llccc}
|
||
\toprule
|
||
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
|
||
\midrule
|
||
\multirow{5}{*}{Qwen 2.5 0.5B}
|
||
& Full Finetune & 3.778 & \underline{0.159} & 0.219 \\
|
||
& LoRA & 3.764 & 0.145 & 0.222 \\
|
||
& Multi LoRA & 3.754 & 0.144 & 0.221 \\
|
||
& RieMoE-LoRA & \underline{3.621} & 0.152 & \underline{0.232} \\
|
||
& HyCAM & \textbf{3.611} & \textbf{0.169} & \textbf{0.262} \\
|
||
\midrule
|
||
\multirow{5}{*}{Qwen 2.5 1.5B}
|
||
& Full Finetune & \textbf{3.102} & \textbf{0.169} & \underline{0.235} \\
|
||
& LoRA & 3.344 & 0.138 & 0.229 \\
|
||
& Multi LoRA & 3.330 & 0.148 & 0.226 \\
|
||
& RieMoE-LoRA & 3.180 & 0.148 & 0.230 \\
|
||
& HyCAM & \underline{3.108} & \underline{0.167} & \textbf{0.236} \\
|
||
\midrule
|
||
\multirow{5}{*}{Qwen 2.5 3B}
|
||
& Full Finetune & \underline{2.982} & \underline{0.161} & 0.222 \\
|
||
& LoRA & 3.106 & 0.144 & 0.230 \\
|
||
& Multi LoRA & 3.053 & 0.157 & 0.225 \\
|
||
& RieMoE-LoRA & 3.001 & 0.148 & \underline{0.238} \\
|
||
& HyCAM & \textbf{2.940} & \textbf{0.165} & \textbf{0.249} \\
|
||
\midrule
|
||
\multirow{5}{*}{Qwen 2.5 7B}
|
||
& Full Finetune & 3.024 & \underline{0.169} & 0.225 \\
|
||
& LoRA & 2.840 & 0.137 & \underline{0.239} \\
|
||
& Multi LoRA & 3.069 & 0.136 & 0.222 \\
|
||
& RieMoE-LoRA & \underline{2.830} & 0.157 & 0.227 \\
|
||
& HyCAM & \textbf{2.757} & \textbf{0.172} & \textbf{0.248} \\
|
||
\midrule
|
||
\multirow{5}{*}{Qwen 2.5 14B}
|
||
& Full Finetune & 2.839 & \textbf{0.176} & 0.214 \\
|
||
& LoRA & 2.889 & 0.147 & \underline{0.238} \\
|
||
& Multi LoRA & 2.882 & 0.152 & 0.235 \\
|
||
& RieMoE-LoRA & \underline{2.792} & 0.142 & \underline{0.238} \\
|
||
& HyCAM & \textbf{2.682} & \underline{0.160} & \textbf{0.242} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
\subsubsection{不同模型规模下的可扩展性分析}
|
||
|
||
为了进一步考察 HyCAM 在不同参数规模模型中的适用性,原始实验还在 Qwen2.5 与 Llama3.2 系列上进行了跨规模验证。结果如表~\ref{tab:ch3_qwen_scale} 与表~\ref{tab:ch3_llama_scale} 所示。总体来看,HyCAM 在从小模型到中大模型的多个规模区间内均表现出稳定优势,且在不少较大模型上其优势更为明显。
|
||
|
||
\begin{table}[h]
|
||
\centering
|
||
\caption{Llama3.2 系列不同规模下的可扩展性实验结果。最优结果加粗,次优结果加下划线。}
|
||
\label{tab:ch3_llama_scale}
|
||
\resizebox{0.42\linewidth}{!}{
|
||
\begin{tabular}{llccc}
|
||
\toprule
|
||
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
|
||
\midrule
|
||
\multirow{5}{*}{Llama 3.2 1B}
|
||
& Full Finetune & \textbf{4.221} & \textbf{0.164} & 0.221 \\
|
||
& LoRA & 4.515 & 0.144 & 0.227 \\
|
||
& Multi LoRA & 4.533 & 0.143 & 0.225 \\
|
||
& RieMoE-LoRA & 4.324 & 0.161 & \underline{0.241} \\
|
||
& HyCAM & \underline{4.227} & \underline{0.163} & \textbf{0.244} \\
|
||
\midrule
|
||
\multirow{5}{*}{Llama 3.2 3B}
|
||
& Full Finetune & \textbf{3.747} & \underline{0.159} & 0.220 \\
|
||
& LoRA & 3.824 & 0.144 & \underline{0.234} \\
|
||
& Multi LoRA & 3.876 & 0.149 & 0.232 \\
|
||
& RieMoE-LoRA & 3.806 & 0.154 & 0.233 \\
|
||
& HyCAM & \underline{3.778} & \textbf{0.167} & \textbf{0.243} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
这一现象说明,HyCAM 的收益并非依赖某个特定模型家族,而是与其核心建模机制有关。随着模型规模增大,预训练模型往往具备更丰富的知识储备与更复杂的表示空间,此时若仍采用简单统一的低秩更新,可能难以充分利用大模型内部潜在的功能结构;而 HyCAM 通过面向注意力表示流的调制,为大模型提供了更灵活的任务特化路径,因此更容易发挥其潜在能力。
|
||
|
||
进一步分析不同规模区间的实验结果,可以观察到以下趋势。在 Qwen2.5 系列中,当模型规模从 0.5B 增加至 14B 时,HyCAM 相对于 LoRA 在 PPL 上的绝对改进幅度从 0.153(0.5B)增大至 0.207(14B),ROUGE 的改进幅度则从 0.040 增大至 0.004。这一非对称增长模式表明,HyCAM 在不同指标上的增益机制可能有所不同:在语言建模质量(PPL)方面,随着模型规模增大,HyCAM 的调制能够更充分地发挥预训练知识的潜力;而在输出文本匹配(ROUGE)方面,大模型本身的基准已经较高,因此边际改进空间有所收窄。
|
||
|
||
在 Llama3.2 小规模系列中,值得注意的是全参数微调在 1B 模型上仍然是最强方法。这与小模型的知识容量有限、需要更大幅度的参数更新来适配新任务的特点有关。然而,即使在这一不利条件下,HyCAM 仍然取得了接近全参数微调的性能(PPL 4.227 vs 4.221),且显著优于所有其他 PEFT 基线。随着模型规模增加至 3B,HyCAM 即超越全参数微调(PPL 3.778 vs 3.747 稍有差距,但 BLEU 0.167 vs 0.159 显著领先)。这进一步支持了本章的核心假设:当模型具有足够的预训练知识储备时,结构感知的调制式适配比全面重写参数的方式更为有效。
|
||
|
||
对于城市时空任务而言,这意味着随着未来更大规模城市基础模型的出现,类似 HyCAM 的模块级结构感知适配方式仍具有较强适用前景。
|
||
|
||
\subsubsection{跨任务性能分析}
|
||
|
||
为了分析 HyCAM 是否仅在个别任务上获益,还是在整体上具有更均衡的多任务适配能力,表~\ref{tab:ch3_cross_task} 给出了基于 Llama2-7B 的跨任务细粒度结果。从结果可见,HyCAM 在多数任务上均取得了较优表现,尤其在 Auto CoT、CodeAlpaca 和 WebGPT 等任务上优势较明显。这表明,HyCAM 不是通过牺牲部分任务来换取整体平均性能提升,而是能够在较大程度上缓解多任务训练中的任务干扰问题。
|
||
|
||
\begin{table}[h]
|
||
\centering
|
||
\caption{不同任务上的细粒度结果分析(骨干模型:Llama2-7B)。最优结果加粗,次优结果加下划线。}
|
||
\label{tab:ch3_cross_task}
|
||
\resizebox{0.42\linewidth}{!}{
|
||
\begin{tabular}{llccc}
|
||
\toprule
|
||
任务 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
|
||
\midrule
|
||
\multirow{5}{*}{Auto CoT}
|
||
& Full Finetune & 1.842 & \underline{0.282} & 0.287 \\
|
||
& LoRA & 1.843 & 0.268 & 0.291 \\
|
||
& Multi LoRA & 1.952 & 0.198 & 0.290 \\
|
||
& RieMoE-LoRA & \underline{1.813} & 0.275 & \textbf{0.298} \\
|
||
& HyCAM & \textbf{1.777} & \textbf{0.283} & \underline{0.297} \\
|
||
\midrule
|
||
\multirow{5}{*}{iCliniq}
|
||
& Full Finetune & \textbf{7.497} & \textbf{0.053} & 0.123 \\
|
||
& LoRA & 8.140 & 0.049 & \underline{0.124} \\
|
||
& Multi LoRA & 8.846 & 0.037 & 0.122 \\
|
||
& RieMoE-LoRA & 8.001 & 0.051 & 0.123 \\
|
||
& HyCAM & \underline{7.546} & \textbf{0.053} & \textbf{0.125} \\
|
||
\midrule
|
||
\multirow{5}{*}{Dolly 2.0}
|
||
& Full Finetune & 6.461 & 0.088 & \textbf{0.200} \\
|
||
& LoRA & 6.029 & 0.070 & 0.181 \\
|
||
& Multi LoRA & \textbf{5.743} & 0.101 & 0.177 \\
|
||
& RieMoE-LoRA & 5.954 & \textbf{0.106} & 0.183 \\
|
||
& HyCAM & \underline{5.893} & \underline{0.093} & \underline{0.194} \\
|
||
\midrule
|
||
\multirow{5}{*}{CodeAlpaca}
|
||
& Full Finetune & 2.532 & 0.138 & 0.195 \\
|
||
& LoRA & 2.404 & \underline{0.146} & 0.202 \\
|
||
& Multi LoRA & \textbf{2.312} & 0.134 & 0.189 \\
|
||
& RieMoE-LoRA & 2.381 & 0.142 & \underline{0.207} \\
|
||
& HyCAM & \underline{2.359} & \textbf{0.163} & \textbf{0.222} \\
|
||
\midrule
|
||
\multirow{5}{*}{WebGPT}
|
||
& Full Finetune & \underline{1.888} & \textbf{0.182} & \textbf{0.341} \\
|
||
& LoRA & 1.919 & 0.178 & 0.331 \\
|
||
& Multi LoRA & 1.939 & 0.176 & \underline{0.337} \\
|
||
& RieMoE-LoRA & \underline{1.888} & 0.177 & 0.336 \\
|
||
& HyCAM & \textbf{1.845} & \underline{0.180} & \underline{0.337} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
需要指出的是,不同任务之间的性能水平本身存在显著差异。例如,医疗问答和部分开放式指令任务通常具有更高输出不确定性,因此其绝对指标可能整体较低。这一现象在城市多任务时空建模中同样会存在:例如,封闭式地点属性问答与开放式城市事件解释的难度本就不可简单等同。因此,更重要的不是要求所有任务在同一数值尺度上接近,而是观察方法能否在面对异质目标时保持相对稳定、均衡的适配能力。从这一意义上看,HyCAM 的结果具有较好的说服力。
|
||
|
||
具体到各任务的表现,可以从以下几个角度进行分析。在 Auto CoT 推理任务中,HyCAM 取得了最低的 PPL(1.777)和最高的 BLEU(0.283),这说明其调制机制对涉及多步推理的上下文组织尤其有效,能够在推理链的各步之间维持更一致的表示流。在 CodeAlpaca 代码生成任务中,HyCAM 同样取得了显著优势(BLEU 0.163 vs 基线最优 0.146),表明注意力调制有助于模型在需要长距离结构对齐(如代码块嵌套、函数调用关系)的任务中保持更精确的上下文追踪。在 WebGPT 信息检索问答任务中,HyCAM 在 PPL 上取得最优(1.845),说明其在需要从大量检索信息中选择关键证据并整合为连贯回答的场景中表现突出。
|
||
|
||
相对而言,在 iCliniq 医疗问答任务中,全参数微调仍表现最佳(PPL 7.497),而 HyCAM 虽然次优但差距不大。这可能是因为医疗领域的专业术语和知识模式与预训练数据分布差异较大,需要更多的参数容量来学习领域特有知识。这一观察对于城市时空任务同样具有参考价值:对于需要大量领域专属知识注入的任务(如专业交通规则推理),可能需要在 HyCAM 框架内进一步增强知识学习容量。
|
||
|
||
\subsection{消融实验与深入分析}
|
||
\label{subsec:ch3_ablation}
|
||
|
||
\subsubsection{组件作用分析}
|
||
|
||
为进一步分析 HyCAM 各组成部分的作用,原始实验构造了多个消融变体。每个变体通过移除或修改 HyCAM 中的某一关键设计,考察该设计对整体性能的贡献。具体变体定义如下:
|
||
|
||
\begin{itemize}
|
||
\item \textbf{Shared-CAM-Only}:仅保留单个全参数共享 CAM 模块,移除所有专用 CAM 模块及路由机制。该变体用于评估 CAM 调制本身(不含多分支结构)的基准效果,即仅依靠跨任务共享的单一调制器能够达到的性能水平。
|
||
\item \textbf{HyCAM-FullSpec}:保留共享 CAM 与专用 CAM 的混合架构,但将所有专用 CAM 模块都替换为全参数形式(即 $W_{sp,k}^{(\ell)} \in \mathbb{R}^{d \times d}$,不采用 SLoRA 参数化)。该变体用于验证专用模块采用参数高效结构的必要性。
|
||
\item \textbf{HyCAM-SpecOnly}:移除共享全参数 CAM 模块,仅保留 $N_s$ 个参数高效的专用 CAM 模块与动态路由机制。该变体用于验证共享底座在多任务适配中的作用。
|
||
\item \textbf{HyCAM-InversePEFT}:将参数分配策略反转——共享模块采用 SLoRA 参数化实现,而专用模块采用全参数形式。该变体用于验证"强共享 + 轻专用"这一非对称参数分配策略的合理性。
|
||
\end{itemize}
|
||
|
||
所有消融变体均在 Llama2-7B 上进行评估,实验结果如表~\ref{tab:ch3_ablation} 所示。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{HyCAM 消融实验结果(以 PPL 为例)。}
|
||
\label{tab:ch3_ablation}
|
||
\resizebox{0.3\linewidth}{!}{
|
||
\begin{tabular}{lc}
|
||
\toprule
|
||
变体 & PPL$\downarrow$ \\
|
||
\midrule
|
||
Shared-CAM-Only & 3.129 \\
|
||
HyCAM-FullSpec & 3.102 \\
|
||
HyCAM-SpecOnly & 3.216 \\
|
||
HyCAM-InversePEFT & 3.129 \\
|
||
HyCAM & \textbf{3.081} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
从表~\ref{tab:ch3_ablation} 可以看出,完整 HyCAM 取得了最优表现,这说明共享与专用分支之间确实具有互补性。仅使用共享 CAM 时,模型虽能学习跨任务共性调制,但缺乏足够的任务特化能力;仅使用专用 CAM 时,则由于缺乏统一共享底座,容易导致跨任务知识无法有效复用,反而降低整体性能。将所有专用模块都替换为全参数结构虽然也能取得较好结果,但会显著增加参数成本,与本章追求高效适配的目标不符。反向分配参数预算同样说明:让共享分支保持较强表达能力、让专用分支采用轻量结构,是当前框架下更合理的设计。
|
||
|
||
这一结论对于城市多任务时空建模同样具有启发性。城市任务之间通常既共享通用语义和城市常识,又存在具体任务差异,因此更适合采用”强共享底座 + 轻量专用分支”的结构,而非纯共享或纯专用策略。
|
||
|
||
进一步地,对比 Shared-CAM-Only(PPL 3.129)与 LoRA(PPL 3.222)可以发现,即使不引入多分支结构,仅在注意力输出表示流上进行单分支 CAM 调制,也已经优于标准的低秩参数增量方法。这从实验层面印证了本章的核心假设:在多任务适配中,对上下文组织路径的定向调制比对所有权重的均匀低秩更新更为有效。HyCAM 在此基础上通过引入多分支混合结构进一步获得提升(PPL 3.129 $\to$ 3.081),证明了混合设计的附加价值。
|
||
|
||
\subsubsection{超参数敏感性分析}
|
||
|
||
原始实验进一步考察了专用 CAM 数量 $N_s$ 对模型性能的影响,结果如图~\ref{fig:ch3_sens} 所示。整体趋势表明,随着专用模块数量从 1 增加到 5,模型性能稳步提升;当 $N_s$ 继续增大至 7 及以上时,性能增益趋于平稳甚至略有波动。这说明适度增加专用分支有助于增强模型表达多任务差异的能力,但专用模块数量并非越多越好:过多模块会增加路由学习难度,并可能引入新的冗余。
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.52\linewidth]{assets/3_sens.pdf}
|
||
\caption{专用 CAM 模块数量 $N_s$ 对 HyCAM 性能的影响。}
|
||
\label{fig:ch3_sens}
|
||
\end{figure}
|
||
|
||
从理论角度分析,$N_s$ 的设置实质上反映了模型对多任务异质性的表达精细度与路由学习复杂度之间的权衡。当 $N_s$ 过小时,专用分支难以充分覆盖不同任务模式之间的差异,导致部分任务的特化需求无法得到满足。当 $N_s$ 过大时,一方面路由器需要在更大的候选空间中进行选择,增加了学习难度;另一方面,各专用模块可用的训练样本分散化,容易导致部分专家训练不充分。实验结果表明,$N_s = 5$ 在当前五任务基准下取得了较好的平衡。
|
||
|
||
从训练过程来看,HyCAM 的损失收敛通常更快、更稳定。这与本章的建模思想是一致的:相比于直接在大规模参数空间内搜索任务适配方向,HyCAM 通过模块角色感知调制将适配空间限制在更具功能针对性的表示流层面,使优化过程更集中于”如何组织上下文”,而非”全面重写模型”。因此,其训练曲线往往具有更好的稳定性。
|
||
|
||
\subsubsection{参数效率分析}
|
||
|
||
为了全面评估 HyCAM 在参数效率方面的优势,本节对各方法的可训练参数量进行了系统比较。以 Llama2-7B 为例,各方法的参数量统计如表~\ref{tab:ch3_param_count} 所示。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{不同适配方法在 Llama2-7B 上的可训练参数量对比。}
|
||
\label{tab:ch3_param_count}
|
||
\resizebox{0.48\linewidth}{!}{
|
||
\begin{tabular}{lccc}
|
||
\toprule
|
||
方法 & 可训练参数量 & 占比 & PPL$\downarrow$ \\
|
||
\midrule
|
||
Full Finetune & 6.74B & 100\% & 3.193 \\
|
||
LoRA ($r$=64) & 159.9M & 2.37\% & 3.222 \\
|
||
Multi LoRA & 319.8M & 4.75\% & 3.287 \\
|
||
RieMoE-LoRA & 319.8M & 4.75\% & 3.171 \\
|
||
HyCAM & 236.1M & 3.50\% & \textbf{3.081} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
从表~\ref{tab:ch3_param_count} 可以看出,HyCAM 在可训练参数量上介于 LoRA 与 Multi-LoRA/RieMoE-LoRA 之间,但在性能上显著优于所有基线方法。具体而言,HyCAM 的共享 CAM 模块贡献了主要参数量(每层一个 $d \times d$ 的投影矩阵),而各专用 CAM 模块通过 SLoRA 参数化仅引入少量额外参数(每个模块约为共享模块的 $r/d$ 倍)。路由器参数量更为微小(每层仅 $d \times N_s$ 个参数),几乎可以忽略不计。
|
||
|
||
这一参数分配策略与本章”强共享底座 + 轻量专用分支”的设计理念高度一致。共享分支承担主要的跨任务调制建模职责,因此赋予其充分的参数预算;专用分支仅需在共享基础上学习增量式的任务特化方向,因此采用参数高效形式即可满足需求。这种非对称的参数分配,使得 HyCAM 能够在保持较低参数成本的同时,实现比均匀分配策略更优的多任务适配效果。
|
||
|
||
\subsection{可解释性分析与方法讨论}
|
||
\label{subsec:ch3_interpretability}
|
||
|
||
为了进一步理解 HyCAM 对模型内部表示的影响,原始实验从三个角度进行了可解释性分析:表示分布可视化、调制权重可视化以及训练损失曲线可视化。这些分析旨在从定性层面揭示 HyCAM 的内部工作机制,为前文定量实验结果提供直观解释。
|
||
|
||
\subsubsection{表示空间可视化}
|
||
|
||
图~\ref{fig:ch3_tsne} 展示了自注意力模块 Value 矩阵表示经 t-SNE 降维后的二维散点图。纵轴对应于不同 token 位置,横轴表示被增强或抑制的程度。可以观察到,经过 HyCAM 调制后,表示空间往往呈现出更为紧凑和清晰的簇结构。具体而言,在未施加 CAM 调制的基线模型中,不同任务的表示点在二维空间中呈现较大的混叠区域,表明模型在任务间的表示区分度较低;而经过 HyCAM 调制后,属于同一任务的表示点更倾向于聚集在相近区域,且不同任务簇之间的间距增大。这说明 CAM 调制不仅提升了单任务内表示的一致性,也增强了跨任务表示的区分性。
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.72\linewidth]{assets/3_tsne.pdf}
|
||
\caption{注意力表示空间的可视化结果。上方为未施加 CAM 调制的基线表示,下方为经 HyCAM 调制后的表示。经调制后表示呈现更紧凑的簇结构与更高的区分度。}
|
||
\label{fig:ch3_tsne}
|
||
\end{figure}
|
||
|
||
从表征学习角度分析,这一结果表明 HyCAM 的调制机制有效地改善了自注意力模块输出表示的语义组织方式。在预训练阶段,模型学习到的表示空间面向通用目标组织,不同任务的表示方向可能存在较大的重叠和干扰。HyCAM 通过输入条件化的调制信号,对不同任务样本的注意力表示施加差异化的缩放与偏移,使得模型能够在不破坏预训练知识基础的前提下,学习到更具任务辨识度的表示结构。
|
||
|
||
\subsubsection{调制权重可视化}
|
||
|
||
图~\ref{fig:ch3_weights} 给出了某一层 HyCAM 生成的调制权重矩阵 $\mathbf{A}_{fusion}^{(\ell)}$ 的可视化示意。该矩阵的形状为 $T \times d$,其中每行对应一个输入 token,每列对应表示的一个维度。颜色深浅反映了调制强度——正值(暖色)表示增强,负值或近零值(冷色)表示抑制或不变。
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.72\linewidth]{assets/3_ht.pdf}
|
||
\caption{HyCAM 调制权重矩阵的可视化。不同 token 与维度上的调制强度呈现明显差异,说明 HyCAM 实现了细粒度的上下文感知调制。}
|
||
\label{fig:ch3_weights}
|
||
\end{figure}
|
||
|
||
从图中可以清晰观察到两个重要特征。第一,调制权重沿 token 轴方向呈现显著的非均匀性:某些 token 位置获得了较强的调制信号,而另一些位置则保持近零的调制。这表明 HyCAM 能够根据输入内容自适应地选择需要重点调整的上下文位置,而非对所有 token 施加无差别的全局修正。第二,调制权重沿维度轴方向同样表现出选择性:即使在同一 token 位置上,不同维度接受的调制幅度也存在明显差异。这说明 HyCAM 不仅在 token 粒度上具有选择性,还在表示维度粒度上实现了差异化调制。上述两个特征共同验证了 HyCAM 作为”细粒度输入条件化调制器”的设计意图。
|
||
|
||
\subsubsection{训练收敛性对比}
|
||
|
||
图~\ref{fig:ch3_loss} 展示了不同方法的训练损失变化趋势。相较于若干基线方法,HyCAM 在收敛速度与稳定性上具有一定优势,这与前文关于”模块角色感知调制缩小了有效适配搜索空间”的分析相一致。
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.72\linewidth]{assets/3_loss.pdf}
|
||
\caption{不同方法的训练过程对比。HyCAM 相较基线方法表现出更快的收敛速度与更低的最终损失。}
|
||
\label{fig:ch3_loss}
|
||
\end{figure}
|
||
|
||
具体而言,从训练损失曲线可以观察到:HyCAM 在训练初期即表现出较快的下降速度,且在整个训练过程中损失曲线更为平稳,波动较小。这一现象可以从两个方面理解。一方面,HyCAM 的零初始化策略保证了训练起点与预训练模型行为一致,避免了随机初始化可能带来的初始震荡。另一方面,由于 HyCAM 仅对注意力表示流进行调制,其有效适配参数空间相比全参数更新或作用于所有层的低秩更新更加紧凑和聚焦,使得优化过程能够更高效地找到有效的适配方向。相比之下,Multi-LoRA 和 RieMoE-LoRA 的训练曲线表现出更多的波动,这可能与其多分支结构在训练早期尚未充分分化、各分支之间存在竞争有关。
|
||
|
||
需要指出的是,当前这些可视化结果主要来自通用多任务实验。若进一步面向城市时空任务开展补充实验,则可在后续工作中考察如下现象:不同城市任务下路由权重是否呈现稳定分工、空间关系类问题是否更依赖某类专用 CAM、事件解释类问题是否倾向激活更强长程上下文调制等。这些问题有助于将本章的方法分析进一步与城市时空结构建立直接联系。
|
||
|
||
\subsubsection{方法定位与适用场景}
|
||
|
||
HyCAM 的核心优势在于其对自注意力表示流的定向调制设计,这使得它特别适用于以下场景:(1)多任务联合训练,尤其是任务间既存在共性又存在显著差异的场景;(2)需要在保持预训练通用知识的同时实现任务特化的应用;(3)对参数效率有要求、但又需要超越标准 LoRA 表达能力的场景。
|
||
|
||
然而,HyCAM 的调制粒度仍然停留在注意力输出的整体表示层面。具体而言,HyCAM 对 $\mathbf{H}_{att}^{(\ell)}$ 的每个元素施加独立调制,但并未显式区分不同维度在位置编码结构中的功能差异。例如,在采用 RoPE 位置编码的模型中,不同维度对承担不同频率的旋转,分别编码了不同尺度的位置信息。这种维度间的结构性差异在本章方法中尚未被感知与利用。此外,HyCAM 目前主要关注注意力模块的输出调制,对于 FFN 层内部可能存在的结构化适配机会也未加探索。这些方向构成了后续章节进一步深化的出发点。
|
||
|
||
\section{本章小结}
|
||
\label{sec:ch3_summary}
|
||
|
||
本章围绕城市多任务时空建模中的模块级结构异质性问题,提出了一种模块角色感知的多任务时空表征学习方法。本章的主要工作与贡献可概括为以下四个方面。
|
||
|
||
第一,本章从模块级结构角色差异出发,系统分析了 Transformer 架构中自注意力模块与前馈网络模块在时空任务适配中的不同功能定位,指出面向自注意力表示流的定向调制是兼顾知识保持与任务特化的更优路径,并在第一章统一分析框架下给出了模块级调制算子的形式化定义。
|
||
|
||
第二,本章提出了上下文注意力调制机制 CAM,通过对自注意力输出表示流施加输入条件化的逐元素调制,实现对预训练知识调用方式的精细修正。CAM 的设计以零初始化保证训练稳定性,以乘性残差结构保证与预训练行为的平滑过渡,为后续多任务扩展提供了机制基础。
|
||
|
||
第三,本章在 CAM 基础上提出了 HyCAM 框架,通过”全参数共享 CAM + 参数高效专用 CAM + Gumbel-Softmax 动态路由”的混合架构,实现了跨任务共享知识与任务特有模式之间的自适应平衡。负载均衡损失的引入进一步保证了多专用模块的合理协同使用。
|
||
|
||
第四,本章在涵盖五类异质任务的通用多任务基准上进行了系统验证,实验覆盖 Llama、Mistral 与 Qwen 三大模型家族及从 0.5B 到 14B 的多个规模区间。结果表明,HyCAM 在整体性能、跨任务均衡性、参数效率与训练稳定性等方面均表现出稳定优势。消融实验与可视化分析进一步验证了各组件设计的合理性。
|
||
|
||
从全文的统一研究主线来看,本章主要解决的是统一分析框架中的\emph{模块级结构异质性}问题,即关注不同功能模块在表示流组织中的角色差异,并给出了相应的适配机制。然而,本章的方法仍然主要作用于注意力输出整体表示流,尚未进一步刻画注意力表示内部不同维度、不同位置编码成分之间可能存在的细粒度角色差异。特别是在城市时空任务中,空间相对位置、时间周期结构以及不同表示维度所承担的结构建模功能,往往呈现出显著的非均匀性与各向异性。因此,下一章将在本章工作的基础上,进一步转向\emph{维度级结构异质性},研究位置结构驱动的各向异性时空表征学习方法,从更细粒度的表示几何层面对大模型时空适配机制进行深化。
|
||
|
||
% 第四章 位置结构驱动的各向异性时空表征学习方法
|
||
\chapter{位置结构驱动的各向异性时空表征学习方法}
|
||
\label{chap:rosa_dypam}
|
||
|
||
\section{本章概述}
|
||
\label{sec:ch4_overview}
|
||
|
||
第三章围绕模块级功能异质性($\mathcal{R}_{mod}$),提出了基于上下文注意力调制的多任务时空表征学习方法HyCAM,实现了在注意力输出层面对不同功能模块的差异化适配。然而,在时空数据的表征学习中,除模块间的功能差异外,模型内部表示向量的\emph{维度级结构}同样蕴含着丰富的异质性信息。
|
||
|
||
在基于Transformer架构的大语言模型中,旋转位置编码(Rotary Position Embedding, RoPE)是编码序列位置信息的核心机制。RoPE通过对注意力表示的Query与Key向量施加维度对相关的旋转变换,将相对位置关系融入注意力计算过程。由于不同维度对的旋转频率按几何级数递减,低索引维度对应高频旋转(编码局部位置差异),高索引维度对应低频旋转(编码全局上下文依赖)。这一频率结构导致注意力表示在不同维度上呈现出显著的激活强度差异与功能分化,即维度级位置结构异质性($\mathcal{R}_{dim}$)。
|
||
|
||
对于时空数据建模而言,这种维度级异质性具有直接的物理对应关系。时空序列中既包含短时局部波动(如分钟级交通流变化),也包含长程全局依赖(如跨区域的通勤模式与日周期规律)。RoPE的频率结构恰好为多尺度时空依赖的建模提供了天然的维度划分基础——不同频率的维度对可以分别承担不同时空尺度的位置感知功能。因此,在适配过程中充分感知并利用这种维度级位置结构,对于提升时空表征学习的质量具有重要意义。
|
||
|
||
然而,现有参数高效微调方法普遍忽视了维度级位置结构异质性。以LoRA为代表的低秩适配方法将可训练矩阵均匀地插入各线性层,对所有维度施加同质化的更新;类似地,其他主流方法也缺乏对注意力表示内部频率结构的感知能力。这种"维度无关"的适配范式在面对时空数据的多尺度位置依赖时,难以实现精细化的参数分配与功能调制。
|
||
|
||
针对上述问题,本章在第一章提出的结构感知调制统一框架(式~\ref{eq:ch1_unified_M})下,聚焦维度级位置结构异质性($\mathcal{R}_{dim}$),提出两种递进式方法:
|
||
|
||
\textbf{(1)RoPE感知的选择性适配方法(RoSA)}。RoSA基于对RoPE诱导的维度级激活异质性的实证分析,提出RoPE感知注意力增强(RoAE)模块,选择性地增强Query/Key表示中功能关键的低频维度成分;同时引入动态层选择(DLS)策略,基于LayerNorm梯度范数自适应识别并更新最关键的Transformer层。RoSA实现了"维度内选择性增强+层间动态分配"的双层级结构感知适配。
|
||
|
||
\textbf{(2)动态位置注意力调制方法(DyPAM)}。DyPAM在RoSA的基础上进一步推进,提出输入条件化的维度级调制机制,使调制信号不再是静态的维度选择,而是根据输入上下文动态生成;同时引入头级与层级结构偏置,允许不同注意力头和不同层维持各自的位置偏好。DyPAM实现了"输入动态调制+多粒度结构偏置"的全面位置感知适配。
|
||
|
||
从RoSA到DyPAM的演进,体现了维度级位置结构适配从"静态选择"到"动态调制"的递进深化。两种方法均属于统一框架中的乘性调制形式(式~\ref{eq:ch1_multiplicative}),通过不同粒度的结构角色描述符$\mathcal{R}_{dim}$实现对注意力表示流的精细化调制。
|
||
|
||
本章后续安排如下:第~\ref{sec:ch4_background}~节分析RoPE机制及其诱导的维度级异质性问题;第~\ref{sec:rosa}~节详述RoSA方法;第~\ref{sec:dypam}~节详述DyPAM方法;第~\ref{sec:ch4_unified_view}~节从统一视角对比分析两种方法;第~\ref{sec:ch4_experiments}~节给出实验验证与结果分析;第~\ref{sec:ch4_summary}~节总结全章。
|
||
|
||
|
||
\section{维度级位置结构异质性的问题分析}
|
||
\label{sec:ch4_background}
|
||
|
||
本节首先回顾RoPE的数学原理,然后从实证角度分析其诱导的维度级异质性现象,最后阐述该现象对时空适配的启示。
|
||
|
||
\subsection{旋转位置编码机制}
|
||
\label{subsec:ch4_rope}
|
||
|
||
现代大语言模型(如LLaMA、Qwen、Gemma系列)广泛采用基于Transformer解码器架构的设计,其核心由堆叠的Transformer块组成,每个块包含多头自注意力(MHSA)模块和前馈网络(FFN)模块。自注意力机制本身具有置换不变性,不编码任何位置信息,因此需要外部机制将序列顺序信息注入到注意力计算中。
|
||
|
||
旋转位置编码(RoPE)通过对Query和Key向量施加位置相关的旋转变换来编码相对位置关系。给定第$\ell$层Transformer块的隐藏状态$\mathbf{H}^{(\ell)} \in \mathbb{R}^{B \times T \times d}$(其中$B$为批次大小,$T$为序列长度,$d$为隐藏维度),经过线性投影得到Query和Key矩阵:
|
||
\begin{equation}
|
||
\mathbf{Q}^{(\ell)} = \mathbf{H}^{(\ell)} \mathbf{W}_Q^{(\ell)}, \quad
|
||
\mathbf{K}^{(\ell)} = \mathbf{H}^{(\ell)} \mathbf{W}_K^{(\ell)}, \quad
|
||
\mathbf{V}^{(\ell)} = \mathbf{H}^{(\ell)} \mathbf{W}_V^{(\ell)},
|
||
\label{eq:ch4_qkv_proj}
|
||
\end{equation}
|
||
其中$\mathbf{W}_Q^{(\ell)}, \mathbf{W}_K^{(\ell)}, \mathbf{W}_V^{(\ell)} \in \mathbb{R}^{d \times d}$为可学习的投影矩阵。投影后的表示被重塑为$H$个注意力头的形式,每个头的维度为$d_h = d/H$。
|
||
|
||
对于第$h$个注意力头中位于位置$t$的向量$\mathbf{z} \in \mathbb{R}^{d_h}$($d_h$为偶数),RoPE将其分为实部$\mathbf{z}^{\text{real}}$和虚部$\mathbf{z}^{\text{imag}}$两半,每半维度为$d_h/2$。对于每个索引$i$,RoPE将$(\mathbf{z}^{\text{real}}_i, \mathbf{z}^{\text{imag}}_i)$视为复数分量,施加二维旋转:
|
||
\begin{equation}
|
||
\text{RoPE}(\mathbf{z}^{\text{real}}_i, \mathbf{z}^{\text{imag}}_i) =
|
||
\begin{bmatrix}
|
||
\cos \theta_i & -\sin \theta_i \\
|
||
\sin \theta_i & \cos \theta_i
|
||
\end{bmatrix}
|
||
\begin{bmatrix}
|
||
\mathbf{z}^{\text{real}}_i \\
|
||
\mathbf{z}^{\text{imag}}_i
|
||
\end{bmatrix},
|
||
\label{eq:ch4_rope}
|
||
\end{equation}
|
||
其中旋转角度$\theta_i = t \cdot \omega^{-2i/d_h}$,$t$为token位置索引,$\omega$为基础频率常数(通常设为$10000$)。由于$\theta_i$随索引$i$的增大而几何递减,低索引维度对应高频旋转,编码局部位置差异;高索引维度对应低频旋转,编码全局上下文依赖。
|
||
|
||
该旋转操作使得两个位置$t_1$和$t_2$之间的注意力分数仅依赖于它们的相对位置差$t_1 - t_2$,从而实现了相对位置编码的优良性质。更重要的是,由于每个维度对在不同频率下旋转,不同维度对对相对位置距离的响应函数也各不相同,这直接导致了维度级的位置感知异质性。
|
||
|
||
\subsection{RoPE诱导的维度级激活异质性}
|
||
\label{subsec:ch4_heterogeneity}
|
||
|
||
RoPE的频率结构不仅是数学上的设计选择,更在实际模型中诱导了可观测的激活异质性现象。本节从多个角度展示这一异质性。
|
||
|
||
\subsubsection{跨维度激活异质性}
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\subcaptionbox{跨维度激活分布\label{fig:ch4_attn_dim}}{%
|
||
\includegraphics[width=0.47\linewidth]{assets/4_SingleLayer10.pdf}}
|
||
\hfill
|
||
\subcaptionbox{跨层激活分布\label{fig:ch4_attn_layer}}{%
|
||
\includegraphics[width=0.48\linewidth]{assets/4_AcrossLayer.pdf}}
|
||
\caption{预训练模型(LLaMA-2-7B)中Query状态的激活强度可视化。通过计算每个注意力头各维度的平均L2范数来量化激活强度。低频维度(高索引)集中了更强的激活,且不同层之间呈现差异化的激活模式,体现了维度级和层级的双重异质性。}
|
||
\label{fig:ch4_activation}
|
||
\end{figure}
|
||
|
||
通过对预训练模型(如LLaMA、Qwen系列)的Query状态进行激活强度分析,可以清晰观测到:注意力表示在不同维度通道上的激活强度呈现显著差异。具体而言,低频成分(对应每半注意力状态中高索引维度)表现出更密集、更强烈的激活,而高频成分的激活则较为稀疏。现有研究已经证实,这些显著的低频激活对于模型的上下文理解能力至关重要。
|
||
|
||
这种跨维度的激活异质性意味着,注意力表示的不同维度在功能上并非等价——它们承担着不同频率尺度的位置编码功能,对下游任务的贡献也各不相同。
|
||
|
||
\subsubsection{跨层与跨头激活异质性}
|
||
|
||
维度级激活异质性并非在所有层和所有头上都保持一致。实证分析表明,不同层和不同注意力头展现出差异化的激活模式:
|
||
|
||
(1)\textbf{跨层异质性}。不同Transformer层在相同维度上的激活强度存在显著差异,表明不同深度的层对位置信息的利用程度不同。一般而言,模型的低层倾向于捕获句法结构,高层则更多编码抽象语义与上下文知识,这种功能分化反映在维度激活模式的层间差异上。
|
||
|
||
(2)\textbf{跨头异质性}。同一层内不同注意力头也展现出不同的激活模式,这与多头注意力机制的功能分工有关——不同头可能专注于不同类型的依赖关系建模。
|
||
|
||
\subsubsection{输入依赖的激活异质性}
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.9\linewidth]{assets/4_token_heterogeneity.pdf}
|
||
\caption{不同语义角色的输入token诱导的激活模式差异。具有不同语义角色的token在维度激活分布上呈现系统性差异。}
|
||
\label{fig:ch4_token_hetero}
|
||
\end{figure}
|
||
|
||
除了模型结构层面的异质性外,激活模式还表现出对输入内容的依赖性。不同语义角色的token会诱导系统性不同的激活分布。例如,时空描述性token(如地点名称、时间表达)与功能性token(如连接词、标点)在同一层同一头的维度激活分布上存在明显差异。这一现象表明,理想的维度级适配不应仅是静态的维度选择,还应考虑输入上下文的动态影响。
|
||
|
||
\subsubsection{不同位置编码机制的对比验证}
|
||
|
||
为验证上述维度级异质性确实由RoPE机制诱导,可以对比采用不同位置编码方案的模型。对比分析表明:(1)基于RoPE的模型(如LLaMA、Qwen系列)表现出结构化的、维度依赖的激活模式;(2)采用ALiBi或可学习位置嵌入的模型(如BLOOM、OPT系列)在维度间的激活分布明显更加均匀。这一对比有力地证明了维度级激活异质性与RoPE的频率结构直接相关。
|
||
|
||
进一步地,对比Query、Key和Value三种表示的激活模式发现:Query和Key表示展现出显著的结构化激活异质性,而Value表示的异质性则弱得多。这与RoPE的设计一致——RoPE仅对Query和Key施加位置旋转,不影响Value表示。这也为本章方法仅在Query和Key表示上进行调制提供了理论依据。
|
||
|
||
\subsection{维度级异质性对时空适配的启示}
|
||
\label{subsec:ch4_implication}
|
||
|
||
综合以上分析,RoPE诱导的维度级位置结构异质性对时空适配方法提出了以下启示:
|
||
|
||
\textbf{(1)适配应具有维度感知能力。}不同维度在功能上的分化意味着均匀适配是次优的。有效的方法应当识别并优先增强功能关键的维度成分(如低频维度),实现"精准投放"式的参数分配。
|
||
|
||
\textbf{(2)适配应感知层间差异。}不同层对位置信息的利用程度不同,因此适配资源的层间分配也应当是自适应的,而非在所有层上均匀部署。
|
||
|
||
\textbf{(3)适配应响应输入变化。}静态的维度选择无法捕获输入依赖的激活差异。理想的方法应当能够根据输入上下文动态调整调制信号,实现条件化的位置感知适配。
|
||
|
||
\textbf{(4)适配应对齐RoPE的维度对结构。}RoPE中每对维度共享相同的旋转频率,因此调制操作应当以维度对为基本单位,而非逐维度独立操作,以尊重并利用这一内在结构。
|
||
|
||
上述四点启示构成了本章两种方法的设计原则:RoSA主要回应启示(1)和(2),通过静态的低频维度增强与动态层选择实现结构感知适配;DyPAM则进一步回应启示(3)和(4),通过输入条件化的维度对调制与多粒度结构偏置实现全面的位置感知适配。
|
||
|
||
|
||
\section{RoPE感知的选择性适配方法}
|
||
\label{sec:rosa}
|
||
|
||
基于上节的分析,本节提出RoPE感知的选择性适配方法(RoPE-aware Selective Adaptation, RoSA)。RoSA的核心思想是通过双层级的结构感知策略实现精准适配:在层内,通过RoPE感知注意力增强(RoAE)模块选择性地增强关键低频维度;在层间,通过动态层选择(DLS)策略自适应地识别和更新最重要的层。
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.85\linewidth]{assets/4_rosa_arch.pdf}
|
||
\caption{RoSA方法框架图。RoSA由两个核心模块组成:RoPE感知注意力增强(RoAE),选择性增强RoPE影响的Q/K状态中的低频成分;动态层选择(DLS),基于LayerNorm梯度信号动态选择重要层进行更新。}
|
||
\label{fig:ch4_rosa_arch}
|
||
\end{figure}
|
||
|
||
\subsection{框架概述}
|
||
\label{subsec:rosa_overview}
|
||
|
||
现有PEFT方法在设计适配模块时通常忽略两个关键方面:(i)RoPE引入的频率特异性结构;(ii)层间重要性的异质性。RoSA通过双层级适配策略来弥补这一不足。
|
||
|
||
如图~\ref{fig:ch4_rosa_arch}所示,RoSA的整体框架包含两个互补的核心组件。首先,RoAE模块选择性地增强RoPE影响的注意力状态中的低频成分,这些成分对上下文理解起着关键作用。其次,DLS模块基于梯度重要性指标动态识别并适配最重要的层。通过将频率级和层级的选择性适配相结合,RoSA实现了更有效和高效的适配过程。
|
||
|
||
在统一分析框架(式~\ref{eq:ch1_unified_M})下,RoSA的调制操作可形式化为:
|
||
\begin{equation}
|
||
\mathcal{M}_{\theta}^{\text{RoSA}}(\mathbf{Z}^{(\ell)}; \mathbf{X}, \mathcal{R}_{dim}) =
|
||
\begin{cases}
|
||
\mathbf{Z}^{(\ell)} + \mathbf{Z}^{(\ell)}_{\text{low}} \odot (\alpha \cdot \mathbf{S}_\theta(\mathbf{X})), & \text{if } \ell \in \mathcal{L}_S \\
|
||
\mathbf{Z}^{(\ell)}, & \text{if } \ell \notin \mathcal{L}_S
|
||
\end{cases}
|
||
\label{eq:ch4_rosa_unified}
|
||
\end{equation}
|
||
其中,$\mathbf{Z}^{(\ell)}_{\text{low}}$为第$\ell$层注意力状态的低频成分提取,$\mathbf{S}_\theta(\mathbf{X})$为上下文感知的适配信号,$\mathcal{L}_S$为动态选择的活跃层集合。该形式表明RoSA同时在维度空间和层空间上实现了选择性调制。
|
||
|
||
\subsection{RoPE感知注意力增强模块}
|
||
\label{subsec:rosa_roae}
|
||
|
||
RoAE模块的设计动机在于:RoPE旋转后的注意力状态中,低频维度对长程依赖建模和上下文语义理解起着关键作用,但传统PEFT方法并未显式考虑这一频率结构,而是对所有维度施加通用的适配操作。RoAE通过以下三个步骤实现对关键低频成分的定向增强。
|
||
|
||
\subsubsection{低频成分提取}
|
||
|
||
给定隐藏状态$\mathbf{H} \in \mathbb{R}^{B \times T \times d}$作为某Transformer层的输入,经过标准线性投影得到Query和Key张量后,将其重塑为多头表示,形状为$[B, H, T, d_h]$,其中$H$为注意力头数,$d_h = d/H$为每头维度。RoPE将每个头向量分为实部$\mathbf{z}_{\text{real}}$和虚部$\mathbf{z}_{\text{imag}}$两半,然后对每个复数对施加正弦旋转。
|
||
|
||
为提取低频成分,RoAE遵循RoPE的结构,将每个头向量分为两半(每半大小为$d_h/2$),从每半中取最后$(d_h \cdot r_{\text{low}}) / 2$个维度,将两部分拼接形成一个$d_{\text{low}}$维的向量,记为$\mathbf{z}_{\text{low}}$。其中$r_{\text{low}} \in (0, 1)$为超参数,控制目标低频成分的比例。提取的向量恰好捕获了RoPE影响的Q/K头中功能关键的低频成分。
|
||
|
||
\subsubsection{适配信号生成}
|
||
|
||
为实现对低频成分的定向增强,RoAE首先生成上下文感知的适配信号$\mathbf{S}$。具体地,将隐藏状态通过一个可训练的线性投影$\mathbf{W}_{\text{proj}}$,再经过非线性激活函数(SiLU):
|
||
\begin{equation}
|
||
\tilde{\mathbf{S}} = \text{SiLU}(\mathbf{H} \mathbf{W}_{\text{proj}}), \quad \mathbf{W}_{\text{proj}} \in \mathbb{R}^{d \times (H \cdot d_{\text{low}})},
|
||
\label{eq:ch4_roae_proj}
|
||
\end{equation}
|
||
其中$\tilde{\mathbf{S}} \in \mathbb{R}^{B \times T \times (H \cdot d_{\text{low}})}$。随后将投影后的张量重塑为多头形状$\mathbf{S} \in \mathbb{R}^{B \times H \times T \times d_{\text{low}}}$。
|
||
|
||
为提升参数效率,投影模块$\mathbf{W}_{\text{proj}}$采用低秩分解实现($\mathbf{W}_{\text{proj}} = \mathbf{B}\mathbf{A}$),仅引入少量可训练参数。在默认配置下,同一适配信号$\mathbf{S}$同时用于Query和Key投影。为兼容采用分组查询注意力(GQA)的现代架构(其中Query头数$h_q$和Key头数$h_k$可能不同),引入额外的投影模块进行维度对齐:
|
||
\begin{equation}
|
||
\tilde{\mathbf{S}}^{(K)} = \tilde{\mathbf{S}}^{(Q)} \cdot \mathbf{W}_{\text{GQA}}, \quad \mathbf{W}_{\text{GQA}} \in \mathbb{R}^{(h_q \cdot d_{\text{low}}) \times (h_k \cdot d_{\text{low}})},
|
||
\label{eq:ch4_roae_gqa}
|
||
\end{equation}
|
||
从而确保RoAE能够支持GQA架构的模型。
|
||
|
||
\subsubsection{定向增强应用}
|
||
|
||
得到适配信号$\mathbf{S}$后,将其应用于目标低频成分。将所有注意力头的低频向量记为$\mathbf{Z} \in \mathbb{R}^{B \times H \times T \times d_{\text{low}}}$,通过逐元素乘性调制实现增强:
|
||
\begin{equation}
|
||
\mathbf{Z}^{*} = \mathbf{Z} + \mathbf{Z} \odot (\alpha \cdot \mathbf{S}),
|
||
\label{eq:ch4_roae_apply}
|
||
\end{equation}
|
||
其中$\alpha$为缩放因子,控制适配强度。
|
||
|
||
增强后的低频张量$\mathbf{Z}^{*}$被重新集成到注意力头状态的原始位置,替换对应的低频维度。注意力机制随后以这些选择性增强的Query和Key表示进行计算,使模型能够更好地利用RoPE的关键频率结构来提升上下文理解能力。
|
||
|
||
从式~\eqref{eq:ch4_roae_apply}可以看出,RoAE的核心在于其"机制感知"设计——不是对注意力表示的全部维度施加通用适配,而是精准定位RoPE诱导的功能关键成分进行定向增强。同时,适配信号$\mathbf{S}$从输入状态动态生成,使增强过程具有上下文感知能力。
|
||
|
||
\subsection{动态层选择策略}
|
||
\label{subsec:rosa_dls}
|
||
|
||
RoAE模块提供了层内维度级的定向适配能力,但大语言模型在不同层之间同样表现出显著的异质性——低层主要捕获句法特征,高层编码抽象语义与上下文知识。若将RoAE均匀地应用于所有层(如传统PEFT方法的做法),则忽视了层间重要性的差异。为此,RoSA引入动态层选择(DLS)策略,自适应地选择并适配最重要的层。
|
||
|
||
\subsubsection{层重要性估计}
|
||
|
||
DLS的核心在于准确估计每一层相对于微调目标的重要性。本方法提出使用层归一化(LayerNorm)参数的梯度范数作为高效的重要性代理。这一选择的合理性在于:LayerNorm直接控制Transformer子模块和层之间的信息流,其参数梯度大意味着模型需要显著改变该层的输出分布以最小化损失。
|
||
|
||
在常用的Pre-LN架构中,LayerNorm模块分别放置在自注意力模块之前和FFN模块之前。形式上,第$i$层Transformer $L_i$的重要性分数通过聚合两个LayerNorm参数的梯度$\text{L}_2$范数计算:
|
||
\begin{equation}
|
||
\text{Score}(L_i) = \sqrt{ \| \nabla \mathbf{\Theta}_{i, \text{attn}} \|_2^2 + \| \nabla \mathbf{\Theta}_{i, \text{ffn}} \|_2^2 },
|
||
\label{eq:ch4_dls_score}
|
||
\end{equation}
|
||
其中$\mathbf{\Theta}_{i, \text{attn}}$和$\mathbf{\Theta}_{i, \text{ffn}}$分别为第$i$层中两个LayerNorm模块的可学习参数。在实践中,周期性地计算所有层的重要性分数以指导选择。
|
||
|
||
\subsubsection{动态选择与梯度掩码}
|
||
|
||
选择过程在初始预热阶段之后,以间隔$u$步的频率周期性激活。每次激活时,DLS采用平衡利用与探索的策略来选择层子集:
|
||
|
||
\textbf{利用(Exploitation)}:以较高概率$p_{\text{exploit}}$,根据重要性分数对所有层排序,选择前$k$层进行训练,其中$k$由预定义的选择比例$k_{\text{ratio}}$决定。
|
||
|
||
\textbf{探索(Exploration)}:以概率$1-p_{\text{exploit}}$,随机选择$k$层,确保所有层都有被适配的机会,从而降低陷入局部最优的风险。
|
||
|
||
确定活跃层集合$\mathcal{L}_S$后,对非选中层施加梯度掩码以阻止参数更新:
|
||
\begin{equation}
|
||
\nabla L_i \leftarrow \mathbf{0}, \quad \text{if} \quad i \notin \mathcal{L}_S.
|
||
\label{eq:ch4_dls_mask}
|
||
\end{equation}
|
||
|
||
DLS通过动态识别和适配最关键的层来减少不必要的参数更新,提升效率。值得注意的是,DLS具有模型无关性,可以方便地集成到现有PEFT流程中。与RoAE结合后,DLS完成了RoSA框架在维度级和层级两个维度上的联合选择性适配。
|
||
|
||
\RestyleAlgo{ruled}
|
||
\begin{algorithm}[htp]
|
||
\caption{RoPE感知的选择性适配(RoSA)训练算法}
|
||
\label{alg:ch4_rosa}
|
||
\KwIn{预训练大语言模型$\mathcal{M}$,数据集$\mathcal{D}$,RoAE超参数($\alpha$, $r_{\text{low}}$),DLS超参数($k_{\text{ratio}}$, $p_{\text{exploit}}$, $u$),学习率$\eta$,预热步数$T_{\text{warmup}}$}
|
||
使用$\alpha$和$r_{\text{low}}$初始化RoAE模块并集成至$\mathcal{M}$\;
|
||
仅设RoSA相关参数$\mathbf{\Theta}_{\text{RoSA}}$为可训练\;
|
||
\For{每个训练步$t$}{
|
||
从$\mathcal{D}$中采样一个批次\;
|
||
使用RoAE增强的注意力状态执行前向传播(式~\ref{eq:ch4_roae_proj}--\ref{eq:ch4_roae_apply})\;
|
||
计算损失并执行反向传播以获得梯度\;
|
||
\If{$t > T_{\textup{warmup}}$ 且 $t \bmod u = 0$}{
|
||
使用LayerNorm梯度计算层重要性$\text{Score}(L_i)$(式~\ref{eq:ch4_dls_score})\;
|
||
以概率$p_{\text{exploit}}$选择重要性最高的$k_{\text{ratio}}$比例的层(利用);否则随机选择(探索)\;
|
||
}
|
||
对非选中层施加梯度掩码(式~\ref{eq:ch4_dls_mask})\;
|
||
使用优化器以学习率$\eta$更新活跃层参数\;
|
||
}
|
||
\end{algorithm}
|
||
\subsection{RoSA整体算法}
|
||
\label{subsec:rosa_algorithm}
|
||
|
||
RoSA将RoAE和DLS模块集成到标准的因果语言建模框架中,使用交叉熵损失进行训练。两个模块联合工作,分别在频率维度和模型层两个层面实现定向适配。整体训练流程如算法~\ref{alg:ch4_rosa}所示。
|
||
|
||
RoSA的主要超参数包括:低频维度比例$r_{\text{low}}$(默认0.25,即增强每个头25\%的低频维度)、缩放因子$\alpha$(默认0.1,控制增强幅度)、层选择比例$k_{\text{ratio}}$(默认0.5,每次更新一半的层)、选择间隔$u$(默认40步)、利用概率$p_{\text{exploit}}$(默认0.8)。低秩投影维度默认设为128。
|
||
|
||
RoSA的设计具有良好的模块化特性:RoAE和DLS各自独立运作,可以灵活地与其他微调技术组合使用。RoAE的投影模块也可替换为其他PEFT方法的适配器设计,体现了框架的可扩展性。
|
||
|
||
|
||
\section{动态位置注意力调制方法}
|
||
\label{sec:dypam}
|
||
|
||
RoSA通过低频维度选择性增强与动态层选择,初步实现了对维度级位置结构异质性的感知。然而,RoSA的维度增强机制仍然是"选择后增强"的模式——先静态地划定低频维度范围,再在该范围内生成适配信号。这种设计存在两个局限:第一,对低频维度的选择是固定的(由超参数$r_{\text{low}}$决定),无法根据不同输入的特性进行动态调整;第二,调制信号不区分不同注意力头的位置偏好差异。
|
||
|
||
为进一步推进维度级位置感知适配的精细化程度,本节提出动态位置注意力调制方法(Dynamic Positional Attention Modulation, DyPAM)。DyPAM直接在RoPE的维度对结构上进行操作,实现\emph{输入条件化}的维度级调制与\emph{头级/层级}的结构偏置,从"静态选择"跃迁至"动态调制"。
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.85\linewidth]{assets/4_dypam_arch.pdf}
|
||
\caption{DyPAM方法框架图。DyPAM在RoPE之前,将输入条件化的维度级调制与头级和层级结构偏置共同施加于Query和Key表示,实现对位置注意力的细粒度动态适配。}
|
||
\label{fig:ch4_dypam_arch}
|
||
\end{figure}
|
||
|
||
\subsection{框架概述}
|
||
\label{subsec:dypam_overview}
|
||
|
||
DyPAM的核心设计原则是:针对注意力在维度、头、层和输入token四个层面的异质性行为,通过结构感知的乘性调制实现精细化的位置注意力适配。如图~\ref{fig:ch4_dypam_arch}所示,DyPAM直接在Query和Key表示上操作,联合建模两种互补的调制机制:
|
||
|
||
(1)\textbf{输入条件化的维度级调制}:根据输入上下文动态生成逐维度对的调制因子,使不同维度的位置贡献能够随输入变化而自适应调整。
|
||
|
||
(2)\textbf{头级与层级结构偏置}:引入与输入无关的静态偏置项,编码不同注意力头和不同层在位置维度上的持久性结构偏好。
|
||
|
||
在统一分析框架下,DyPAM的调制操作可形式化为:
|
||
\begin{equation}
|
||
\mathcal{M}_{\theta}^{\text{DyPAM}}(\mathbf{Z}^{(\ell,h)}; \mathbf{X}, \mathcal{R}_{dim}) =
|
||
\mathbf{s}^{(\ell,h)}(\mathbf{X}) \odot \mathbf{Z}^{(\ell,h)},
|
||
\label{eq:ch4_dypam_unified}
|
||
\end{equation}
|
||
其中$\mathbf{s}^{(\ell,h)}(\mathbf{X})$为同时融合了输入条件化信号和结构偏置的调制因子,作用于第$\ell$层第$h$头的Query/Key表示$\mathbf{Z}^{(\ell,h)}$。
|
||
|
||
\subsection{调制特征的构建}
|
||
\label{subsec:dypam_feature}
|
||
|
||
DyPAM在自注意力中的Query和Key表示上进行操作。在每个Transformer层$\ell$,这些表示由token级的隐藏状态$\mathbf{H}^{(\ell)} \in \mathbb{R}^{B \times T \times d}$通过式~\eqref{eq:ch4_qkv_proj}的线性投影获得,随后重塑为逐头表示$\mathbf{Q}^{(\ell,h)}, \mathbf{K}^{(\ell,h)} \in \mathbb{R}^{T \times d_h}$。
|
||
|
||
为实现输入条件化的注意力适配,DyPAM直接从同一隐藏状态$\mathbf{H}^{(\ell)}$推导调制特征。由于隐藏状态编码了token特异性的上下文信息,由此产生的调制特征天然具有token依赖性,且因输入不同而各异,为输入条件化调制提供了基础。具体地,DyPAM对隐藏状态施加轻量级低秩投影以生成调制特征:
|
||
\begin{equation}
|
||
\mathbf{M}^{(\ell)} = \mathbf{H}^{(\ell)} \mathbf{A}^{(\ell)} \mathbf{B}^{(\ell)}, \quad
|
||
\mathbf{M}^{(\ell)} \in \mathbb{R}^{B \times T \times (H \cdot d_e)},
|
||
\label{eq:ch4_dypam_feature}
|
||
\end{equation}
|
||
其中$\mathbf{A}^{(\ell)} \in \mathbb{R}^{d \times r}$和$\mathbf{B}^{(\ell)} \in \mathbb{R}^{r \times (H \cdot d_e)}$为可学习矩阵,秩$r \ll d$,$d_e$为每头特征维度。
|
||
|
||
投影后的特征被重塑为$H$个头特异性的成分,得到每个token位置$t$和注意力头$h$的调制特征$\mathbf{m}^{(\ell)}_{t,h} \in \mathbb{R}^{d_e}$。这些特征编码了每个token在不同头内的上下文表示信息,作为连接token级隐藏状态与后续维度级调制的中间桥梁。
|
||
|
||
\subsection{输入条件化的维度级调制}
|
||
\label{subsec:dypam_dim_modulation}
|
||
|
||
基于调制特征,DyPAM将其映射为与注意力中Query和Key表示对齐的维度级调制值。该映射决定了每个注意力维度的贡献如何以输入条件化的方式被调制。
|
||
|
||
对于每一层$\ell$,DyPAM引入可学习的维度嵌入矩阵,将调制特征投影到注意力维度空间。具体地,对Query和Key分别使用独立的嵌入矩阵:
|
||
\begin{equation}
|
||
\mathbf{E}^{(\ell)}_Q \in \mathbb{R}^{\frac{d_h}{2} \times d_e}, \quad
|
||
\mathbf{E}^{(\ell)}_K \in \mathbb{R}^{\frac{d_h}{2} \times d_e},
|
||
\label{eq:ch4_dypam_embedding}
|
||
\end{equation}
|
||
其中每一行对应一个注意力维度对。这一设计反映了RoPE诱导的结构:每个维度对共享相同的位置旋转,因此表现出相似的位置行为。通过为每个维度对分配单一调制值,DyPAM在尊重RoPE内在结构的同时降低了参数开销。该设计同时兼容分组查询注意力(GQA):Key端的调制在共享同一Key表示的头之间共享,而Query端的调制保持头特异性。
|
||
|
||
给定token位置$t$和注意力头$h$的调制特征$\mathbf{m}^{(\ell)}_{t,h} \in \mathbb{R}^{d_e}$,Query和Key的维度级调制分数分别计算为:
|
||
\begin{equation}
|
||
\mathbf{g}^{(\ell)}_{t,h,Q} = \mathbf{E}^{(\ell)}_Q \mathbf{m}^{(\ell)}_{t,h}, \quad
|
||
\mathbf{g}^{(\ell)}_{t,h,K} = \mathbf{E}^{(\ell)}_K \mathbf{m}^{(\ell)}_{t,h},
|
||
\label{eq:ch4_dypam_score}
|
||
\end{equation}
|
||
其中$\mathbf{g}^{(\ell)}_{t,h,Q}, \mathbf{g}^{(\ell)}_{t,h,K} \in \mathbb{R}^{d_h/2}$分别表示Query和Key维度对的调制分数。
|
||
|
||
输入条件化的维度级调制使DyPAM能够根据输入上下文自适应调整各注意力维度的贡献。通过将调制与RoPE诱导的维度对结构对齐,DyPAM选择性地调整位置信息如何影响注意力计算,在保持参数效率的同时实现了对位置注意力的精细化控制。
|
||
|
||
\subsection{头级与层级结构偏置}
|
||
\label{subsec:dypam_structural}
|
||
|
||
输入条件化的维度级调制捕获了token依赖的变化,但注意力行为在不同注意力头和不同网络层之间也表现出差异。为建模这种结构级的异质性,DyPAM引入与输入无关的头级和层级结构偏置。
|
||
|
||
对于每一层$\ell$,DyPAM维护一个层级偏置向量:
|
||
\begin{equation}
|
||
\boldsymbol{\beta}^{(\ell)} \in \mathbb{R}^{d_h/2},
|
||
\end{equation}
|
||
捕获该层对注意力维度的特有偏好。此外,对于每个注意力头$h$,引入头级偏置向量:
|
||
\begin{equation}
|
||
\boldsymbol{\beta}^{(\ell)}_{h} \in \mathbb{R}^{d_h/2},
|
||
\end{equation}
|
||
允许同一层内不同头维持各自的结构偏好。
|
||
|
||
这些偏置项叠加到维度级调制分数上。对于Query和Key,结构增强后的调制分数分别为:
|
||
\begin{equation}
|
||
\tilde{\mathbf{g}}^{(\ell)}_{t,h,Q} =
|
||
\mathbf{g}^{(\ell)}_{t,h,Q} + \boldsymbol{\beta}^{(\ell)}_{h,Q} + \boldsymbol{\beta}^{(\ell)}_{Q},
|
||
\label{eq:ch4_dypam_struct_q}
|
||
\end{equation}
|
||
\begin{equation}
|
||
\tilde{\mathbf{g}}^{(\ell)}_{t,h,K} =
|
||
\mathbf{g}^{(\ell)}_{t,h,K} + \boldsymbol{\beta}^{(\ell)}_{h,K} + \boldsymbol{\beta}^{(\ell)}_{K},
|
||
\label{eq:ch4_dypam_struct_k}
|
||
\end{equation}
|
||
其中$\mathbf{g}^{(\ell)}_{t,h,Q}$和$\mathbf{g}^{(\ell)}_{t,h,K}$为输入条件化的维度级分数。偏置项在token位置间共享,编码跨输入持久存在的结构偏好。
|
||
|
||
至此,调制分数同时融合了输入条件化的维度级调整与头级、层级的结构偏置,既捕获了token依赖的变化,又编码了持久性的结构偏好。
|
||
|
||
\subsection{调制因子的归一化与应用}
|
||
\label{subsec:dypam_application}
|
||
|
||
组合后的调制分数编码了输入条件化和结构化的维度级调整。DyPAM通过归一化步骤将这些分数映射为有界的调制因子,确保稳定、受控的适配。
|
||
|
||
对于每一层$\ell$、token位置$t$、注意力头$h$和维度对$i$,归一化调制因子计算为:
|
||
\begin{equation}
|
||
s^{(\ell)}_{t,h,i} = 1 + \alpha \cdot \big(\sigma(\tilde{g}^{(\ell)}_{t,h,i}) - 0.5\big),
|
||
\label{eq:ch4_dypam_factor}
|
||
\end{equation}
|
||
其中$\sigma(\cdot)$为Sigmoid函数,$\alpha$控制调制强度。该归一化将调制因子映射到有界区间$[1 - \alpha/2, 1 + \alpha/2]$,使其围绕原始尺度居中,防止偏离预训练表示。
|
||
|
||
调制因子在位置编码之前应用于Query和Key表示。设$\mathbf{q}^{(\ell,h)}_{t,i} \in \mathbb{R}^{2}$和$\mathbf{k}^{(\ell,h)}_{t,i} \in \mathbb{R}^{2}$分别为对应维度对$i$的Query和Key向量配对维度。同一对内的两个维度使用相同的调制因子:
|
||
\begin{equation}
|
||
\hat{\mathbf{q}}^{(\ell,h)}_{t,i} = s^{(\ell)}_{t,h,i} \cdot \mathbf{q}^{(\ell,h)}_{t,i}, \quad
|
||
\hat{\mathbf{k}}^{(\ell,h)}_{t,i} = s^{(\ell)}_{t,h,i} \cdot \mathbf{k}^{(\ell,h)}_{t,i}.
|
||
\label{eq:ch4_dypam_apply}
|
||
\end{equation}
|
||
|
||
调制后的Query和Key表示随后通过RoPE机制并用于标准注意力计算。通过在RoPE之前施加调制,DyPAM使适配与RoPE诱导的位置结构对齐——调制改变的是进入旋转的表示幅度,从而影响不同频率维度对在注意力计算中的相对重要性。
|
||
|
||
\subsection{DyPAM整体算法}
|
||
\label{subsec:dypam_algorithm}
|
||
|
||
DyPAM使用标准的语言建模交叉熵损失进行端到端训练。给定输入序列$\mathbf{x} = (x_1, \dots, x_T)$和目标序列$\mathbf{y} = (y_1, \dots, y_T)$,训练损失定义为:
|
||
\begin{equation}
|
||
\mathcal{L} = -\sum_{t=1}^{T} \log p(y_t \mid x_{\leq t}).
|
||
\label{eq:ch4_dypam_loss}
|
||
\end{equation}
|
||
|
||
整体前向计算与训练流程如算法~\ref{alg:ch4_dypam}所示。
|
||
|
||
\RestyleAlgo{ruled}
|
||
\begin{algorithm}[htp]
|
||
\caption{动态位置注意力调制(DyPAM)训练算法}
|
||
\label{alg:ch4_dypam}
|
||
\KwIn{输入序列$\mathbf{x}$,预训练RoPE大语言模型,DyPAM参数}
|
||
\KwOut{模型输出分布与训练损失$\mathcal{L}$}
|
||
获取$\mathbf{x}$的token嵌入\;
|
||
\For{每个Transformer层$\ell = 1, \dots, L$}{
|
||
计算隐藏状态$\mathbf{H}^{(\ell)}$\;
|
||
投影隐藏状态得到Query和Key表示$\mathbf{Q}^{(\ell)}, \mathbf{K}^{(\ell)}$(式~\ref{eq:ch4_qkv_proj})\;
|
||
重塑为逐头表示$\mathbf{Q}^{(\ell,h)}, \mathbf{K}^{(\ell,h)}$\;
|
||
从隐藏状态构建调制特征$\mathbf{m}^{(\ell)}_{t,h}$(式~\ref{eq:ch4_dypam_feature})\;
|
||
计算输入条件化的维度级调制分数(式~\ref{eq:ch4_dypam_score})\;
|
||
叠加头级和层级结构偏置(式~\ref{eq:ch4_dypam_struct_q}、\ref{eq:ch4_dypam_struct_k})\;
|
||
归一化得到调制因子(式~\ref{eq:ch4_dypam_factor})\;
|
||
将调制因子应用于Query和Key表示(式~\ref{eq:ch4_dypam_apply})\;
|
||
对调制后的Query和Key施加RoPE\;
|
||
使用调制后的表示计算注意力输出\;
|
||
}
|
||
计算模型输出与训练损失$\mathcal{L}$(式~\ref{eq:ch4_dypam_loss})\;
|
||
\end{algorithm}
|
||
|
||
DyPAM的主要超参数包括:调制嵌入维度$d_e$(默认64)、低秩投影秩$r$(默认128)、调制强度$\alpha$(默认0.3)。与RoSA相比,DyPAM不需要显式指定低频维度比例或层选择参数,因为其调制信号覆盖\emph{所有}维度对并在\emph{所有}层上部署,通过学习到的调制因子自动实现差异化分配。
|
||
|
||
|
||
\section{两种方法的统一视角与比较分析}
|
||
\label{sec:ch4_unified_view}
|
||
|
||
RoSA和DyPAM均针对维度级位置结构异质性($\mathcal{R}_{dim}$),但在设计理念和技术实现上形成了从"选择性增强"到"全面调制"的递进关系。本节从统一框架的视角对两种方法进行系统比较。
|
||
|
||
\subsection{统一框架下的形式化对比}
|
||
|
||
在结构感知调制统一框架(式~\ref{eq:ch1_unified_M})下,两种方法可以统一理解为乘性调制的不同实例化:
|
||
|
||
\textbf{RoSA}采用"选择+增强"的调制策略。其调制操作仅作用于维度空间的一个子集(低频维度),调制信号为上下文感知的缩放因子,形式上对应式~\eqref{eq:ch4_rosa_unified}。同时,通过DLS在层空间上进行二值选择(活跃/非活跃),实现层级的稀疏化适配。
|
||
|
||
\textbf{DyPAM}采用"全覆盖+精细化调制"的策略。其调制操作覆盖所有维度对,调制信号同时融合输入条件化成分和结构偏置成分,形式上对应式~\eqref{eq:ch4_dypam_unified}。调制因子被归一化到以1为中心的有界区间,通过学习实现差异化而非显式选择。
|
||
|
||
\subsection{设计维度对比}
|
||
|
||
表~\ref{tab:ch4_compare}从多个设计维度对两种方法进行了系统比较。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{RoSA与DyPAM的设计维度对比}
|
||
\label{tab:ch4_compare}
|
||
\small
|
||
\begin{tabular}{lcc}
|
||
\toprule
|
||
\textbf{设计维度} & \textbf{RoSA} & \textbf{DyPAM} \\
|
||
\midrule
|
||
维度选择 & 静态子集($r_{\text{low}}$) & 全覆盖 \\
|
||
调制粒度 & 逐维度 & 逐维度对 \\
|
||
输入依赖性 & 适配信号输入依赖 & 调制因子输入依赖 \\
|
||
头级差异化 & 共享信号 & 头级偏置 \\
|
||
层级策略 & 二值选择(DLS) & 层级偏置 \\
|
||
调制作用点 & RoPE之后 & RoPE之前 \\
|
||
归一化机制 & 缩放因子$\alpha$ & Sigmoid有界区间 \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
\end{table}
|
||
|
||
\subsection{互补性与递进关系}
|
||
|
||
从设计演进的角度看,DyPAM可以理解为对RoSA的全面推进:
|
||
|
||
(1)\textbf{从静态选择到动态调制}。RoSA通过$r_{\text{low}}$静态划定增强范围,DyPAM则让所有维度对都参与调制,通过学习自动决定每个维度对的调制幅度。
|
||
|
||
(2)\textbf{从维度级到维度对级}。RoSA在逐维度粒度上操作,DyPAM则与RoPE的维度对结构严格对齐,以维度对为基本调制单位。
|
||
|
||
(3)\textbf{从层选择到层偏置}。RoSA通过DLS对层进行二值选择,DyPAM则通过可学习的层级偏置实现柔性的层间差异化。
|
||
|
||
(4)\textbf{引入头级感知}。RoSA在所有头之间共享适配信号,DyPAM则通过头级偏置允许不同头维持独立的位置偏好。
|
||
|
||
两种方法共同验证了一个核心观点:在RoPE驱动的大语言模型中,维度级位置结构异质性是影响适配效果的关键因素。感知并利用这种异质性,无论是通过选择性增强还是全面精细化调制,都能够显著提升参数高效微调的效能。
|
||
|
||
|
||
\section{实验验证与结果分析}
|
||
\label{sec:ch4_experiments}
|
||
|
||
本节通过大量实验系统评估RoSA和DyPAM的有效性。实验围绕以下核心问题展开:(1)两种方法相比现有PEFT基线方法的性能优势;(2)方法在不同骨干模型上的泛化能力;(3)跨模型规模的可扩展性;(4)各组件的贡献分析;(5)关键超参数的敏感性分析;(6)学习到的调制模式的可解释性分析。
|
||
|
||
\subsection{实验设置}
|
||
\label{subsec:ch4_exp_setup}
|
||
|
||
\subsubsection{评测任务与数据集}
|
||
|
||
遵循LLM-Adapters的标准设置,本章在两类代表性任务上进行评估:
|
||
|
||
\textbf{常识推理任务}。在八个基准数据集上评估:BoolQ、PIQA、Social IQA、ARC-Challenge、ARC-Easy、OBQA、HellaSwag和WinoGrande,使用Commonsense15K作为训练数据。
|
||
|
||
\textbf{数学推理任务}。在七个基准数据集上评估:MultiArith、GSM8K、AddSub、AQuA、SingleEq、SVAMP和MAWPS,使用Math10K作为训练数据。
|
||
|
||
所有任务使用准确率作为评估指标,同时报告Micro-Avg(样本加权平均)和Macro-Avg(任务等权平均)。
|
||
|
||
\subsubsection{骨干模型}
|
||
|
||
\textbf{RoSA实验}采用三种广泛使用的大语言模型作为骨干:Qwen2.5-7B、Llama-3.1-8B和Gemma2-9B。在可扩展性实验中进一步使用Qwen2.5系列的0.5B、1.5B、3B和7B四个规模。
|
||
|
||
\textbf{DyPAM实验}采用三种基于RoPE的大语言模型家族:LLaMA 3.2-3B、Qwen3-8B和Gemma3-4B。在可扩展性实验中使用Qwen3系列的0.6B、1.7B、4B和8B四个规模。
|
||
|
||
\subsubsection{基线方法}
|
||
|
||
两组实验均与多类主流PEFT方法进行比较,覆盖不同的适配策略:低秩方法(LoRA、DoRA、AdaLoRA)、结构化矩阵方法(BOFT/OFT、C3A、BONE)、轻量缩放方法(IA$^3$、LN Tuning/VeRA)、频域方法(FourierFT)、稀疏适配方法(SHiRA)。DyPAM的实验中还包含RoSA作为基线之一,以直接比较两种方法。
|
||
|
||
\subsubsection{实现细节}
|
||
|
||
\textbf{RoSA实验}在NVIDIA RTX 3090上使用PyTorch和HuggingFace Transformers进行。采用AdamW优化器,学习率1e-3,余弦学习率调度。RoSA超参数:$r_{\text{low}} = 0.25$,$\alpha = 0.1$,低秩投影维度128,$k_{\text{ratio}} = 0.5$,$u = 40$步,$p_{\text{exploit}} = 0.8$。使用BF16混合精度与DeepSpeed ZeRO-1优化。
|
||
|
||
\textbf{DyPAM实验}在NVIDIA RTX 4090上使用DeepSpeed和BF16精度进行。DyPAM超参数:$d_e = 64$,$r = 128$,$\alpha = 0.3$。对基线方法在可比可训练参数规模下进行公平比较。
|
||
|
||
\subsection{RoSA实验结果与分析}
|
||
\label{subsec:ch4_rosa_results}
|
||
|
||
\subsubsection{常识推理性能}
|
||
|
||
表~\ref{tab:ch4_rosa_common}展示了RoSA与基线方法在常识推理任务上的性能比较。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{RoSA与基线方法在常识推理任务上的性能比较。在三种骨干模型上,RoSA在可比参数预算下均取得最优平均性能。*表示相比最优基线的统计显著提升(双侧t检验,$p<0.05$)。}
|
||
\label{tab:ch4_rosa_common}
|
||
\small
|
||
\resizebox{\linewidth}{!}{
|
||
\renewcommand{\arraystretch}{0.96}
|
||
\begin{tabular}{l|lcccccccccc}
|
||
\toprule
|
||
\textbf{骨干模型} & \textbf{方法} & \textbf{参数(\%)} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} \\
|
||
\midrule
|
||
\multirow{9}{*}{\textbf{Qwen2.5-7B}}
|
||
& LoRA & 0.527 & 66.9 & 86.8 & 76.7 & 88.2 & 93.9 & 87.2 & 89.7 & 72.2 & 84.3 \\
|
||
& DoRA & 0.546 & 68.3 & \underline{87.4} & 77.2 & \underline{89.4} & 95.2 & 88.0 & \underline{90.0} & 70.4 & 84.9 \\
|
||
& AdaLoRA & 0.396 & \underline{69.7} & \underline{87.4} & \underline{77.9} & 88.9 & \textbf{95.7} & \underline{89.4} & \textbf{90.6} & 72.6 & \underline{85.6} \\
|
||
& BOFT & 0.023 & 68.5 & 86.0 & 76.1 & 87.5 & 94.6 & 82.4 & 86.1 & 65.3 & 82.4 \\
|
||
& VERA & 0.018 & 55.4 & 83.7 & 74.1 & 85.1 & 93.6 & 77.2 & 82.2 & 64.1 & 77.9 \\
|
||
& C3A & 0.665 & 69.5 & 87.0 & 77.5 & 88.9 & 95.2 & 86.6 & 89.9 & 71.6 & 85.0 \\
|
||
& BONE & 0.291 & 67.6 & 84.9 & 76.8 & 85.2 & 94.3 & 87.4 & 88.3 & \textbf{77.9} & 83.9 \\
|
||
& LN Tuning & 0.001 & 62.5 & 86.0 & 73.3 & 85.0 & 93.3 & 77.2 & 80.9 & 62.1 & 78.4 \\
|
||
& \textbf{RoSA} & 0.261 & \textbf{70.5} & \textbf{88.0} & \textbf{79.1} & \textbf{90.1} & \underline{95.3} & \textbf{89.6} & \textbf{90.6} & \underline{73.7} & \textbf{85.9*} \\
|
||
\midrule
|
||
\multirow{9}{*}{\textbf{Llama3.1-8B}}
|
||
& LoRA & 0.520 & \textbf{71.7} & 86.8 & 75.5 & 83.1 & \underline{92.7} & 82.4 & \underline{88.6} & 68.8 & 83.7 \\
|
||
& DoRA & 0.537 & 71.5 & 86.9 & 75.8 & 83.2 & 92.5 & 82.2 & 88.5 & 70.0 & 83.8 \\
|
||
& AdaLoRA & 0.390 & 71.1 & 86.2 & 74.7 & \textbf{83.6} & 92.6 & 82.8 & 87.2 & \underline{70.8} & 83.0 \\
|
||
& BOFT & 0.028 & 70.5 & 85.5 & 72.4 & 80.0 & 91.9 & 79.0 & 82.4 & 62.5 & 79.7 \\
|
||
& VERA & 0.017 & 68.8 & 82.9 & 68.4 & 77.6 & 91.4 & 77.4 & 75.2 & 57.4 & 75.2 \\
|
||
& C3A & 0.674 & \underline{71.6} & \textbf{87.7} & \underline{76.2} & 83.1 & 92.6 & \textbf{84.4} & 88.3 & 70.6 & \underline{83.9} \\
|
||
& BONE & 0.274 & 64.7 & 78.4 & 74.2 & 72.1 & 86.8 & 78.2 & 81.8 & 70.3 & 77.6 \\
|
||
& LN Tuning & 0.003 & 70.1 & 84.6 & 70.9 & 80.2 & 91.8 & 78.8 & 80.6 & 61.8 & 78.6 \\
|
||
& \textbf{RoSA} & 0.329 & \textbf{71.7} & \underline{87.1} & \textbf{76.4} & \underline{83.3} & \textbf{92.8} & \underline{83.6} & \textbf{89.0} & \textbf{74.8} & \textbf{84.4*} \\
|
||
\midrule
|
||
\multirow{9}{*}{\textbf{Gemma2-9B}}
|
||
& LoRA & 0.581 & 69.3 & 88.0 & 77.8 & \textbf{88.0} & \textbf{95.5} & \underline{87.4} & 89.8 & \underline{77.4} & 85.4 \\
|
||
& DoRA & 0.601 & 70.0 & 87.3 & \underline{78.1} & 86.1 & 94.3 & 87.0 & 89.4 & 76.8 & 85.0 \\
|
||
& AdaLoRA & 0.437 & \underline{72.3} & \underline{88.2} & 77.4 & 87.5 & \textbf{95.5} & 86.2 & 89.0 & 73.4 & 85.1 \\
|
||
& BOFT & 0.029 & 65.2 & 83.2 & 72.4 & 81.7 & 91.1 & 75.0 & 80.3 & 62.1 & 77.7 \\
|
||
& VERA & 0.020 & 65.2 & 79.8 & 66.0 & 73.8 & 85.8 & 61.8 & 70.5 & 56.1 & 70.9 \\
|
||
& C3A & 0.699 & 70.7 & 87.7 & 77.7 & 86.9 & \underline{94.5} & 86.8 & \textbf{90.4} & 75.3 & \underline{85.5} \\
|
||
& BONE & 0.319 & 60.3 & 75.3 & 66.3 & 69.0 & 83.7 & 74.0 & 67.3 & 64.3 & 68.7 \\
|
||
& LN Tuning & 0.007 & 61.2 & 78.1 & 66.1 & 73.2 & 85.0 & 65.0 & 71.9 & 55.1 & 70.7 \\
|
||
& \textbf{RoSA} & 0.363 & \textbf{74.0} & \textbf{88.3} & \textbf{78.5} & \underline{87.8} & \textbf{95.5} & \textbf{87.8} & \underline{90.0} & \textbf{77.5} & \textbf{86.2*} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
实验结果表明,RoSA在所有三种骨干模型上均取得了最优的平均性能,同时保持了较低的可训练参数量。在Qwen2.5-7B上,RoSA以0.261\%的参数量(低于大多数基线)达到85.9\%的Micro-Avg;在Llama3.1-8B上,以0.329\%参数量达到84.4\%;在Gemma2-9B上,以0.363\%参数量达到86.2\%。
|
||
|
||
从基线方法的比较中可以观察到:(1)AdaLoRA的动态秩分配策略带来了较好的性能,这与DLS模块动态选择层的设计原则一致;(2)LN Tuning虽然参数极少但表现合理,进一步验证了使用LayerNorm作为层重要性代理的合理性。
|
||
|
||
\subsubsection{数学推理性能}
|
||
|
||
表~\ref{tab:ch4_rosa_math}展示了RoSA在Qwen2.5-7B上数学推理任务的结果。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{RoSA与基线方法在Qwen2.5-7B上数学推理任务的性能比较。}
|
||
\label{tab:ch4_rosa_math}
|
||
\small
|
||
\resizebox{\linewidth}{!}{
|
||
\renewcommand{\arraystretch}{0.95}
|
||
\begin{tabular}{lcccccccc}
|
||
\toprule
|
||
\textbf{方法} & \textbf{参数(\%)} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} \\
|
||
\midrule
|
||
LoRA & 0.527 & 93.0 & 68.7 & 88.8 & 33.8 & \underline{88.9} & 79.2 & 88.2 \\
|
||
DoRA & 0.546 & 92.3 & \underline{70.0} & 88.6 & 34.6 & 88.5 & 79.6 & 87.3 \\
|
||
AdaLoRA & 0.396 & 90.0 & 68.8 & 85.3 & 33.8 & 85.6 & 78.9 & 84.0 \\
|
||
BOFT & 0.023 & 89.6 & 67.8 & 82.5 & 31.1 & 86.2 & 75.2 & 80.2 \\
|
||
VERA & 0.018 & 72.5 & 63.7 & 80.7 & 31.1 & 80.3 & 74.2 & 83.1 \\
|
||
C3A & 0.665 & \textbf{95.3} & 67.1 & \underline{90.3} & \textbf{35.4} & \textbf{90.1} & \underline{82.1} & \underline{89.4} \\
|
||
BONE & 0.291 & 92.8 & 66.6 & 89.6 & 33.4 & 88.3 & \underline{82.1} & 89.0 \\
|
||
LN Tuning & 0.001 & 79.6 & 63.6 & 72.1 & 34.2 & 75.3 & 68.1 & 70.1 \\
|
||
\textbf{RoSA} & 0.261 & \underline{94.3} & \textbf{71.3} & \textbf{92.1} & \underline{35.0} & \textbf{90.1} & \textbf{82.2} & \textbf{92.0} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
数学推理任务上的结果与常识推理一致,RoSA在大部分基准数据集上取得最优或次优性能,综合Micro-Avg达到80.1\%,显著优于所有基线方法。这表明RoSA的维度级结构感知适配不仅适用于语义理解类任务,对数值计算与多步推理同样有效。
|
||
|
||
\subsubsection{跨模型规模的可扩展性}
|
||
|
||
表~\ref{tab:ch4_rosa_scale}展示了RoSA在不同规模Qwen2.5模型上的可扩展性。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{RoSA在不同规模Qwen2.5模型上常识推理任务的可扩展性比较。}
|
||
\label{tab:ch4_rosa_scale}
|
||
\small
|
||
\begin{tabular}{lcccc}
|
||
\toprule
|
||
\textbf{方法} & \textbf{0.5B} & \textbf{1.5B} & \textbf{3B} & \textbf{7B} \\
|
||
\midrule
|
||
AdaLoRA & \underline{53.5} & \underline{75.1} & 81.1 & \underline{85.6} \\
|
||
C3A & 53.1 & 74.9 & \underline{81.2} & 85.0 \\
|
||
\textbf{RoSA} & \textbf{53.7} & \textbf{75.5} & \textbf{82.0} & \textbf{85.9} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
\end{table}
|
||
|
||
结果显示,随着模型规模增大,所有方法的性能均有提升,但RoSA在各个规模上始终保持明显优势。这表明RoSA的结构感知适配策略具有良好的可扩展性和鲁棒性。
|
||
|
||
\subsection{DyPAM实验结果与分析}
|
||
\label{subsec:ch4_dypam_results}
|
||
|
||
\subsubsection{数学推理性能}
|
||
|
||
表~\ref{tab:ch4_dypam_math}展示了DyPAM在数学推理任务上的性能。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{DyPAM与基线方法在数学推理任务上的性能比较。*表示统计显著提升。}
|
||
\label{tab:ch4_dypam_math}
|
||
\small
|
||
\resizebox{\linewidth}{!}{
|
||
\renewcommand{\arraystretch}{0.9}
|
||
\begin{tabular}{l|lcccccccccc}
|
||
\toprule
|
||
\textbf{骨干} & \textbf{方法} & \textbf{参数(\%)} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} & \textbf{Macro-Avg$\uparrow$} \\
|
||
\midrule
|
||
\multirow{10}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}}
|
||
& LoRA & 1.12 & 71.50 & 33.21 & 78.48 & 22.44 & 81.50 & 54.10 & 76.47 & 54.96 & 59.67 \\
|
||
& AdaLoRA & 2.22 & 75.67 & 36.32 & 80.51 & 22.83 & 87.80 & 55.60 & 78.57 & 57.90 & 62.47 \\
|
||
& OFT & 0.73 & 87.17 & \textbf{40.18} & \underline{85.82} & \underline{24.02} & 86.42 & 61.50 & \textbf{84.03} & \underline{62.75} & \underline{67.02} \\
|
||
& Bone & 1.14 & \underline{87.50} & 39.73 & 85.57 & 23.62 & 86.61 & \textbf{63.70} & 81.93 & 63.03 & 66.95 \\
|
||
& IA$^3$ & 0.02 & 58.33 & 27.37 & 68.61 & 20.47 & 72.83 & 47.90 & 58.82 & 46.89 & 50.62 \\
|
||
& LN Tuning & 0.01 & 58.00 & 26.38 & 66.58 & 21.26 & 74.80 & 44.90 & 60.08 & 46.01 & 50.29 \\
|
||
& FourierFT & 0.73 & 78.67 & 33.21 & 82.03 & 20.47 & 85.43 & 54.30 & 77.31 & 56.72 & 61.63 \\
|
||
& SHiRA & 1.12 & 82.50 & 38.82 & 84.81 & \underline{24.02} & \underline{87.99} & 56.90 & 81.93 & 60.59 & 65.28 \\
|
||
& RoSA & 0.54 & 84.33 & 37.91 & 82.78 & 22.83 & 87.01 & 52.50 & 78.99 & 59.02 & 63.77 \\
|
||
& \textbf{DyPAM} & 0.92 & \textbf{88.50} & \underline{39.88} & \textbf{86.33} & \textbf{25.20} & \textbf{88.78} & \underline{63.00} & \textbf{84.03} & \textbf{63.58*} & \textbf{67.96*} \\
|
||
\midrule
|
||
\multirow{10}{*}{\rotatebox{90}{\textbf{Qwen3-8B}}}
|
||
& LoRA & 0.79 & 97.67 & 74.91 & 89.87 & 35.83 & 90.55 & 84.70 & 89.08 & 82.04 & 80.37 \\
|
||
& AdaLoRA & 1.57 & 95.17 & 73.01 & 90.63 & 37.01 & 92.32 & 84.80 & 91.60 & 81.62 & 80.65 \\
|
||
& OFT & 0.51 & 95.67 & 73.46 & 90.38 & 33.07 & 94.09 & 84.90 & 91.60 & 81.80 & 80.45 \\
|
||
& Bone & 0.81 & \underline{98.00} & 72.25 & \underline{91.65} & 33.46 & 93.90 & 83.80 & 90.34 & 81.55 & 80.49 \\
|
||
& IA$^3$ & 0.02 & 92.50 & 72.18 & 84.81 & 35.04 & 86.61 & 80.90 & 86.55 & 78.49 & 76.94 \\
|
||
& LN Tuning & 0.00 & 91.67 & 68.69 & 85.32 & \underline{39.76} & 87.40 & 78.00 & 85.71 & 77.01 & 76.65 \\
|
||
& FourierFT & 0.37 & 94.50 & 70.05 & 87.34 & 31.50 & 86.81 & 82.70 & 81.09 & 78.28 & 76.28 \\
|
||
& SHiRA & 0.79 & 94.83 & \underline{75.36} & 90.13 & 37.01 & 93.90 & \textbf{85.70} & 90.34 & \underline{82.57} & \underline{81.04} \\
|
||
& RoSA & 0.36 & 97.83 & 74.07 & 90.38 & 35.43 & \underline{94.49} & 84.80 & \underline{92.02} & 82.48 & 81.29 \\
|
||
& \textbf{DyPAM} & 0.61 & \textbf{99.17} & \textbf{76.72} & \textbf{91.90} & \textbf{40.94} & \textbf{95.28} & \underline{85.50} & \textbf{92.86} & \textbf{84.24*} & \textbf{83.20*} \\
|
||
\midrule
|
||
\multirow{10}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}}
|
||
& LoRA & 1.33 & 86.00 & 51.25 & 72.41 & 25.98 & 75.59 & 62.20 & 75.21 & 63.26 & 64.09 \\
|
||
& AdaLoRA & 2.62 & 82.67 & 51.86 & 66.33 & 31.50 & 73.82 & 62.30 & 73.95 & 62.49 & 63.20 \\
|
||
& OFT & 0.75 & 85.83 & \underline{54.28} & 72.91 & \underline{32.28} & 75.59 & \textbf{63.80} & \underline{76.47} & \underline{65.02} & \underline{65.88} \\
|
||
& Bone & 1.41 & \underline{86.17} & 45.87 & 71.39 & 30.31 & 72.64 & 55.10 & 73.11 & 59.69 & 62.08 \\
|
||
& IA$^3$ & 0.03 & 42.67 & 38.89 & 40.51 & 27.17 & 40.75 & 37.20 & 37.39 & 38.62 & 37.80 \\
|
||
& LN Tuning & 0.01 & 32.67 & 30.63 & 45.06 & 23.62 & 56.69 & 40.80 & 37.82 & 37.64 & 38.18 \\
|
||
& FourierFT & 1.10 & 60.83 & 31.24 & 65.32 & 28.35 & 66.73 & 46.30 & 65.97 & 47.89 & 52.10 \\
|
||
& SHiRA & 1.33 & 72.67 & 42.08 & \underline{73.16} & 31.50 & \textbf{76.57} & 61.30 & 75.63 & 58.92 & 61.84 \\
|
||
& RoSA & 0.40 & 34.50 & 38.51 & 66.84 & 31.10 & 63.19 & 43.70 & 62.18 & 45.53 & 48.58 \\
|
||
& \textbf{DyPAM} & 0.62 & \textbf{86.33} & \textbf{55.19} & \textbf{73.42} & \textbf{32.68} & \underline{76.18} & \underline{62.70} & \textbf{76.89} & \textbf{65.28*} & \textbf{66.20*} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
DyPAM在所有三种骨干模型上均取得了最优的Macro-Avg和Micro-Avg性能,且改进在统计上显著。值得注意的是,在Qwen3-8B上,DyPAM的Macro-Avg达到83.20\%、Micro-Avg达到84.24\%,显著优于RoSA的81.29\%/82.48\%(同为维度级适配方法),验证了从"静态选择"到"动态调制"的设计改进的有效性。
|
||
|
||
在Gemma3-4B上,RoSA的表现明显下降(Macro-Avg仅48.58\%),这可能源于其固定的低频维度选择比例在该架构上未能适配,而DyPAM的自适应调制机制成功避免了这一问题,取得66.20\%的Macro-Avg。
|
||
|
||
\subsubsection{常识推理性能}
|
||
|
||
表~\ref{tab:ch4_dypam_common}展示了DyPAM在常识推理任务上的性能。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{DyPAM与基线方法在常识推理任务上的性能比较。*表示统计显著提升。}
|
||
\label{tab:ch4_dypam_common}
|
||
\small
|
||
\resizebox{\linewidth}{!}{
|
||
\renewcommand{\arraystretch}{0.9}
|
||
\begin{tabular}{l|lcccccccccc}
|
||
\toprule
|
||
\textbf{骨干} & \textbf{方法} & \textbf{参数(\%)} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Macro-Avg$\uparrow$} \\
|
||
\midrule
|
||
\multirow{10}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}}
|
||
& LoRA & 1.12 & 63.61 & 79.71 & 66.94 & 69.45 & 84.05 & 67.00 & 73.94 & 55.56 & 70.03 \\
|
||
& AdaLoRA & 2.22 & 63.52 & 78.94 & 67.09 & 68.94 & 85.14 & 70.20 & 78.11 & 56.35 & 71.04 \\
|
||
& OFT & 0.73 & \underline{65.63} & 79.54 & 70.37 & 70.39 & 85.06 & 71.80 & \underline{83.15} & \underline{66.38} & \underline{74.04} \\
|
||
& Bone & 1.14 & 64.56 & 75.68 & 69.34 & 64.42 & 79.76 & 70.20 & 75.92 & 65.75 & 70.70 \\
|
||
& IA$^3$ & 0.02 & 62.32 & 77.09 & 59.67 & 57.94 & 77.10 & 57.40 & 50.48 & 52.25 & 61.78 \\
|
||
& LN Tuning & 0.01 & 62.51 & 76.99 & 59.52 & 59.81 & 76.52 & 59.00 & 52.02 & 52.17 & 62.32 \\
|
||
& FourierFT & 0.73 & 62.14 & 79.49 & 61.98 & 61.86 & 80.93 & 62.40 & 73.21 & 49.09 & 66.39 \\
|
||
& SHiRA & 1.12 & 65.23 & \underline{79.65} & 69.14 & \underline{71.16} & \underline{84.97} & \underline{71.20} & 83.18 & 65.67 & 73.78 \\
|
||
& RoSA & 0.54 & 64.53 & \underline{79.65} & \underline{69.86} & 69.28 & 84.43 & 70.80 & 83.12 & 63.54 & 73.15 \\
|
||
& \textbf{DyPAM} & 0.92 & \textbf{65.93} & \textbf{79.76} & \textbf{70.88} & \textbf{70.39} & \textbf{85.19} & \textbf{71.80} & \textbf{83.71} & \textbf{65.35} & \textbf{74.13*} \\
|
||
\midrule
|
||
\multirow{10}{*}{\rotatebox{90}{\textbf{Qwen3-8B}}}
|
||
& LoRA & 0.79 & 70.49 & 86.34 & 77.18 & 90.19 & 96.51 & 87.60 & 89.50 & 72.85 & 83.83 \\
|
||
& AdaLoRA & 1.57 & 70.73 & 86.51 & 76.71 & 90.36 & 96.55 & 87.20 & 88.92 & 72.38 & 83.67 \\
|
||
& OFT & 0.51 & 69.97 & 86.83 & 76.56 & 89.93 & 96.97 & 88.00 & 89.17 & \underline{76.48} & 84.24 \\
|
||
& Bone & 0.81 & 69.02 & 85.31 & 75.64 & 88.91 & 95.58 & 87.60 & 89.30 & 76.56 & 83.49 \\
|
||
& IA$^3$ & 0.02 & 69.51 & 86.34 & 76.71 & 90.27 & 96.09 & 84.40 & 85.12 & 66.77 & 81.90 \\
|
||
& LN Tuning & 0.00 & 69.33 & 86.40 & 75.95 & 90.27 & 96.00 & 83.00 & 83.86 & 65.43 & 81.28 \\
|
||
& FourierFT & 0.37 & 69.54 & 84.49 & 73.13 & 85.92 & 95.29 & 77.80 & 80.48 & 62.27 & 78.62 \\
|
||
& SHiRA & 0.79 & \underline{70.83} & \underline{87.05} & \underline{77.33} & \underline{90.36} & \underline{96.97} & \underline{88.20} & \underline{89.56} & 75.77 & \underline{84.51} \\
|
||
& RoSA & 0.36 & 68.96 & 86.94 & 75.33 & 89.85 & 96.38 & \underline{88.20} & 89.43 & 76.16 & 83.91 \\
|
||
& \textbf{DyPAM} & 0.61 & \textbf{70.89} & \textbf{87.11} & \textbf{77.33} & \textbf{90.53} & \textbf{97.05} & \textbf{88.80} & \textbf{89.53} & \textbf{76.80} & \textbf{84.75*} \\
|
||
\midrule
|
||
\multirow{10}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}}
|
||
& LoRA & 1.33 & 65.72 & 79.71 & 69.40 & 74.49 & 87.08 & 71.00 & 74.53 & 55.01 & 72.12 \\
|
||
& AdaLoRA & 2.62 & 66.09 & 79.49 & 68.73 & \underline{76.54} & \underline{89.02} & 74.00 & 73.20 & 58.09 & 73.14 \\
|
||
& OFT & 0.75 & 65.69 & \underline{81.99} & \underline{74.51} & 76.71 & 88.47 & \underline{78.00} & \underline{83.86} & \underline{65.27} & \underline{76.81} \\
|
||
& Bone & 1.41 & 64.68 & 75.35 & 71.24 & 70.39 & 82.83 & 75.80 & 78.33 & 64.48 & 72.89 \\
|
||
& IA$^3$ & 0.02 & 62.17 & 71.49 & 57.32 & 57.51 & 73.19 & 55.20 & 44.89 & 57.85 & 59.95 \\
|
||
& LN Tuning & 0.00 & 62.60 & 66.70 & 49.85 & 49.91 & 63.59 & 45.20 & 47.29 & 60.46 & 55.70 \\
|
||
& FourierFT & 0.37 & 63.94 & 75.57 & 67.14 & 67.32 & 76.05 & 57.80 & 71.81 & 59.35 & 67.37 \\
|
||
& SHiRA & 0.79 & 65.57 & 82.25 & 74.53 & 76.19 & 89.71 & 78.20 & 83.19 & 64.48 & 76.77 \\
|
||
& RoSA & 0.40 & 63.70 & 79.54 & 67.40 & 72.27 & 86.66 & 69.40 & 48.53 & 47.51 & 66.88 \\
|
||
& \textbf{DyPAM} & 0.62 & \textbf{66.21} & \textbf{82.59} & \textbf{74.82} & \textbf{77.13} & \textbf{89.23} & \textbf{79.20} & \textbf{84.09} & \textbf{65.35} & \textbf{77.33*} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
DyPAM在所有三种骨干模型的常识推理任务上均取得统计显著的最优Macro-Avg性能。在LLaMA 3.2-3B上达到74.13\%,在Qwen3-8B上达到84.75\%,在Gemma3-4B上达到77.33\%。常识推理与数学推理上的一致性提升表明,DyPAM的位置注意力调制机制具有跨任务域的普适性。值得注意的是,在Gemma3-4B上,RoSA的Macro-Avg仅为66.88\%,远低于DyPAM的77.33\%,进一步验证了动态调制相对于静态维度选择的优势。
|
||
|
||
\subsubsection{跨模型规模的可扩展性}
|
||
|
||
表~\ref{tab:ch4_dypam_scale}展示了DyPAM在Qwen3系列不同模型规模上的可扩展性分析。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{DyPAM与主要基线方法在不同模型规模上的数学推理性能比较(Macro-Avg准确率\%)。}
|
||
\label{tab:ch4_dypam_scale}
|
||
\small
|
||
\begin{tabular}{lcccc}
|
||
\toprule
|
||
\textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} & \textbf{Qwen3-8B} \\
|
||
\midrule
|
||
LoRA & 64.06 & 66.64 & 75.60 & 80.37 \\
|
||
OFT & \underline{65.96} & \underline{67.81} & 75.54 & 80.45 \\
|
||
SHiRA & 63.95 & 64.65 & 73.33 & \underline{81.04} \\
|
||
RoSA & 63.99 & 67.38 & \underline{77.92} & 81.29 \\
|
||
\textbf{DyPAM} & \textbf{66.13} & \textbf{69.24} & \textbf{78.24} & \textbf{83.20} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
\end{table}
|
||
|
||
DyPAM在Qwen3系列四个规模(0.6B至8B)上均超越所有基线方法。随模型规模增大,DyPAM与基线之间的性能差距进一步扩大(0.6B上超过OFT 0.17个百分点,8B上超过RoSA 1.91个百分点),表明DyPAM能够更充分地利用大模型增加的表征容量来发挥位置感知调制的优势。
|
||
|
||
\subsection{消融实验与深入分析}
|
||
\label{subsec:ch4_ablation}
|
||
|
||
\subsubsection{RoSA组件消融}
|
||
|
||
表~\ref{tab:ch4_rosa_ablation}展示了RoSA各组件的消融分析,在Qwen2.5-7B常识推理任务上进行。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{RoSA消融实验结果(Qwen2.5-7B常识推理Micro-Avg)。}
|
||
\label{tab:ch4_rosa_ablation}
|
||
\small
|
||
\begin{tabular}{lc}
|
||
\toprule
|
||
\textbf{变体} & \textbf{Micro-Avg$\uparrow$} \\
|
||
\midrule
|
||
RoSA(完整) & \textbf{85.9} \\
|
||
RoSA-RoAEonly(移除DLS) & 84.8 \\
|
||
RoSA-RoAE0.5($r_{\text{low}}=0.5$,含DLS) & 85.6 \\
|
||
RoSA-Lr128(用LoRA$r$=128替代RoAE,含DLS) & 83.9 \\
|
||
RoSA-Lr64(用LoRA$r$=64替代RoAE,含DLS) & 80.7 \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
\end{table}
|
||
|
||
消融分析揭示:(1)移除DLS导致1.1\%的下降(85.9→84.8),证明动态层选择的贡献显著;(2)将$r_{\text{low}}$从0.25增至0.5(即扩大增强范围到一半维度)导致0.3\%下降(85.9→85.6),表明更集中地增强低频子空间更为有效;(3)用标准LoRA替代RoAE后性能大幅下降(85.9→83.9/80.7),说明RoPE感知的频率定向增强优于通用低秩适配。
|
||
|
||
\subsubsection{DyPAM组件消融}
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.9\linewidth]{assets/4_dypam_ablation.pdf}
|
||
\caption{DyPAM消融与超参数敏感性分析。(a)移除各组件后的性能变化;(b)调制强度$\alpha$的影响。}
|
||
\label{fig:ch4_dypam_ablation}
|
||
\end{figure}
|
||
|
||
DyPAM的消融实验表明,每个核心组件在整体性能中发挥互补作用:移除任何单一组件均导致一致性的性能下降,表明DyPAM的性能提升源自各组件的联合设计而非孤立的架构选择。
|
||
|
||
\subsubsection{DLS层选择比例的敏感性}
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.45\linewidth]{assets/4_dls_sensitivity.pdf}
|
||
\caption{RoSA中层选择比例$k_{\text{ratio}}$的敏感性分析。}
|
||
\label{fig:ch4_dls_sensitivity}
|
||
\end{figure}
|
||
|
||
对RoSA的DLS模块进行层选择比例$k_{\text{ratio}}$的敏感性分析。结果表明,$k_{\text{ratio}} \approx 0.5$时性能最佳。增大该比例反而略微降低性能,说明选择性地更新约一半的层比更新所有层更有效,这与层间异质性的假设一致。
|
||
|
||
\subsubsection{DyPAM调制强度的敏感性}
|
||
|
||
对DyPAM的调制强度$\alpha$进行敏感性分析。适当的调制幅度显著优于过弱或过强的调制:$\alpha=0.3$附近取得最优性能。过小的$\alpha$限制了调制的表达能力,而过大的$\alpha$可能过度偏离预训练表示,破坏已学知识。
|
||
|
||
\subsection{可解释性分析}
|
||
\label{subsec:ch4_interpretability}
|
||
|
||
\subsubsection{RoSA的层选择行为}
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.6\linewidth]{assets/4_layer_selection.pdf}
|
||
\caption{RoSA训练过程中各层被DLS选择的频率可视化(Qwen2.5-7B)。}
|
||
\label{fig:ch4_layer_sel}
|
||
\end{figure}
|
||
|
||
对RoSA训练过程中DLS的层选择频率进行可视化分析。结果清晰地展现了层间的显著异质性:某些层被一致地识别为更重要并更频繁地被选择进行适配,而另一些层则很少被选中。这一观察从实证角度验证了层间异质性假设,也说明了DLS策略中利用-探索平衡机制的必要性——避免忽视那些选择频率较低但潜在有价值的层。
|
||
|
||
\subsubsection{DyPAM学习到的调制模式}
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.9\linewidth]{assets/4_bias_modulation.pdf}
|
||
\caption{DyPAM学习到的位置调制模式。(a)层级偏置在Query维度上的分布,展示异构且结构化的偏置变化;(b)层级调制范围,显示稳定受控的缩放行为。}
|
||
\label{fig:ch4_modulation_pattern}
|
||
\end{figure}
|
||
|
||
对DyPAM学习到的层级偏置和调制范围进行可视化分析,揭示了两个关键发现:
|
||
|
||
(1)\textbf{异构的结构偏置}。层级偏置在不同层和不同维度上展现出非均匀的变化模式,而非均匀的偏移。这种结构化的非均匀性表明,不同注意力维度在不同深度发展出了各自独特的位置偏好,与位置信息在各层被差异化利用的直觉一致。
|
||
|
||
(2)\textbf{受控的调制范围}。调制因子围绕1保持适度的方差,表明DyPAM进行的是精细化的微调而非大幅度的重塑。这种克制的调制行为在保留预训练注意力结构的同时提供了必要的适配灵活性。
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
|
||
\section{本章小结}
|
||
\label{sec:ch4_summary}
|
||
|
||
本章围绕维度级位置结构异质性($\mathcal{R}_{dim}$),在统一分析框架下提出了两种递进式的结构感知适配方法。
|
||
|
||
RoSA通过RoPE感知注意力增强模块(RoAE)选择性地增强Query/Key表示中功能关键的低频维度成分,并通过动态层选择策略(DLS)自适应地分配层间适配资源,实现了"维度内精准增强+层间动态选择"的双层级结构感知适配。在15个常识与数学推理基准上,RoSA在三种骨干模型上均取得了最优性能,同时保持了较低的参数开销。
|
||
|
||
DyPAM进一步将维度级适配从"静态选择"推进至"动态调制",引入输入条件化的维度级调制机制,使调制信号根据输入上下文动态生成;同时引入头级和层级结构偏置,实现多粒度的位置感知。DyPAM通过与RoPE维度对结构的严格对齐和有界调制因子的设计,在保留预训练知识的前提下实现了更精细化的适配。在三种新一代骨干模型和15个基准数据集上,DyPAM进一步超越了包括RoSA在内的所有基线方法。
|
||
|
||
从RoSA到DyPAM的递进演化验证了维度级位置结构异质性作为影响适配效果关键因素的假设,也展示了在统一框架下通过逐步深化结构感知能力来提升适配性能的方法论路径。
|
||
|
||
第三章和第四章分别从模块级功能异质性和维度级位置结构异质性出发,提出了乘性调制范式的结构感知适配方法。下一章将转向频谱级多尺度异质性和参数级容量分配异质性,探索组合式调制和结构分解调制两种新的调制形式,进一步丰富结构感知适配的方法体系。
|
||
|
||
|
||
|
||
% 第五章 多尺度结构建模与参数结构自适应学习方法
|
||
\chapter{多尺度频谱感知与参数自适应的时空表征学习方法}
|
||
\label{chap:cascade_messa}
|
||
|
||
\section{本章概述}
|
||
\label{sec:ch5_overview}
|
||
|
||
前两章分别从模块级功能异质性($\mathcal{R}_{mod}$,第三章)和维度级位置结构异质性($\mathcal{R}_{dim}$,第四章)出发,提出了基于乘性调制的结构感知适配方法。这些方法的共同特点是在\emph{表示空间}中对中间表示流进行调制。本章将视角从表示空间转向\emph{参数空间},关注模型权重更新本身的结构特性,提出两种新的调制形式。
|
||
|
||
在将大语言模型适配到时空数据建模任务时,参数空间的结构异质性表现为两个互补的层面:
|
||
|
||
\textbf{第一,频谱级多尺度异质性($\mathcal{R}_{spec}$)}。时空数据的动态变化同时包含多时间尺度成分。从参数更新的频谱视角来看,模型适配同样涉及全局性的平滑调整(低频成分)和局部性的精细修正(高频成分)。实证分析表明,权重更新的高频成分在频谱能量上占主导地位,但影响范围局限于少数参数区域;而低频成分虽然能量较小,却影响权重矩阵的大部分区域。这种能量-影响力失配揭示了从粗到细的适配模式——低频成分建立全局适配结构,高频成分在此基础上进行局部精修。现有PEFT方法通常采用单一结构假设(如纯低秩或纯频域),难以同时捕获这种异构的多尺度适配模式。
|
||
|
||
\textbf{第二,参数级容量分配异质性($\mathcal{R}_{param}$)}。面向多源时空数据的联合建模中,不同任务对模型参数容量的需求并不均匀。交通流量预测、区域功能分类、轨迹推理等任务可以共享部分适配参数(如通用的时空语义对齐),但也需要各自的专用参数支持任务特异性的精细化调整。如何在有限参数预算下,在共享与专用之间实现最优容量分配,构成参数级的结构异质性挑战。
|
||
|
||
针对上述两类异质性,本章提出两种方法:
|
||
|
||
\textbf{(1)基于频谱级联的多尺度参数适配方法(CASCADE)}。CASCADE通过异构频域/空域专家(DCT低频专家、小波高频专家、空域残差专家)建模权重更新的多尺度结构,并引入级联频谱调制机制建立低频到高频的从粗到细依赖关系,辅以频谱复杂度感知路由实现自适应专家组合。CASCADE对应统一框架中的组合式调制形式(式~\ref{eq:ch1_compositional})。
|
||
|
||
\textbf{(2)基于共享-特有稀疏分解的多任务适配方法(MESSA)}。MESSA将任务适配分解为全局共享稀疏增量与任务特有稀疏增量,通过预算感知的软门控机制实现可微分的结构分配,最终通过一次性全局剪枝生成可部署的稀疏模型。MESSA对应统一框架中的结构分解调制形式(式~\ref{eq:ch1_structural})。
|
||
|
||
本章后续安排如下:第~\ref{sec:ch5_background}~节分析参数空间的结构异质性问题;第~\ref{sec:cascade}~节详述CASCADE方法;第~\ref{sec:messa}~节详述MESSA方法;第~\ref{sec:ch5_analysis}~节分析两种视角的关联与互补性;第~\ref{sec:ch5_experiments}~节给出实验验证;第~\ref{sec:ch5_summary}~节总结全章。
|
||
|
||
|
||
\section{参数空间的结构异质性分析}
|
||
\label{sec:ch5_background}
|
||
|
||
\subsection{权重更新的频谱特性}
|
||
\label{subsec:ch5_spectral}
|
||
|
||
在标准PEFT框架下,给定预训练权重矩阵$\mathbf{W}_0 \in \mathbb{R}^{m \times n}$,适配操作引入加性权重更新$\Delta \mathbf{W}$,使得适配后的变换为$\mathbf{y} = (\mathbf{W}_0 + \Delta \mathbf{W}) \mathbf{x}$。不同PEFT方法通过对$\Delta \mathbf{W}$施加不同的结构约束来降低适配代价。
|
||
|
||
从频域视角来看,$\Delta \mathbf{W}$可以被视为定义在参数索引上的二维信号。通过施加适当的线性变换(如傅里叶变换、小波变换),可以将权重更新分解为与不同空间频率关联的成分。低频成分对应平滑、缓变的模式,跨越权重矩阵的大片区域;高频成分捕获集中于特定参数区域的快速变化。
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.9\linewidth]{assets/5_spectral_analysis.pdf}
|
||
\caption{全量微调下权重更新的频谱特性。高频成分在频谱能量上占主导,但影响范围局限于少量参数;低频成分能量较小但影响权重矩阵的大部分区域。该模式在不同层和模块间保持一致。}
|
||
\label{fig:ch5_spectral}
|
||
\end{figure}
|
||
|
||
对全量微调下权重更新的频谱分析揭示了一个重要发现:高频成分在频谱能量上占主导地位,但其影响范围往往局限于参数空间的有限子集;相反,低频成分虽然频谱能量较小,却影响着权重矩阵的大部分区域。这种能量-影响力失配具有明确的物理含义:大空间覆盖范围与低频谱能量对应着分布在大量参数上的平滑一致性变化,代表全局性结构适配;高频谱能量集中于有限参数子集则对应稀疏的局部化修正。
|
||
|
||
这一发现揭示了权重更新的\emph{从粗到细}适配模式:低频成分建立全局适配结构,高频成分在此基础上进行特定区域的精细修正。有效的适配需要同时建模这种异构频率成分及其依赖关系。
|
||
|
||
\subsection{多任务适配中的参数容量分配问题}
|
||
\label{subsec:ch5_capacity}
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.9\linewidth]{assets/5_task_activation.png}
|
||
\caption{多任务微调中不同任务在注意力模块各层的激活差异。红色表示任务A激活更强,蓝色表示任务B激活更强,揭示了不同层和模块对共享/专用适配的差异化需求。}
|
||
\label{fig:ch5_task_diff}
|
||
\end{figure}
|
||
|
||
在实际的时空智能应用中,单一预训练模型通常需要同时服务多个下游任务。在严格的存储和推理效率约束下,如何在多个任务之间分配有限的适配参数预算,成为关键问题。
|
||
|
||
实证分析表明,不同任务在模型内部表现出显著的激活差异。某些层和模块的激活模式在任务间高度一致,适合共享适配参数;而另一些层和模块则表现出强烈的任务依赖性,需要专用参数支持。这种观察促使我们将多任务稀疏微调形式化为一个\emph{结构分配问题}。
|
||
|
||
形式上,考虑$T$个下游任务$\{\mathcal{T}_t\}_{t=1}^T$。每个任务$t$的适配通过稀疏更新$\Delta^{(t)}$实现,分解为共享成分和任务特有成分:
|
||
\begin{equation}
|
||
\Delta^{(t)} = \Delta_{\text{sh}} + \Delta_{\text{sp}}^{(t)},
|
||
\label{eq:ch5_decomp}
|
||
\end{equation}
|
||
其中$\Delta_{\text{sh}}$为跨任务共享的稀疏更新,$\Delta_{\text{sp}}^{(t)}$为任务$t$的特有稀疏更新。所有任务的适配需满足统一的全局参数预算约束$B$。
|
||
|
||
现有方法在面对此问题时存在两个根本局限:(1)\textbf{任务共享挑战}——要么强制全部共享(无法捕获任务差异),要么完全独立(参数冗余);(2)\textbf{资源分配挑战}——缺乏全局分配机制,共享与专用参数无法在统一预算下联合竞争。
|
||
|
||
\subsection{对时空适配方法的启示}
|
||
|
||
上述分析为时空适配方法的设计提供了以下启示:
|
||
|
||
\textbf{(1)需要异构的参数化策略。}单一的结构假设(如纯低秩或纯频域)无法同时捕获全局平滑调整和局部精细修正。有效的方法应当为不同类型的更新模式提供各自适合的参数化方式。
|
||
|
||
\textbf{(2)需要跨频率的协调机制。}全局更新和局部更新并非独立,局部修正应当受全局结构的指导。需要显式建模这种从粗到细的依赖关系。
|
||
|
||
\textbf{(3)需要共享-专用的灵活分解。}多任务适配应当允许部分参数在任务间共享,同时保留足够的专用参数容量,且分配应当是数据驱动的而非人为预设的。
|
||
|
||
\textbf{(4)需要全局预算约束下的联合优化。}共享和专用参数应当在统一预算框架下竞争分配,避免孤立分配导致的次优解。
|
||
|
||
CASCADE和MESSA分别回应了上述启示的前两点和后两点。
|
||
|
||
|
||
\section{基于频谱级联的多尺度参数适配方法}
|
||
\label{sec:cascade}
|
||
|
||
基于上节对权重更新频谱特性的分析,本节提出基于频谱级联的多尺度参数适配方法(Coarse-to-Fine Spectral Cascading, CASCADE)。CASCADE的核心思想是:通过异构频域/空域专家分别建模不同尺度的适配模式,并通过级联调制建立从粗到细的跨频率依赖关系。
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.85\linewidth]{assets/5_cascade_arch.pdf}
|
||
\caption{CASCADE方法框架图。CASCADE通过异构的频域和空域专家适配冻结的骨干模块,借助级联调制协调全局与局部更新,并通过频谱复杂度感知路由实现自适应专家组合。}
|
||
\label{fig:ch5_cascade_arch}
|
||
\end{figure}
|
||
|
||
\subsection{框架概述}
|
||
\label{subsec:cascade_overview}
|
||
|
||
如图~\ref{fig:ch5_cascade_arch}所示,CASCADE采用异构混合专家架构,在冻结的预训练骨干上引入三个互补的专家:(i)基于离散余弦变换(DCT)的低频专家,捕获全局平滑更新;(ii)基于小波细节子带的高频专家,建模局部精细修正;(iii)空域残差专家,处理频域难以表示的更新模式。
|
||
|
||
CASCADE进一步引入级联频谱调制机制,使低频更新条件化地指导高频修正的生成,建立显式的从粗到细依赖关系。同时,频谱复杂度感知路由模块基于输入特征动态组合不同专家的输出。
|
||
|
||
在统一分析框架下,CASCADE的适配操作形式化为:
|
||
\begin{equation}
|
||
\mathbf{y} = \mathbf{W}_0 \mathbf{x} + \sum_{e=1}^{E} w_e(\mathbf{x}) \cdot \Delta \mathbf{W}_e \mathbf{x},
|
||
\label{eq:ch5_cascade_formulation}
|
||
\end{equation}
|
||
其中$w_e(\mathbf{x})$为输入依赖的路由权重,$\Delta \mathbf{W}_e$为第$e$个专家产生的结构化权重更新。三个专家分别在不同域中对$\Delta \mathbf{W}$施加互补的结构约束。
|
||
|
||
\subsection{异构频域专家设计}
|
||
\label{subsec:cascade_experts}
|
||
|
||
\subsubsection{基于DCT的低频专家}
|
||
|
||
低频专家旨在捕获跨越权重矩阵大片区域的全局平滑更新模式。这类模式通常源于语义对齐或全局推理行为的调整。
|
||
|
||
为引入全局平滑先验,该专家在离散余弦变换(DCT)域中参数化更新。设$\mathbf{S}_{\text{dct}} \in \mathbb{R}^{m \times n}$为DCT域系数矩阵。通过限制学习只在预定义的低频索引集$\mathcal{I}_{\text{dct}}$上进行:
|
||
\begin{equation}
|
||
\mathbf{S}_{\text{dct}}[i,j] =
|
||
\begin{cases}
|
||
s_k, & (i,j) \in \mathcal{I}_{\text{dct}}, \\
|
||
0, & \text{otherwise},
|
||
\end{cases}
|
||
\label{eq:ch5_dct_sparse}
|
||
\end{equation}
|
||
其中$\{s_k\}_{k=1}^{K_{\text{dct}}}$为与固定低频位置关联的可训练参数。索引集$\mathcal{I}_{\text{dct}}$通过选择距零频索引(0,0)曼哈顿距离最小的$K_{\text{dct}}$个位置获得。空域更新通过逆DCT变换重建:
|
||
\begin{equation}
|
||
\Delta \mathbf{W}_{\text{dct}} = \text{IDCT}(\mathbf{S}_{\text{dct}}).
|
||
\label{eq:ch5_dct_inverse}
|
||
\end{equation}
|
||
|
||
通过限制学习低频系数,该专家对$\Delta \mathbf{W}_{\text{dct}}$施加全局平滑先验,以紧凑的参数化高效建模大尺度结构调整。
|
||
|
||
\subsubsection{基于小波的高频专家}
|
||
|
||
低频专家捕获全局结构,但有效适配同样需要精细化的局部高频修正。为建模此类模式,高频专家在小波域中参数化更新,利用小波变换在空间和频率域上的联合局部化能力。
|
||
|
||
采用单层二维Haar小波基,定义四个子带:一个低频近似子带($\mathbf{LL}$)和三个细节子带($\mathbf{LH}$、$\mathbf{HL}$、$\mathbf{HH}$),分别对应不同方向的高频成分。为聚焦局部修正,丢弃近似成分,仅参数化细节子带。设$\mathcal{B}=\{\text{LH}, \text{HL}, \text{HH}\}$为细节子带集合,对每个$b \in \mathcal{B}$学习稀疏系数矩阵$\mathbf{B}_b$:
|
||
\begin{equation}
|
||
\mathbf{B}_b[i,j] =
|
||
\begin{cases}
|
||
s^{(b)}_k, & (i,j) \in \mathcal{I}_b, \\
|
||
0, & \text{otherwise},
|
||
\end{cases}
|
||
\label{eq:ch5_wavelet_sparse}
|
||
\end{equation}
|
||
其中$\mathcal{I}_b$为随机采样一次并在训练中保持不变的固定索引集。空域更新通过逆Haar变换重建:
|
||
\begin{equation}
|
||
\Delta \mathbf{W}_{\text{wav}} = \text{IHaar}(\mathbf{0}, \mathbf{B}_{\text{LH}}, \mathbf{B}_{\text{HL}}, \mathbf{B}_{\text{HH}}).
|
||
\label{eq:ch5_wavelet_inverse}
|
||
\end{equation}
|
||
|
||
\subsubsection{空域残差专家}
|
||
|
||
频域参数化虽然施加了有用的结构先验,但可能无法捕获某些不规则的更新模式。CASCADE包含一个轻量空域残差专家,直接在原始参数空间中以低秩分解参数化残差更新:
|
||
\begin{equation}
|
||
\Delta \mathbf{W}_{\text{spatial}} = \mathbf{B}\mathbf{A},
|
||
\label{eq:ch5_spatial_update}
|
||
\end{equation}
|
||
其中$\mathbf{A} \in \mathbb{R}^{r \times n}$和$\mathbf{B} \in \mathbb{R}^{m \times r}$,$r$为较小的秩。该专家为频域专家无法充分表达的更新模式提供补偿。
|
||
|
||
\subsection{级联频谱调制机制}
|
||
\label{subsec:cascade_cascading}
|
||
|
||
上述异构专家分别捕获权重更新的互补方面。然而,若将全局更新和局部更新视为独立成分,则忽略了它们之间的内在依赖——局部修正在实践中往往受全局结构的指导。为显式建模这种从粗到细的关系,CASCADE引入级联频谱调制机制。
|
||
|
||
具体地,将学习到的低频DCT系数展平为固定维度的条件化向量$\mathbf{z}$,该向量概括了全局适配模式,作为条件化网络的输入:
|
||
\begin{equation}
|
||
(\gamma_b, \beta_b)_{b \in \mathcal{B}} = g(\mathbf{z}),
|
||
\label{eq:ch5_film_params}
|
||
\end{equation}
|
||
其中$g(\cdot)$为轻量多层感知机,输出逐子带的标量调制参数。调制应用于小波细节子带系数:
|
||
\begin{equation}
|
||
\tilde{\mathbf{B}}_b = (1 + \gamma_b) \mathbf{B}_b + \beta_b, \quad b \in \mathcal{B},
|
||
\label{eq:ch5_bandwise_film}
|
||
\end{equation}
|
||
其中$\gamma_b$和$\beta_b$为在子带$b$内所有位置间共享的标量参数。调制仅应用于$\mathcal{I}_b$中的采样系数位置。
|
||
|
||
该设计建立了显式的从粗到细依赖关系:全局低频结构引导局部修正的生成,确保局部化的精细调整与整体适配方向保持一致。
|
||
|
||
\subsection{频谱复杂度感知路由}
|
||
\label{subsec:cascade_routing}
|
||
|
||
级联调制定义了不同更新成分之间的耦合方式,但这些成分的相对重要性可能因输入而异。CASCADE采用频谱复杂度感知路由机制,基于输入特征动态组合专家输出。
|
||
|
||
给定线性层的输入激活,通过池化获得序列级表示$\bar{\mathbf{x}}$。从该表示中提取两类互补的路由特征:轻量频谱统计特征$\bar{\mathbf{x}}_{\text{spec}}$(刻画输入的变化和振荡程度)和通过可学习线性投影获得的语义特征。两类特征通过线性投影融合:
|
||
\begin{equation}
|
||
\mathbf{h} = \mathbf{W}_{\text{spec}} \bar{\mathbf{x}}_{\text{spec}} + \mathbf{W}_{\text{sem}} \bar{\mathbf{x}},
|
||
\label{eq:ch5_feature_fusion}
|
||
\end{equation}
|
||
并通过Softmax映射为专家权重:
|
||
\begin{equation}
|
||
\mathbf{w} = \text{softmax}(\mathbf{W}_{\text{out}} \mathbf{h}),
|
||
\label{eq:ch5_routing_weights}
|
||
\end{equation}
|
||
其中$\mathbf{w} \in \mathbb{R}^{E}$为每个专家分配的非负权重。
|
||
|
||
\subsection{训练目标}
|
||
\label{subsec:cascade_training}
|
||
|
||
CASCADE在冻结骨干的基础上使用下游任务的标准监督目标进行端到端训练。整体训练目标包含任务损失和两个辅助正则化项:
|
||
\begin{equation}
|
||
\mathcal{L} = \mathcal{L}_{\text{task}} + \lambda_{\text{bal}} \mathcal{L}_{\text{bal}} + \lambda_{\text{orth}} \mathcal{L}_{\text{orth}},
|
||
\label{eq:ch5_cascade_loss}
|
||
\end{equation}
|
||
其中$\mathcal{L}_{\text{bal}}$为路由负载均衡正则化,通过约束各专家路由权重的分布均匀性防止退化的路由解:
|
||
\begin{equation}
|
||
\mathcal{L}_{\text{bal}} = E \sum_{e=1}^{E} \left( \frac{1}{B} \sum_{b=1}^{B} w_e^{(b)} \right)^2,
|
||
\label{eq:ch5_load_balance}
|
||
\end{equation}
|
||
其中$w_e^{(b)}$为专家$e$在第$b$个样本上的路由权重,$B$为批次大小。$\mathcal{L}_{\text{orth}}$为频谱正交性正则化,鼓励频域专家捕获互补的频谱模式:
|
||
\begin{equation}
|
||
\mathcal{L}_{\text{orth}} = \left| \left\langle \mathrm{vec}(\mathbf{S}_{\text{dct}}), \mathrm{vec}([\mathbf{B}_{\mathrm{LH}}, \mathbf{B}_{\mathrm{HL}}, \mathbf{B}_{\mathrm{HH}}]) \right\rangle \right|.
|
||
\label{eq:ch5_orth_loss}
|
||
\end{equation}
|
||
该项通过最小化DCT系数向量与小波系数向量之间的内积绝对值,促使两类频域专家分别聚焦于互补的频谱模式。
|
||
|
||
CASCADE的主要超参数包括:低频DCT系数20K个、小波系数10K个、空域残差专家秩$r=48$、负载均衡和正交性损失权重均为0.01。CASCADE的整体训练流程如算法~\ref{alg:ch5_cascade}所示。
|
||
|
||
\RestyleAlgo{ruled}
|
||
\begin{algorithm}[htp]
|
||
\caption{CASCADE:从粗到细的频谱级联适配算法}
|
||
\label{alg:ch5_cascade}
|
||
\KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$}
|
||
\KwOut{适配后的输出$\mathbf{y}$}
|
||
计算基础输出 $\mathbf{y}_0 \leftarrow \mathbf{W}_0 \mathbf{x}$\;
|
||
\textbf{低频专家:}\;
|
||
构建稀疏DCT频谱$\mathbf{S}_{\text{dct}}$(式~\ref{eq:ch5_dct_sparse})\;
|
||
重建全局更新$\Delta \mathbf{W}_{\text{dct}}$(式~\ref{eq:ch5_dct_inverse})\;
|
||
\textbf{高频专家:}\;
|
||
构建稀疏小波细节系数$\{\mathbf{B}_b\}_{b\in\mathcal{B}}$(式~\ref{eq:ch5_wavelet_sparse})\;
|
||
计算调制参数$(\gamma_b,\beta_b)_{b\in\mathcal{B}}$(式~\ref{eq:ch5_film_params})\;
|
||
应用频段级FiLM调制$\tilde{\mathbf{B}}_b$(式~\ref{eq:ch5_bandwise_film})\;
|
||
重建局部更新$\Delta \mathbf{W}_{\text{wav}}$(式~\ref{eq:ch5_wavelet_inverse})\;
|
||
\textbf{空域残差专家:}\;
|
||
计算残差更新$\Delta \mathbf{W}_{\text{spatial}}$(式~\ref{eq:ch5_spatial_update})\;
|
||
\textbf{路由与聚合:}\;
|
||
计算专家权重$\mathbf{w}$(式~\ref{eq:ch5_routing_weights})\;
|
||
聚合更新 $\Delta \mathbf{W} \leftarrow \sum_{e=1}^{E} w_e \cdot \Delta \mathbf{W}_e$\;
|
||
\Return{$\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$}
|
||
\end{algorithm}
|
||
|
||
|
||
\section{基于共享-特有稀疏分解的多任务适配方法}
|
||
\label{sec:messa}
|
||
|
||
CASCADE解决了单一适配中的频谱级多尺度异质性问题。本节进一步关注多任务场景下的参数级容量分配异质性,提出MESSA(Multi-task Efficient Shared-Specific Sparse Adaptation)方法。
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.85\linewidth]{assets/5_messa_arch.pdf}
|
||
\caption{MESSA方法框架图。MESSA将适配分解为共享和任务特有的稀疏更新,通过预算感知的软门控学习稀疏结构,并通过软到硬的训练过程在统一参数预算下生成可部署的稀疏模型。}
|
||
\label{fig:ch5_messa_arch}
|
||
\end{figure}
|
||
|
||
\subsection{框架概述}
|
||
\label{subsec:messa_overview}
|
||
|
||
MESSA的核心思想是将多任务稀疏微调形式化为结构分配问题:参数组作为决策单元,被显式分配为冻结、跨任务共享或任务特有三种状态之一,且在统一全局预算约束下进行优化。
|
||
|
||
如图~\ref{fig:ch5_messa_arch}所示,MESSA包含三个关键设计:(1)共享-特有稀疏表示(SS-Sparse),将每个任务的适配分解为共享和任务特有的稀疏增量;(2)预算感知的软门控机制,通过可微分门控变量引导结构分配;(3)软到硬的结构学习策略,通过一次性剪枝将学习到的软结构转化为固定的可部署稀疏模型。
|
||
|
||
在统一分析框架下,MESSA的适配操作对应结构分解调制形式(式~\ref{eq:ch1_structural}):
|
||
\begin{equation}
|
||
\Delta^{(t)} = \sum_{g \in \mathcal{G}} \left( z^{\text{sh}}_g \cdot \Delta^{\text{sh}}_g + z^{\text{sp}}_{g,t} \cdot \Delta^{\text{sp}}_{g,t} \right),
|
||
\label{eq:ch5_messa_gated}
|
||
\end{equation}
|
||
其中$z^{\text{sh}}_g$和$z^{\text{sp}}_{g,t}$分别为共享和任务特有的软门控值,控制参数组$g$在共享与专用方向上的分配。
|
||
|
||
\subsection{共享-特有稀疏表示}
|
||
\label{subsec:messa_ss_sparse}
|
||
|
||
\subsubsection{多任务共享-特有增量分解}
|
||
|
||
MESSA将每个任务$t$的适配增量分解为共享成分和任务特有成分(式~\ref{eq:ch5_decomp})。共享增量$\Delta_{\text{sh}}$捕获跨任务的通用知识,任务特有增量$\Delta_{\text{sp}}^{(t)}$建模任务依赖的变化。
|
||
|
||
该分解的优势在于:第一,允许相关任务复用一组通用的稀疏更新,减少参数冗余;第二,保留足够的灵活性进行任务特有适配,避免强制完全共享的限制。
|
||
|
||
\subsubsection{行级结构化参数组}
|
||
|
||
为实现结构化稀疏和高效的容量分配,MESSA将稀疏更新组织为参数组。对于权重矩阵$\mathbf{W} \in \mathbb{R}^{d_{\text{out}} \times d_{\text{in}}}$中的线性变换,每个输出行被视为一个独立的参数组。参数组$g$的参数代价为$s_g = d_{\text{in}}$。
|
||
|
||
行级分组在灵活性和结构化之间取得良好平衡:相比逐元素稀疏性,显著减少了结构决策数量;相比更粗粒度的层级分组,允许更精细的容量分配。在Transformer模型中,行级参数组自然对应输出神经元和注意力投影,适合作为选择性适配的基本单位。
|
||
|
||
\subsubsection{组级软门控}
|
||
|
||
为实现可微分的结构分配,MESSA为每个参数组关联可学习的软门控。对于参数组$g$,引入共享门控$z^{\text{sh}}_g \in (0,1)$和任务特有门控$z^{\text{sp}}_{g,t} \in (0,1)$,分别调制共享和任务特有成分的贡献。
|
||
|
||
软门控作为离散结构决策的连续代理,允许梯度优化同时作用于参数值和结构分配变量。训练期间,参数组可以同时参与共享和任务特有更新,允许模型探索不同程度的跨任务共享。
|
||
|
||
\subsubsection{共享-特有重叠正则化}
|
||
|
||
为防止共享和任务特有成分的过度同时激活(导致冗余适配和不清晰的结构分离),MESSA引入重叠正则化:
|
||
\begin{equation}
|
||
\mathcal{L}_{\text{overlap}} = \sum_{t=1}^T \sum_{g \in \mathcal{G}} z^{\text{sh}}_g \cdot z^{\text{sp}}_{g,t},
|
||
\label{eq:ch5_overlap}
|
||
\end{equation}
|
||
鼓励每个参数组倾向于被分配给共享\emph{或}任务特有适配之一。
|
||
|
||
\subsection{预算感知的软到硬结构学习}
|
||
\label{subsec:messa_soft_to_hard}
|
||
|
||
\subsubsection{预热阶段}
|
||
|
||
训练初期,稀疏适配参数和结构门控尚不具备信息量。为避免不稳定的分配决策,MESSA引入预热阶段:冻结门控变量,仅优化候选池内的稀疏适配参数:
|
||
\begin{equation}
|
||
\mathcal{L}_{\text{warmup}} = \mathcal{L}_{\text{task}}.
|
||
\label{eq:ch5_warmup}
|
||
\end{equation}
|
||
|
||
\subsubsection{预算感知的软学习}
|
||
|
||
预热后,联合优化稀疏适配参数和结构门控。定义软门控下的预期适配代价:
|
||
\begin{equation}
|
||
\mathcal{C}_{\text{soft}} = \sum_{g \in \mathcal{G}} s_g \cdot z^{\text{sh}}_g + \sum_{t=1}^T \sum_{g \in \mathcal{G}} s_g \cdot z^{\text{sp}}_{g,t},
|
||
\label{eq:ch5_soft_cost}
|
||
\end{equation}
|
||
通过惩罚超出目标预算$B$来施加预算约束:
|
||
\begin{equation}
|
||
\mathcal{L}_{\text{budget}} = \max(0, \mathcal{C}_{\text{soft}} - B).
|
||
\label{eq:ch5_budget}
|
||
\end{equation}
|
||
|
||
该阶段的整体训练目标为:
|
||
\begin{equation}
|
||
\mathcal{L}_{\text{soft}} = \mathcal{L}_{\text{task}} + \mathcal{L}_{\text{budget}} + \lambda_{\text{overlap}} \mathcal{L}_{\text{overlap}},
|
||
\label{eq:ch5_soft_objective}
|
||
\end{equation}
|
||
在任务性能、结构稀疏性和共享-特有分离之间取得平衡。
|
||
|
||
|
||
\RestyleAlgo{ruled}
|
||
\begin{algorithm}[htp]
|
||
\caption{MESSA:软到硬的多任务稀疏微调算法}
|
||
\label{alg:ch5_messa}
|
||
\KwIn{冻结骨干模型$\mathcal{M}$,任务集合$\{\mathcal{T}_t\}_{t=1}^T$,全局预算$B$,训练步数$S$}
|
||
\KwOut{共享稀疏更新$\Delta_{\mathrm{sh}}$,各任务特有稀疏更新$\{\Delta_{\mathrm{sp}}^{(t)}\}_{t=1}^T$}
|
||
初始化$\Delta_{\mathrm{sh}}, \Delta_{\mathrm{sp}}^{(t)} \leftarrow \mathbf{0}$,对所有$t$\;
|
||
初始化所有参数组的软门控变量\;
|
||
基于行级权重范数构建候选池$\mathcal{C}$\;
|
||
设定预热步数$S_{\mathrm{warmup}}$和剪枝步$S_{\mathrm{prune}}$\;
|
||
\For{$s = 1$ \KwTo $S$}{
|
||
采样任务$t$和对应小批量数据\;
|
||
\If{$s \le S_{\mathrm{warmup}}$}{
|
||
冻结所有软门控\;
|
||
在候选池$\mathcal{C}$内使用任务损失$\mathcal{L}_{\text{task}}$更新$\Delta_{\mathrm{sh}}$和$\Delta_{\mathrm{sp}}^{(t)}$(式~\ref{eq:ch5_warmup})\;
|
||
}
|
||
\Else{
|
||
使用软门控计算门控化更新(式~\ref{eq:ch5_messa_gated})\;
|
||
使用预算感知目标$\mathcal{L}_{\text{soft}}$联合优化稀疏更新和门控变量(式~\ref{eq:ch5_soft_objective})\;
|
||
}
|
||
\If{$s = S_{\mathrm{prune}}$}{
|
||
按门控值对参数组排序\;
|
||
在预算$B$约束下选择共享和任务特有参数组\;
|
||
将软门控转为二值掩码,剪枝未选中组\;
|
||
固定稀疏结构,进行剩余训练步的参数精调\;
|
||
}
|
||
}
|
||
\Return{$\Delta_{\mathrm{sh}}, \{\Delta_{\mathrm{sp}}^{(t)}\}_{t=1}^T$}
|
||
\end{algorithm}
|
||
|
||
\subsubsection{一次性硬选择}
|
||
|
||
预算感知软学习之后,通过一次性硬选择将学习到的软结构转化为固定的可部署稀疏结构。按门控值($z^{\text{sh}}_g$用于共享更新,$z^{\text{sp}}_{g,t}$用于任务特有更新)对参数组排序,依次选择得分最高的组直到满足全局预算约束。未选中组的更新被设为零,选中组的稀疏更新被固定用于推理。最终模型具有固定的稀疏结构,在推理时不引入额外开销。
|
||
|
||
\subsection{MESSA整体算法}
|
||
\label{subsec:messa_algorithm}
|
||
|
||
MESSA的整体训练流程遵循软到硬的结构学习范式,如算法~\ref{alg:ch5_messa}所示。
|
||
|
||
|
||
MESSA的主要超参数包括:参数预算2.5\%、门控预热比例5\%、在训练15\%处执行剪枝。候选池因子设为1.5,重叠允许比例为15\%。MESSA不修改骨干架构也不引入辅助模块,适合多任务部署场景。
|
||
|
||
|
||
\section{频谱结构与稀疏结构的关联分析}
|
||
\label{sec:ch5_analysis}
|
||
|
||
CASCADE和MESSA从不同角度应对参数空间的结构异质性挑战,两者之间存在深层的关联与互补性。
|
||
|
||
\subsection{统一框架下的定位}
|
||
|
||
在结构感知调制统一框架中,CASCADE对应组合式调制(式~\ref{eq:ch1_compositional}),将权重更新分解为不同频段的成分进行独立参数化后重组;MESSA对应结构分解调制(式~\ref{eq:ch1_structural}),将适配参数分解为共享和专用两部分进行差异化分配。
|
||
|
||
两种调制形式反映了参数空间结构异质性的两个正交维度:CASCADE关注\emph{单一适配内部的多尺度频谱结构}——全局性的平滑调整与局部性的精细修正需要不同的参数化策略;MESSA关注\emph{多任务间的容量分配结构}——共享知识与专用知识需要在有限预算下进行最优分配。
|
||
|
||
\subsection{互补性分析}
|
||
|
||
\textbf{(1)视角互补}。CASCADE从频谱分解的视角审视权重更新的内在结构,解决的是"如何表示不同尺度的适配模式"的问题;MESSA从任务分解的视角审视跨任务的参数分配,解决的是"如何在任务间分配适配容量"的问题。
|
||
|
||
\textbf{(2)适用场景互补}。CASCADE更适用于单一复杂任务的深度适配场景,其多尺度专家可以精细化地捕获不同层次的适配需求;MESSA更适用于多任务并行部署场景,其共享-特有分解与预算感知分配直接面向资源受限的多任务部署需求。
|
||
|
||
\textbf{(3)方法组合的可能性}。从原理上,CASCADE和MESSA的设计并不互斥。可以设想在MESSA的共享-特有框架内,对每个稀疏更新成分采用CASCADE的异构频域参数化,从而同时实现多尺度感知和跨任务分配。
|
||
|
||
\subsection{共同验证的核心观点}
|
||
|
||
两种方法共同验证了一个核心观点:参数空间的结构异质性是影响适配效果的关键因素。无论是通过异构频域专家与级联调制来捕获多尺度适配模式(CASCADE),还是通过共享-特有分解与预算感知优化来实现跨任务容量分配(MESSA),显式地感知和利用参数空间的结构特性,都能显著提升参数高效微调的效能。
|
||
|
||
|
||
\section{实验验证与结果分析}
|
||
\label{sec:ch5_experiments}
|
||
|
||
本节通过大量实验系统评估CASCADE和MESSA的有效性。
|
||
|
||
\subsection{CASCADE实验验证}
|
||
\label{subsec:ch5_cascade_exp}
|
||
|
||
\subsubsection{实验设置}
|
||
|
||
\textbf{数据集与任务}。遵循LLM-Adapters设置,在常识推理(8个基准:BoolQ、PIQA、SocialIQA、ARC-Challenge、ARC-Easy、OpenBookQA、HellaSwag、WinoGrande)和数学推理(7个基准:MultiArith、GSM8K、AddSub、AQuA、SingleEq、SVAMP、MAWPS)两类任务上评估。训练数据包括Commonsense15K和Math10K。常识推理任务采用Micro-Avg准确率作为主要指标,数学推理任务同样报告Micro-Avg准确率。
|
||
|
||
\textbf{骨干模型}。采用Qwen3-4B、LLaMA 3.2-3B和Gemma3-4B三种预训练模型作为主要评估骨干。可扩展性实验使用Qwen3系列(0.6B、1.7B、4B)以评估方法在不同模型容量下的表现。
|
||
|
||
\textbf{基线方法}。与六种代表性PEFT方法进行比较:低秩方法(LoRA、AdaLoRA、BONE)、频域方法(FourierFT、LoCA)和MoE方法(FlyLoRA)。所有方法在可比参数预算下进行公平比较。
|
||
|
||
\textbf{实现细节}。在NVIDIA RTX 3090上使用BF16混合精度和DeepSpeed训练。采用AdamW优化器,学习率1e-4,余弦学习率调度,序列长度256。CASCADE配置:20K低频DCT系数、10K小波系数、空域残差专家秩$r=48$、负载均衡和正交性损失权重$\lambda_{\text{bal}}=\lambda_{\text{orth}}=0.01$。评估采用贪心解码,最大生成长度256 token,通过正则表达式提取答案计算准确率。
|
||
|
||
\subsubsection{常识推理性能}
|
||
|
||
表~\ref{tab:ch5_cascade_common}展示了CASCADE在常识推理任务上的性能。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{CASCADE与基线方法在常识推理任务上的性能比较(Micro-Avg准确率\%)。*表示统计显著提升。}
|
||
\label{tab:ch5_cascade_common}
|
||
\small
|
||
\resizebox{\linewidth}{!}{
|
||
\renewcommand{\arraystretch}{1.05}
|
||
\begin{tabular}{l|lcccccccccc}
|
||
\toprule
|
||
\textbf{骨干} & \textbf{方法} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} \\
|
||
\midrule
|
||
\multirow{7}{*}{\rotatebox{90}{\textbf{Qwen3-4B}}}
|
||
& LoRA & 66.88 & 82.97 & \underline{73.59} & 86.86 & 92.21 & \underline{83.60} & 85.37 & \underline{68.75} & 81.27 \\
|
||
& AdaLoRA & \underline{67.34} & 82.64 & 73.44 & 87.03 & 92.89 & 82.00 & 79.99 & 67.88 & 78.89 \\
|
||
& BONE & 66.15 & 81.61 & 72.62 & 85.24 & 92.55 & 75.40 & 78.85 & 68.11 & 77.78 \\
|
||
& FourierFT & 66.57 & 80.30 & 73.54 & 86.01 & 92.09 & 82.40 & 79.59 & 63.14 & 78.01 \\
|
||
& LoCA & 66.85 & 83.03 & 72.67 & 86.95 & \underline{93.27} & 80.60 & 84.33 & 66.69 & 80.66 \\
|
||
& FlyLoRA & 66.51 & \underline{83.35} & 73.54 & \underline{87.20} & 93.06 & 78.20 & \underline{85.63} & 68.35 & \underline{81.33} \\
|
||
& \textbf{CASCADE} & \textbf{67.74} & \textbf{83.46} & \textbf{75.49} & \textbf{87.88} & \textbf{93.64} & \textbf{86.40} & \textbf{85.75} & \textbf{71.98} & \textbf{82.22*} \\
|
||
\midrule
|
||
\multirow{7}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}}
|
||
& LoRA & 61.41 & 78.62 & 66.79 & 68.26 & 84.05 & 70.20 & 79.49 & \underline{56.35} & \underline{74.05} \\
|
||
& AdaLoRA & \underline{61.53} & 78.89 & 67.04 & \underline{69.71} & 83.63 & 69.60 & 79.31 & 54.78 & 73.96 \\
|
||
& BONE & 60.61 & 76.17 & 66.53 & 67.24 & 79.88 & 63.20 & 79.28 & 50.04 & 72.61 \\
|
||
& FourierFT & 60.92 & \underline{80.30} & 59.47 & 67.75 & 82.45 & 66.40 & 79.05 & 50.67 & 72.68 \\
|
||
& LoCA & 61.07 & 78.51 & 64.12 & 66.47 & 82.37 & 67.20 & 77.07 & 55.88 & 72.31 \\
|
||
& FlyLoRA & 59.02 & 78.94 & \underline{67.14} & 67.58 & \underline{84.22} & \underline{71.80} & \underline{79.66} & 52.49 & 73.64 \\
|
||
& \textbf{CASCADE} & \textbf{62.66} & \textbf{80.69} & \textbf{67.40} & \textbf{69.97} & \textbf{84.68} & \textbf{73.60} & \textbf{79.94} & \textbf{62.59} & \textbf{75.25*} \\
|
||
\midrule
|
||
\multirow{7}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}}
|
||
& LoRA & 64.34 & 78.07 & \underline{70.21} & 75.26 & \underline{87.37} & 75.60 & \underline{77.97} & \underline{61.88} & \underline{75.21} \\
|
||
& AdaLoRA & \underline{64.86} & \underline{79.16} & 69.91 & 75.68 & 86.87 & 72.00 & 77.19 & 61.17 & 74.84 \\
|
||
& BONE & 63.67 & 78.35 & 69.19 & \underline{76.11} & 86.95 & 70.60 & 73.97 & 48.22 & 72.37 \\
|
||
& FourierFT & 64.22 & 77.42 & 68.68 & 74.32 & 87.33 & 72.00 & 74.49 & 50.75 & 72.68 \\
|
||
& LoCA & 63.52 & 76.82 & 68.47 & 73.29 & 85.98 & 68.20 & 75.06 & 49.01 & 72.39 \\
|
||
& FlyLoRA & 61.59 & 76.12 & 67.45 & 75.34 & 86.53 & \underline{77.60} & 77.88 & 58.72 & 74.15 \\
|
||
& \textbf{CASCADE} & \textbf{65.81} & \textbf{80.36} & \textbf{73.39} & \textbf{77.39} & \textbf{88.97} & \textbf{79.00} & \textbf{78.47} & \textbf{64.09} & \textbf{76.59*} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
CASCADE在所有三种骨干模型上均取得了统计显著的最优Micro-Avg性能。在Qwen3-4B上达到82.22\%,超过最强基线FlyLoRA(81.33\%)0.89个百分点;在LLaMA 3.2-3B上达到75.25\%,超过LoRA(74.05\%)1.20个百分点;在Gemma3-4B上达到76.59\%,超过LoRA(75.21\%)1.38个百分点。这些一致性的提升表明,联合建模异构更新成分比依赖单一结构假设更为有效。
|
||
|
||
进一步分析各骨干模型的结果可以发现:在Qwen3-4B上,CASCADE在8个基准中的7个上取得最优或并列最优,仅在HellaSwag上略低于FlyLoRA(85.75\% vs 85.63\%),但差距极小且在OBQA上显著领先(86.40\% vs 78.20\%),体现了多尺度适配的全面优势;在LLaMA 3.2-3B上,CASCADE相比LoRA的提升在WinoGrande上最为显著(62.59\% vs 56.35\%,提升6.24个百分点),表明多尺度频谱分解对长程依赖建模有较大增益;在Gemma3-4B上,CASCADE在SIQA任务上的提升尤为突出(73.39\% vs 70.21\%),显示其对社会推理类任务的适配能力。
|
||
|
||
\subsubsection{数学推理性能}
|
||
|
||
表~\ref{tab:ch5_cascade_math}展示了CASCADE在数学推理任务上的性能。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{CASCADE与基线方法在数学推理任务上的性能比较(Qwen3-4B,Micro-Avg准确率\%)。*表示统计显著提升。}
|
||
\label{tab:ch5_cascade_math}
|
||
\small
|
||
\resizebox{\linewidth}{!}{
|
||
\renewcommand{\arraystretch}{1.05}
|
||
\begin{tabular}{lcccccccc}
|
||
\toprule
|
||
\textbf{方法} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} \\
|
||
\midrule
|
||
LoRA & \underline{77.50} & \underline{36.16} & \underline{83.80} & 26.77 & 85.83 & 55.90 & \underline{79.41} & \underline{58.53} \\
|
||
AdaLoRA & 80.50 & 33.81 & 75.95 & 22.83 & 74.41 & 48.80 & 74.37 & 54.01 \\
|
||
BONE & 79.50 & 31.69 & 78.99 & \underline{27.17} & 80.71 & 50.30 & 76.05 & 54.94 \\
|
||
FourierFT & 68.67 & 31.08 & 76.46 & 23.62 & 78.54 & \underline{57.30} & 74.34 & 54.02 \\
|
||
LoCA & 73.33 & 30.63 & 72.15 & 21.65 & 75.98 & 48.30 & 69.33 & 51.41 \\
|
||
FlyLoRA & 79.67 & 35.33 & 81.52 & 22.83 & \underline{86.42} & 56.20 & 73.11 & 57.93 \\
|
||
\textbf{CASCADE} & \textbf{81.33} & \textbf{37.00} & \textbf{86.08} & \textbf{27.56} & \textbf{87.60} & \textbf{57.90} & \textbf{80.25} & \textbf{60.29*} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
CASCADE在Qwen3-4B上取得了60.29\%的最优Micro-Avg性能,显著优于所有基线方法。相比次优方法LoRA(58.53\%),CASCADE提升了1.76个百分点。在7个数学推理基准中的6个上取得最优,表明其多尺度适配策略在数值计算和多步推理任务上同样有效。
|
||
|
||
\subsubsection{跨模型规模的可扩展性}
|
||
|
||
表~\ref{tab:ch5_cascade_scale}展示了CASCADE在Qwen3系列不同模型规模上的常识推理性能。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{CASCADE与基线方法在不同模型规模上的常识推理性能比较(Micro-Avg准确率\%)。}
|
||
\label{tab:ch5_cascade_scale}
|
||
\small
|
||
\begin{tabular}{lccc}
|
||
\toprule
|
||
\textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} \\
|
||
\midrule
|
||
LoRA & \underline{57.50} & \underline{66.25} & 81.27 \\
|
||
AdaLoRA & 56.50 & 64.37 & 78.89 \\
|
||
FlyLoRA & 54.37 & 62.12 & \underline{81.33} \\
|
||
\textbf{CASCADE} & \textbf{58.07} & \textbf{66.75} & \textbf{82.22} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
\end{table}
|
||
|
||
CASCADE在所有模型规模上均取得最优性能,且在较小模型(0.6B)上的优势更为明显(超过次优方法0.57个百分点),表明CASCADE的多尺度频谱分解在参数容量有限时也能有效提取关键适配模式。
|
||
|
||
\subsubsection{消融与路由行为分析}
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\subcaptionbox{消融实验\label{fig:ch5_cascade_ablation_a}}{%
|
||
\includegraphics[width=0.48\linewidth]{assets/5_cascade_ablation_a.pdf}}
|
||
\hfill
|
||
\subcaptionbox{路由权重分布\label{fig:ch5_cascade_ablation_b}}{%
|
||
\includegraphics[width=0.48\linewidth]{assets/5_cascade_ablation_b.pdf}}
|
||
\caption{CASCADE的消融实验与路由行为分析。(a)移除各组件后的性能变化;(b)不同层中各专家的路由权重分布。}
|
||
\label{fig:ch5_cascade_ablation}
|
||
\end{figure}
|
||
|
||
消融实验表明:(1)移除DCT低频专家后,Micro-Avg从82.22\%下降约0.8个百分点,证明全局性的平滑适配结构对于建立基础适配框架不可或缺;(2)移除小波高频专家导致约0.6个百分点的下降,说明局部精细修正在低频基础之上提供了必要的互补;(3)禁用级联频谱调制机制(即切断低频到高频的条件依赖,让各频段独立工作)进一步降低约0.5个百分点,突显了显式建模从粗到细依赖关系的重要性——高频调制需要以低频的全局结构为条件;(4)空域残差专家提供约0.3个百分点的一致性增益,补偿了频域变换难以表达的局部空间更新模式。上述结果表明CASCADE的四个组件各自独立贡献不可替代的适配功能。
|
||
|
||
路由权重的层间可视化揭示了一个有意义的模式:在Transformer的浅层(前1/3),DCT低频专家获得的平均路由权重显著高于其他专家,反映浅层偏好全局性的特征对齐;在中间层,三类专家的权重趋于均衡,表明中间表示同时需要多尺度的调整;在深层(后1/3),小波高频专家的权重明显增大,表明深层更需要对局部语义特征的精细修正。这种层间路由演化趋势与CASCADE预期的从粗到细适配行为高度一致,也从另一角度验证了级联调制机制的合理性。
|
||
|
||
\subsection{MESSA实验验证}
|
||
\label{subsec:ch5_messa_exp}
|
||
|
||
\subsubsection{实验设置}
|
||
|
||
\textbf{数据集与任务}。在五个多样化任务上评估多任务联合适配能力:BoolQ(布尔推理,Acc)、CodeAlpaca(代码生成,ICR)、MedQA(医学问答,Acc)、GSM8K(数学推理,EM)和HellaSwag(常识推理,Acc)。这五个任务涵盖了从事实判断、程序生成到领域知识和数学计算的异质推理场景,对多任务适配方法提出了全面的考验。报告三个聚合指标:Macro Average(宏平均)、Geometric Mean(几何平均,对低性能任务更敏感)和Worst-Task(最差任务性能,衡量任务间均衡性)。
|
||
|
||
\textbf{骨干模型}。采用Qwen3-4B、LLaMA 3.2-3B和Gemma3-4B三种架构差异显著的预训练模型,以评估方法的跨架构泛化能力。可扩展性实验使用Qwen3系列(0.6B、1.7B、4B)。
|
||
|
||
\textbf{基线方法}。包括低秩方法(LoRA、AdaLoRA,分shared和specific两种多任务设置)、稀疏方法(SHiRA,同样两种设置)和多任务专用方法(MTLoRA、MOELoRA)。其中shared设置为所有任务共享一组适配参数,specific设置为每个任务独立训练参数。所有方法在匹配的总参数预算(约2.25\%--2.70\%)下进行公平比较。
|
||
|
||
\textbf{实现细节}。在NVIDIA RTX 4090上使用BF16混合精度训练。采用AdamW优化器,学习率1e-4,余弦调度,采用基于epoch的混合任务采样策略。MESSA配置:参数预算2.5\%、候选池因子1.5、门控预热比例5\%、在训练15\%处执行一次性剪枝、重叠允许比例15\%。
|
||
|
||
\subsubsection{多任务总体性能}
|
||
|
||
表~\ref{tab:ch5_messa_overall}展示了MESSA在多任务总体性能上的结果。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{MESSA与基线方法在多任务总体性能上的比较。Avg为宏平均,Geo为几何平均,Worst为最差任务性能。*表示统计显著提升。}
|
||
\label{tab:ch5_messa_overall}
|
||
\small
|
||
\resizebox{\linewidth}{!}{
|
||
\renewcommand{\arraystretch}{1.05}
|
||
\begin{tabular}{l|c|ccc|ccc|ccc}
|
||
\toprule
|
||
\multirow{2}{*}{\textbf{方法}} & \multirow{2}{*}{\textbf{参数(\%)}} & \multicolumn{3}{c|}{\textbf{Qwen3-4B}} & \multicolumn{3}{c|}{\textbf{LLaMA3.2-3B}} & \multicolumn{3}{c}{\textbf{Gemma3-4B}} \\
|
||
\cmidrule(lr){3-5} \cmidrule(lr){6-8} \cmidrule(lr){9-11}
|
||
& & Avg & Geo & Worst & Avg & Geo & Worst & Avg & Geo & Worst \\
|
||
\midrule
|
||
LoRA (shared) & 2.25 & 76.47 & 75.56 & 59.81 & 67.05 & 65.99 & 53.03 & 71.22 & 69.53 & 50.08 \\
|
||
LoRA (specific) & 2.25 & \underline{76.66} & \underline{75.76} & 60.75 & 64.70 & 63.29 & 52.75 & \underline{71.86} & \underline{70.09} & 49.45 \\
|
||
AdaLoRA (shared) & 2.50 & 74.82 & 73.94 & 58.24 & 63.02 & 62.10 & 51.18 & 65.39 & 62.85 & 42.27 \\
|
||
AdaLoRA (specific) & 2.50 & 75.45 & 74.61 & 59.18 & 62.94 & 61.99 & 53.03 & 66.57 & 64.00 & 43.33 \\
|
||
\midrule
|
||
SHiRA (shared) & 2.26 & 74.60 & 73.51 & 56.99 & 70.35 & 69.40 & 53.06 & 67.99 & 65.64 & 44.27 \\
|
||
SHiRA (specific) & 2.26 & 76.62 & 75.67 & \underline{62.64} & 66.94 & 65.62 & 51.33 & 71.26 & 69.52 & \underline{50.86} \\
|
||
\midrule
|
||
MTLoRA & 2.70 & \underline{76.81} & \underline{75.98} & 62.01 & \underline{71.95} & \underline{71.29} & \underline{58.08} & 71.60 & 69.84 & 50.24 \\
|
||
MOELoRA & 2.26 & 76.07 & 75.27 & 60.91 & 70.96 & 70.24 & 55.42 & 70.52 & 68.78 & 48.67 \\
|
||
\textbf{MESSA} & 1.86 & \textbf{78.01*} & \textbf{77.18*} & \textbf{62.79*} & \textbf{72.96*} & \textbf{72.42*} & \textbf{59.50*} & \textbf{72.40*} & \textbf{70.63*} & \textbf{51.33*} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
MESSA在所有三种骨干模型上均取得统计显著的最优多任务性能,且使用的可训练参数(1.86\%)少于所有基线方法。在Qwen3-4B上,MESSA的Avg达到78.01\%,超过最强基线MTLoRA(76.81\%)1.20个百分点;Worst-Task达到62.79\%,表明MESSA有效平衡了多任务间的性能。
|
||
|
||
从跨骨干分析来看,MESSA在不同架构上的优势具有一致性:在LLaMA 3.2-3B上,MESSA的Avg(72.96\%)和Geo(72.42\%)均显著领先次优方法MTLoRA(71.95\%/71.29\%),差距约1个百分点;在Gemma3-4B上,MESSA在Avg(72.40\%)和Worst-Task(51.33\%)上也取得最优。特别值得关注的是MESSA在Worst-Task指标上的表现:在Qwen3-4B上62.79\%、LLaMA 3.2-3B上59.50\%、Gemma3-4B上51.33\%,均为各自骨干下的最优值。这表明MESSA的共享-特有分解与预算感知分配机制不仅提升了平均性能,更有效地防止了对特定任务的过度偏好,从而在异质任务间实现了更均衡的资源分配。
|
||
|
||
另一个重要发现是MESSA的参数效率优势。MESSA仅使用1.86\%的可训练参数,少于所有基线方法(LoRA 2.25\%、SHiRA 2.26\%、MTLoRA 2.70\%),但性能全面领先。这一"更少参数,更优性能"的结果从侧面验证了预算感知稀疏分配的有效性——通过将有限预算精准分配到关键参数组,避免了低效参数的浪费。
|
||
|
||
\subsubsection{逐任务性能分析}
|
||
|
||
表~\ref{tab:ch5_messa_pertask}进一步展示了MESSA在Qwen3-4B上五个任务的逐任务性能。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{MESSA与基线方法在各任务上的逐项性能比较(Qwen3-4B)。}
|
||
\label{tab:ch5_messa_pertask}
|
||
\small
|
||
\resizebox{\linewidth}{!}{
|
||
\renewcommand{\arraystretch}{1.05}
|
||
\begin{tabular}{lccccccc}
|
||
\toprule
|
||
\textbf{方法} & \textbf{BoolQ} & \textbf{CodeAlpaca} & \textbf{MedQA} & \textbf{GSM8K} & \textbf{HellaSwag} & \textbf{Avg} & \textbf{Geo} \\
|
||
\midrule
|
||
LoRA (shared) & 86.79 & \underline{67.45} & 59.81 & 77.27 & 91.02 & 76.47 & 75.56 \\
|
||
LoRA (specific) & \underline{87.89} & 67.40 & 60.75 & 76.06 & 91.20 & 76.66 & 75.76 \\
|
||
AdaLoRA (shared) & 85.81 & 66.55 & 58.24 & 75.61 & 87.89 & 74.82 & 73.94 \\
|
||
AdaLoRA (specific) & 85.02 & 66.75 & 59.18 & \underline{77.42} & 88.89 & 75.45 & 74.61 \\
|
||
SHiRA (shared) & 86.79 & 64.65 & 56.99 & 74.85 & 89.70 & 74.60 & 73.51 \\
|
||
SHiRA (specific) & 87.40 & 63.50 & \underline{62.64} & 77.73 & \underline{91.83} & 76.62 & 75.67 \\
|
||
MTLoRA & 86.42 & 66.35 & 62.01 & \textbf{78.33} & 90.92 & \underline{76.81} & \underline{75.98} \\
|
||
MOELoRA & 86.24 & \underline{67.65} & 60.91 & 75.61 & 89.92 & 76.07 & 75.27 \\
|
||
\textbf{MESSA} & \textbf{88.07} & \textbf{68.30} & \textbf{62.79} & \textbf{78.33} & \textbf{92.57} & \textbf{78.01} & \textbf{77.18} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
逐任务分析揭示了MESSA在所有五个任务上均取得最优或并列最优的性能。特别地,在跨领域差异最大的任务对(如编程类CodeAlpaca与医学类MedQA)上,MESSA均显著优于所有基线,表明共享-特有稀疏分解有效地在异质任务之间实现了知识的选择性复用与差异化适配。
|
||
|
||
\subsubsection{跨模型规模的可扩展性}
|
||
|
||
表~\ref{tab:ch5_messa_scale}展示了MESSA在Qwen3系列不同模型规模上的多任务性能。
|
||
|
||
\begin{table}[htp]
|
||
\centering
|
||
\caption{MESSA与基线方法在不同模型规模上的多任务性能比较。}
|
||
\label{tab:ch5_messa_scale}
|
||
\small
|
||
\resizebox{\linewidth}{!}{
|
||
\renewcommand{\arraystretch}{1.05}
|
||
\begin{tabular}{lcccccc}
|
||
\toprule
|
||
\multirow{2}{*}{\textbf{方法}} & \multicolumn{2}{c}{\textbf{Qwen3-0.6B}} & \multicolumn{2}{c}{\textbf{Qwen3-1.7B}} & \multicolumn{2}{c}{\textbf{Qwen3-4B}} \\
|
||
\cmidrule(lr){2-3} \cmidrule(lr){4-5} \cmidrule(lr){6-7}
|
||
& Avg & Geo & Avg & Geo & Avg & Geo \\
|
||
\midrule
|
||
LoRA (shared) & 58.97 & 55.91 & 69.75 & 68.42 & 76.47 & 75.56 \\
|
||
LoRA (specific) & 60.66 & 58.12 & 69.67 & 68.30 & 76.66 & 75.76 \\
|
||
SHiRA (shared) & 56.59 & 53.21 & 68.47 & 66.83 & 74.60 & 73.51 \\
|
||
SHiRA (specific) & 60.74 & 57.64 & \underline{70.96} & \underline{69.76} & 76.62 & 75.67 \\
|
||
MTLoRA & \underline{61.13} & \underline{58.39} & 70.05 & 68.61 & \underline{76.81} & \underline{75.98} \\
|
||
\textbf{MESSA} & \textbf{61.77} & \textbf{58.65} & \textbf{71.93} & \textbf{70.18} & \textbf{78.01} & \textbf{77.18} \\
|
||
\bottomrule
|
||
\end{tabular}
|
||
}
|
||
\end{table}
|
||
|
||
MESSA在所有模型规模上均取得最优性能。随着模型规模从0.6B增大到4B,MESSA相对于基线的优势保持稳定(Avg差距约0.6--1.9个百分点),表明共享-特有分解的结构分配策略在不同参数容量下均能有效运作。
|
||
|
||
\subsubsection{消融与结构分析}
|
||
|
||
\begin{figure}[htp]
|
||
\centering
|
||
\includegraphics[width=0.9\linewidth]{assets/5_messa_analysis.pdf}
|
||
\caption{MESSA的消融实验与结构分析。(a)各组件对多任务性能的贡献;(b)共享和任务特有更新在注意力模块间的分配比例。}
|
||
\label{fig:ch5_messa_analysis}
|
||
\end{figure}
|
||
|
||
消融实验表明,移除MESSA的任何核心组件均导致一致性的性能下降,验证了联合设计的必要性。具体而言:(1)移除共享-特有分解(即退化为纯共享或纯特有设置)导致Avg下降约1.2--1.5个百分点,表明显式的结构分离对多任务适配至关重要;(2)移除预算感知软门控(改为固定随机结构)导致Avg下降约0.8个百分点,证明数据驱动的结构发现优于手工或随机选择;(3)跳过门控预热阶段(直接开始联合优化门控和参数)导致训练不稳定和约0.5个百分点的性能损失,验证了预热阶段对初始化稳定稀疏结构的必要性;(4)移除共享-特有重叠正则化后,共享和特有参数组的重合比例显著增加,导致有效参数利用率下降和约0.4个百分点的性能损失。
|
||
|
||
结构分析可视化了注意力模块间的共享与任务特有更新分配,揭示了有意义的功能分化模式。共享稀疏更新在Key投影中被最频繁地选择(约占共享更新的35\%),其次是Value投影(约28\%)和Query投影(约22\%),Output投影最少(约15\%)。这一分布可以从注意力机制的功能角色来理解:Key投影定义了与任务无关的"被查询"表示空间,自然适合作为跨任务共享的适配目标;而Query投影更多地反映当前任务的查询意图,因此更倾向于被分配为任务特有更新。这种自发涌现的结构分化进一步验证了MESSA让数据驱动结构发现的设计理念。
|
||
|
||
|
||
\section{本章小结}
|
||
\label{sec:ch5_summary}
|
||
|
||
本章将视角从表示空间转向参数空间,围绕频谱级多尺度异质性($\mathcal{R}_{spec}$)和参数级容量分配异质性($\mathcal{R}_{param}$),提出了两种结构感知适配方法。
|
||
|
||
CASCADE通过异构频域/空域专家建模权重更新的多尺度结构,并引入级联频谱调制建立从粗到细的跨频率依赖关系。在三种骨干模型和15个基准数据集上,CASCADE在常识与数学推理任务上均显著优于现有PEFT基线,验证了联合建模异构更新成分的有效性。
|
||
|
||
MESSA针对多任务场景,将适配分解为共享和任务特有的稀疏增量,通过预算感知的软到硬结构学习在统一参数预算下实现最优容量分配。在三种骨干模型和五个多样化任务上,MESSA以更少的参数量取得了全面领先的多任务性能,验证了显式建模共享-特有结构的价值。
|
||
|
||
CASCADE和MESSA分别丰富了统一框架中的组合式调制和结构分解调制形式,与第三章的乘性调制共同构成了完整的结构感知适配方法体系。至此,本文围绕四类结构异质性($\mathcal{R}_{mod}$、$\mathcal{R}_{dim}$、$\mathcal{R}_{spec}$、$\mathcal{R}_{param}$)提出的适配方法已全部介绍完毕。下一章将转向评测基础设施建设,为上述方法提供时空场景下的系统性评测支持。
|
||
|
||
% 第六章 面向时空智能的大模型评测体系与实验基础设施,由于跟新题目没什么关系,我就不输入了
|
||
|
||
\chapter*{总结与展望}
|
||
|
||
\subsubsection{本文工作总结}
|
||
|
||
城市时空系统在空间组织形式、动态演化规律以及任务功能需求等方面呈现出显著的结构复杂性特征。这种复杂性不仅体现在观测数据的多尺度变化与多源耦合关系之中,也进一步映射为模型在统一表征学习过程中所面临的多层级结构适配问题。围绕这一科学问题,本文以时空数据的结构特性为研究出发点,对模型适配过程中所涉及的关键结构差异进行了系统归纳,构建了结构感知调制的统一分析框架,从模块功能组织、表示维度结构、多尺度动态模式以及参数容量分布等不同层级刻画时空数据诱导的结构异质性,并据此形成具有一致形式的结构化建模思路。
|
||
|
||
在方法研究方面,本文围绕多层级结构异质性逐步展开,形成了由表示空间到参数空间递进发展的适配策略体系。在模块级层面,通过上下文条件化的注意力调制机制,引导模型在多任务场景下实现知识共享与任务特化表达之间的协调;在维度级层面,通过位置结构感知的表示调制方法增强模型对空间依赖关系与时空位置编码的利用效率;在参数组织层面,结合多尺度频谱建模与容量分配机制,使模型能够在有限参数预算下同时捕获全局演化趋势与局部细粒度模式。上述方法从不同侧面探索了结构角色驱动的模型适配路径,体现了由数据结构特性引导模型能力发挥的建模思路。
|
||
|
||
在评测与验证层面,本文进一步构建了面向时空智能研究的实验基础设施体系。通过设计基于多智能体协同的交通预测持续评测框架,实现了交通预测模型从文献发现到统一评估的自动化工作流,为相关方法提供了可复现且可扩展的验证环境。同时,基于真实轨迹行为与地理兴趣点信息构建了大规模时空敏感问答数据集,对当前模型在复杂城市场景中的时空推理能力进行了系统评测。实验结果表明,尽管现有基础模型在通用任务中已展现出较强能力,但在细粒度时空推理问题上仍存在明显性能瓶颈,而结构感知的适配策略在提升模型表现方面具有一定潜力。
|
||
|
||
总体而言,本文围绕城市时空系统的结构复杂性这一核心问题,从统一分析框架构建、多层级适配方法设计到评测体系支撑三个层面开展研究,形成了较为完整的技术路径与研究闭环。相关工作为基础模型在复杂时空智能任务中的高效应用提供了系统性的理论参考与方法探索,也为后续城市智能建模研究奠定了进一步发展的基础。
|
||
\subsection{主要创新点}
|
||
|
||
围绕城市时空数据表征学习与基础模型高效适配这一核心问题,本文从结构特性分析、方法体系构建以及评测基础设施设计等方面开展了系统研究,主要创新性工作体现在以下三个方面。
|
||
|
||
\textbf{创新点一:提出了面向时空数据结构复杂性的统一分析框架。}
|
||
|
||
针对复杂城市时空任务中模型适配困难来源缺乏系统性认识的问题,本文从表示学习过程出发,对时空数据在模型内部诱导的结构差异进行了层级化归纳与形式化刻画。通过从模块功能组织、表示维度结构、多尺度动态模式以及参数容量分布等多个层面分析结构异质性对模型建模过程的影响,本文构建了一个具有统一视角的结构感知分析框架。该框架将以往分散于具体任务或模型设计中的经验性现象上升为结构层面的机制性认识,有助于更清晰地理解复杂时空任务中模型适配难点的来源,并为后续结构感知建模方法的设计提供了具有指导意义的理论分析基础。
|
||
|
||
\textbf{创新点二:构建了面向城市多任务时空建模的多层级结构感知参数高效适配方法体系。}
|
||
|
||
围绕结构异质性对模型表征能力的影响,本文从表示空间到参数空间逐层展开研究,形成了具有内在一致性的结构角色驱动适配策略。在模块级层面,通过上下文条件化的注意力调制机制协调跨任务知识共享与任务特化表达;在维度级层面,通过位置结构感知的动态表示调制增强模型对空间依赖关系的建模能力;在更高层级的参数组织层面,结合多尺度频谱建模与容量分配机制,使模型能够在有限参数预算下同时刻画全局演化趋势与局部细粒度模式。该方法体系体现了由时空数据结构特性引导模型能力发挥的建模范式,为基础模型在复杂城市任务中的高效适配提供了系统性技术路径。
|
||
|
||
\textbf{创新点三:构建了面向时空智能研究的持续评测基础设施与细粒度时空推理数据资源。}
|
||
|
||
为解决交通预测基准难以持续更新以及大语言模型缺乏时空推理评测数据的问题,本文提出了AI驱动的交通预测持续评测框架AgentCity,实现了模型发现、复现与统一评估的自动化工作流;同时构建了大规模时空敏感问答数据集POI-QA,从真实轨迹行为出发系统评测模型在复杂城市场景中的时空推理能力。上述工作在方法研究与实验验证之间建立了稳定的评测支撑环境,为后续相关研究提供了可复现、可扩展的实验基础。
|
||
|
||
\subsection{未来工作展望}
|
||
|
||
尽管本文围绕时空数据结构特性驱动的表征学习建模开展了系统研究,但面向更复杂的城市智能场景,相关理论与方法仍具有进一步拓展空间。未来研究可从模型范式层面对时空基础模型的构建展开探索。在现有通用预训练模型基础上的结构感知适配策略之外,有必要进一步研究原生面向时空数据的统一预训练框架,通过在大规模轨迹数据、路网结构数据及城市运行观测数据上的联合学习,增强模型对时空动态规律的内在表征能力,从而为多类型城市任务提供更加稳健的基础模型支撑。
|
||
|
||
随着城市运行环境中多源数据的持续积累,多模态时空信息融合将成为重要研究方向。真实场景下的时空行为往往同时受到地理结构、语义事件及环境因素的综合影响,例如文本信息、遥感影像与感知数据等均可能对时空模式产生显著作用。如何在统一表示空间中实现多模态信息的协同建模,并在保持模型计算效率的前提下提升其对复杂城市现象的理解能力,是未来值得深入探索的问题。
|
||
|
||
从应用角度看,开放环境中的时空推理与决策能力仍有较大提升空间。相关实验结果表明,当前模型在面对自然语言表达、复杂约束条件及细粒度空间推理任务时仍存在明显性能差距。未来可进一步研究面向长期行为预测与动态交互决策的建模机制,使模型能够在不断变化的城市环境中实现更稳定的推理与自适应调整,从而推动时空智能技术向真实应用场景的深入发展。
|
||
|
||
此外,评测体系与实际系统运行之间的持续联动也具有重要研究价值。随着AI驱动评测框架的逐步成熟,未来可探索将离线基准评测、在线数据更新与真实系统反馈相结合,构建具有持续演化能力的评测生态,从而更加全面地刻画模型在复杂城市系统中的长期性能表现与泛化能力。通过在模型设计、数据资源建设与评测机制完善等方面的协同推进,有望逐步形成更加系统化和可落地的城市时空智能研究范式。
|