Files
Graduate/chap01.tex
2026-03-20 22:40:13 +08:00

432 lines
47 KiB
TeX
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
% !TeX root = ../main.tex
% 第一章 绪论
\chapter{绪论}
\label{chap:introduction}
\section{研究背景与意义}
\label{sec:background}
\subsection{大语言模型表征适配的发展背景与关键挑战}
\subsubsection{基础模型范式推动统一表示学习的发展}
近年来以大语言模型为代表的基础模型Foundation Models在自然语言处理及相关智能任务中展现出显著的表达能力与泛化潜力\cite{brown2020language,bommasani2021opportunities}。该类模型通过在大规模、多源异构语料上进行预训练,在统一的序列建模框架下学习高维表示空间中的统计规律,从而形成具有较强抽象能力的通用表征。这种以表示学习为核心的建模方式,使模型能够在单一参数体系中整合语义理解、知识表达与推理能力,为多类型下游任务提供共享的知识基础。
与传统面向特定任务构建模型的范式相比,基础模型强调在统一表示空间中对多任务进行建模与迁移。模型不再针对每一类任务独立学习特定结构,而是通过预训练阶段形成通用表示,并在下游任务中通过适配机制对已有表示进行重组与调用。这一由“任务特定建模”向“通用表示学习”的转变,使模型能够在不同任务之间复用已有知识结构,并在新任务场景中实现高效迁移。
\begin{figure}[htbp]
\centering
% \includegraphics[width=0.85\textwidth]{fm_paradigm.pdf}
\caption[基础模型范式下统一表示学习的示意图]{基础模型范式下统一表示学习的示意图。左侧表示传统任务特定建模方式,不同任务依赖独立模型与特征设计;右侧表示基础模型通过预训练形成统一表示空间,并通过适配机制支持多任务共享与迁移。}
\label{fig:ch1_fm_paradigm}
\end{figure}
在这一范式下,模型能力不再仅由单一任务性能刻画,而更多取决于其在统一的表示空间中整合多源信息与支持多类型推理的能力。这种能力依赖于表示空间的内部组织方式,即不同语义成分、结构信息与知识模式在表示中的编码与分布形式。
因此,下游任务的适配过程可以被理解为对预训练表示的再组织过程,即在保持原有知识结构的前提下,引导模型在表示空间中激活与任务相关的成分。这一视角为从表示机制出发研究大语言模型适配问题提供了基础。
\subsubsection{复杂任务对统一表示空间的非均匀结构需求}
在上述统一表示学习范式下,模型可以通过共享的参数空间服务于多类型任务。然而,随着基础模型在实际应用中的推广,下游任务逐渐呈现出更强的复杂性与多样性,这使得统一表示空间所承载的建模需求不再是均匀一致的。
具体而言,不同任务在输入形式、推理路径与决策目标上的差异,会导致模型对内部表示结构提出不同侧重的需求。例如,部分任务更依赖局部上下文的精细对齐,部分任务更依赖长程依赖关系的组织与传播,另一些任务则更依赖对关键信息的选择性强化。这表明,复杂任务并非简单共享同一套表示能力,而是在表示空间中以不同方式激活不同结构成分。
从表示学习角度看,这一现象反映出表示空间内部存在隐式的功能分化:不同表示维度、不同层级结构以及不同计算模块,在复杂任务中的作用并不相同。不同输入条件与推理模式对应不同的激活路径与信息流动方式,从而表现出对模型内部结构的差异化敏感性。
因此,在统一模型框架下,适配问题可以进一步理解为:如何在保持预训练表示主体结构稳定的前提下,根据任务需求对表示空间中的关键结构成分进行有针对性的调控。该问题将模型适配由“参数更新问题”转化为“结构感知的表示调制问题”。
\subsubsection{参数高效适配范式的发展}
在上述非均匀结构需求背景下模型适配机制成为关键环节。随着大语言模型规模的持续扩展针对下游任务进行全参数微调fine-tuning所带来的计算与存储开销显著增加。在此背景下参数高效微调Parameter-Efficient Fine-Tuning, PEFT方法逐渐成为主流的模型适配技术路径\cite{houlsby2019parameter,hu2021lora,li2021prefix}。该类方法通过引入低秩更新、附加适配模块或提示向量等轻量结构,在保持主体参数基本不变的前提下,实现对模型的任务相关适配,从而在适配效率与性能之间取得平衡。
从建模方式看,现有参数高效适配方法通常在模型不同层级施加形式一致的参数更新或表示调制机制,例如在各层引入结构相同的适配模块,或对权重矩阵施加统一形式的低秩扰动。这类设计使适配过程能够以较低复杂度作用于整个模型表示空间,从而实现稳定的迁移效果。
然而,这种在模型不同层级施加形式一致适配策略的方式,与复杂任务对表示空间非均匀结构的需求之间存在潜在不匹配。当模型内部不同结构单元在表示形成中承担差异化功能时,统一形式的适配策略难以对关键表示成分进行精细调控。在复杂任务场景与有限适配预算条件下,这种结构均匀假设可能限制模型能力迁移的效率。
因此,模型适配问题可以进一步表述为:在保持参数高效性的前提下,如何使适配机制能够与模型内部结构特征相匹配,从而对不同结构单元施加差异化调制。
\subsubsection{模型内部结构异质性及其对适配建模的启示}
从模型机制角度看,上述适配局限与模型内部结构特征密切相关。大语言模型内部不同模块、表示维度以及参数子空间在信息建模过程中呈现出显著的功能差异。例如,自注意力结构主要承担上下文关系的组织与长程依赖建模功能,而前馈网络更侧重参数化知识表达;在表示维度层面,不同子空间在位置结构建模与语义编码中的作用并不均衡;在参数更新层面,权重调整过程往往表现出多尺度与非均匀分布特征。
这些现象表明,大语言模型内部由具有不同功能角色的结构单元构成,而非均质整体。不同结构单元在表示形成与任务适配中的贡献存在差异,使模型整体行为可以理解为多种结构作用的协同结果。
由此,模型内部结构不仅是对表示机制的描述对象,也可以被视为适配建模中的基本作用单元。基于结构角色差异对模型进行建模,使适配过程能够针对不同结构单元施加差异化作用,从而为后续构建结构感知适配机制提供了基础。
\subsubsection{大语言模型结构感知表征适配的关键问题与挑战}
综合以上分析,在统一表示学习范式与复杂任务需求的共同驱动下,模型适配问题逐渐呈现出明显的结构依赖特征。当模型内部不同结构单元在表示形成中承担差异化功能时,适配过程是否能够刻画并利用这些结构差异,直接影响模型能力迁移的效率与稳定性。
若适配过程仅对模型参数或表示施加整体性、形式一致的调整,则其对不同结构成分的作用往往是均匀的,难以反映复杂任务对表示结构的差异化需求。相应地,若适配机制能够显式刻画结构角色差异,并据此对表示流或参数更新施加有针对性的调制,则有可能在有限适配资源条件下,更有效地引导模型激活与任务相关的表示成分。
因此,本文关注的核心问题是:在统一表示空间中,如何基于模型内部结构角色差异,对表示流与参数更新过程进行非均匀调制,从而在有限适配预算下实现高效任务特化。围绕这一问题,本文从模块级、维度级与参数级等多个层面展开分析与方法设计,并在统一的结构感知调制视角下对不同适配策略进行系统刻画。
\subsection{理论意义、方法体系与应用价值}
\label{subsec:significance}
围绕大语言模型表征适配机制开展系统研究,在理论理解、方法体系构建与实际应用支撑等方面具有重要意义。
{\heiti \underline{理论意义}}
从表示学习与模型机制角度看,大语言模型通过大规模预训练在统一表示空间中形成了高度抽象的通用知识结构。然而,这类表示能力并不能直接对应具体任务需求,模型在适配过程中需要在保持既有知识组织方式的同时,对任务相关的输入结构与推理模式形成针对性响应。因此,“预训练表示如何在适配过程中转化为任务特定能力”成为当前基础模型研究中的核心问题之一。
进一步地,随着模型规模与任务复杂度的提升,模型内部不同结构单元在信息建模中的功能分化逐渐显现。例如,自注意力模块主要承担上下文关系组织与长程依赖建模功能,前馈网络更侧重参数化知识表达,而位置相关表示在不同维度子空间中呈现出不均衡的重要性。这表明,模型能力的形成不仅依赖整体参数规模,也与表示结构的组织方式密切相关。
基于上述认识,从结构角色差异出发分析模型适配过程中的表示调制机制,有助于在更细粒度层面理解大语言模型能力迁移与任务特化的内在规律。将适配过程刻画为对不同结构单元施加差异化调制的过程,为解释复杂任务条件下的模型行为提供了统一视角,并推动表征学习研究由性能驱动向机制驱动转变。
{\heiti \underline{方法体系意义}}
现有大语言模型适配方法多从单一层级或局部结构出发进行设计,例如针对参数更新结构、附加模块或提示向量进行独立改进。尽管这些方法在不同任务场景中取得了良好效果,但由于缺乏统一的结构建模视角,其作用机制与适用范围难以系统刻画,不同技术路径之间的内在联系也不清晰。
围绕模型内部结构角色差异,本文构建了从模块级、维度级到参数级逐层展开的结构感知表征适配方法体系。该体系以统一的建模思想为基础,即根据模型内部各结构单元在表示形成中的功能角色,对表示流或参数更新施加非均匀调制。在统一形式化框架下,上述方法可归纳为乘性调制、组合式调制与结构分解调制三类基本形式,从而实现对不同适配机制的统一描述。
这一具有内在一致性的分层方法体系,有助于从整体视角理解不同适配策略之间的关系,使模型改进从局部结构优化拓展为在统一框架下的系统化建模。同时,该体系为多任务场景中的表示迁移与能力协同提供了方法基础,并为后续结构感知建模研究提供了可扩展的技术路径。
{\heiti \underline{应用与工程价值}}
从应用角度看,大语言模型正由离线研究环境逐步走向多任务协同与持续部署的复杂系统场景。在这一过程中,模型适配方法不仅需要具备性能提升能力,还需要在计算开销、参数规模与部署稳定性等方面满足工程约束。在保持预训练模型主体能力的前提下,通过有限参数更新实现高效适配,已成为基础模型落地应用的关键问题。
本文提出的结构感知适配方法,通过在模型内部关键结构单元上进行针对性的表示调制与参数组织,使适配过程更加聚焦于对任务能力形成具有关键作用的表示成分,从而在有限适配预算条件下提升模型性能与资源利用效率。这种建模方式有助于降低大模型在实际部署中的适配成本,并提升其在多任务环境中的持续适应能力。
此外,通过对不同结构适配策略进行系统验证,可以在多任务与多场景条件下评估方法性能表现,从而更全面分析结构感知适配机制的有效性。方法设计与实验分析的结合,有助于形成从结构建模到性能验证的完整研究闭环。
总体而言,围绕结构感知表征适配问题开展系统研究,有助于深化对基础模型适配机制的理解,推动模型适配方法由均匀更新向结构驱动调制演进,并为复杂任务场景下的大语言模型高效应用提供方法支撑。
\section{大语言模型表征适配研究现状与关键问题分析}
\label{sec:research_status}
\subsection{大语言模型的表示学习机制}
\label{subsec:status_representation}
大语言模型的适配问题建立在其预训练表示机制之上。以 Transformer 为核心的模型通过多层自注意力与前馈网络的交替堆叠,在统一序列建模框架下逐步构建从局部上下文关联到高层语义抽象的层级化表示结构\cite{vaswani2017attention}。相较于依赖显式特征设计的传统方法,该类模型通过大规模预训练在共享参数体系中学习通用表示,使语义理解、知识表达与推理能力能够在同一表示空间中协同形成\cite{brown2020language,bommasani2021opportunities}
从表示形成机制看Transformer 内部不同计算单元在信息建模中承担着相互关联但并不相同的功能。自注意力模块通过动态权重分配组织跨位置的信息交互,主要负责上下文依赖关系的建模与信息路由;前馈网络则通过参数化非线性映射对中间表示进行变换与重组,在语义表达与知识存储中发挥重要作用\cite{geva2021transformer,dong2025attention}。同时,位置编码机制(如旋转位置编码 RoPE通过在表示维度中注入结构化位置信息使模型能够在表示空间内刻画顺序关系与距离模式\cite{su2024roformer}
随着模型规模与训练数据的持续扩展,大语言模型在表示空间中逐渐形成具有层级性与各向异性的结构特征。已有研究表明,不同层级往往对应不同粒度的信息加工过程\cite{belinkov2018evaluating},不同注意力头在依赖关系建模中表现出差异化模式\cite{voita2019bottom},而不同表示维度或子空间对语法、语义及位置结构信息的承载能力也并不均衡\cite{jin2025massive}。这表明,模型表示空间并非均质整体,而是由多种具有不同功能角色的结构成分构成。
因此,在下游任务适配过程中,不同结构单元对模型性能的贡献并不一致。任务能力的形成往往依赖于对部分关键表示成分的重组与强化,而非对整个表示空间的均匀调整。这一特征表明,表示在不同结构单元上的非均匀分布,将直接影响适配过程中不同结构成分的作用方式,并为后续从结构角度研究适配机制提供了基础。
\subsection{参数高效适配方法研究现状}
\label{subsec:status_peft}
随着大语言模型参数规模的持续增长对每个下游任务进行全参数微调所带来的计算与存储成本逐渐成为制约模型应用的重要因素。为提升模型复用效率并降低适配开销参数高效微调Parameter-Efficient Fine-Tuning, PEFT方法逐渐成为主流技术路径\cite{houlsby2019parameter,hu2021lora,li2021prefix}。该类方法通过引入少量可训练参数或对原有参数更新施加结构约束,在保持预训练模型主体能力的前提下实现任务特定适配。
现有参数高效适配方法主要包括三类:一类通过在模型内部插入轻量附加模块,如 Adapter通过瓶颈结构增强任务特定特征表达\cite{houlsby2019parameter};一类通过对权重更新空间施加低秩或稀疏约束,如 LoRA 等方法,通过结构化分解降低参数更新复杂度\cite{hu2021lora};另一类则通过提示、前缀或软提示等方式,在输入或中间表示层引入额外可学习信号,引导模型调用已有知识结构\cite{li2021prefix,lester2021power}
从更抽象的角度看,上述方法主要作用于两类对象:一类针对参数更新结构,通过限制更新自由度提升适配效率;另一类作用于表示流,通过附加调制信号改变模型对已有知识的调用方式。两类路径分别从参数空间与表示空间出发,为大语言模型适配提供了有效的实现手段。
然而,多数现有方法在设计上在不同层级、不同模块或不同参数子空间中施加形式一致的更新或调制机制。这种策略隐含地假设模型内部结构单元在适配过程中具有近似一致的作用,从而采用统一的适配形式作用于整个模型。尽管这一假设有助于简化方法设计并保证训练稳定性,但在复杂任务需求与有限适配预算并存的条件下,其对关键结构成分的刻画能力仍然有限。因此,参数高效适配研究逐渐从“如何减少参数更新量”进一步转向“如何在有限预算下更有针对性地组织更新”。
\subsection{大语言模型结构异质性研究现状}
\label{subsec:status_structure}
在对大语言模型表示机制的进一步分析中,研究者逐渐发现模型内部存在显著的结构异质性特征,并尝试从不同层级对其进行刻画。这些研究为理解模型能力形成机制以及改进适配策略提供了重要线索。
在模块层面,已有工作指出自注意力与前馈网络在功能上具有相对稳定的角色差异:前者主要承担上下文关系的组织与信息路由功能,后者则在特征变换与知识表达中发挥更重要作用\cite{geva2021transformer,dong2025attention}。这一现象表明,不同模块在表示形成中的贡献并不均衡,对其施加统一形式的适配策略未必能够充分发挥各自优势。
在表示维度与位置结构层面,位置编码机制(如旋转位置编码)会在表示空间中引入具有频率结构的系统性偏置,使不同维度在位置信息建模中承担不同作用\cite{su2024roformer,barbero2024round}。同时,不同层、不同注意力头以及不同维度对子空间结构的敏感性存在差异,进一步体现出表示空间内部的细粒度结构分化。
在参数空间层面,模型训练与微调过程中的参数更新通常呈现出非均匀分布与多尺度特征\cite{rahaman2019spectral}% 注需补充到ref.bib: rahaman2019spectral (Rahaman et al., On the Spectral Bias of Neural Networks, ICML 2019)
部分参数子空间对模型整体行为具有更显著影响,而多任务场景中不同任务对共享与专用参数的依赖程度也存在差异。这些现象表明,参数组织方式本身也具有结构属性,并对适配效果产生重要影响。
总体来看,现有研究已从模块、维度与参数等多个角度揭示了大语言模型内部的结构复杂性。然而,这些工作多围绕局部结构特征展开,其分析对象、建模方式及方法形式尚未形成统一描述框架,不同层级结构异质性之间的内在联系仍有待系统刻画。图~\ref{fig:ch1_research_landscape}~概括了上述研究现状及其与本文方法体系的关系。
\begin{figure}[htbp]
\centering
% \includegraphics[width=0.95\textwidth]{ch1_research_landscape.pdf}
\caption{大语言模型表征适配研究现状与本文方法定位。左侧展示模型内部三个层面的结构异质性现象(模块级功能分化、维度级位置结构差异、参数空间多尺度与容量分配特征);中间为现有参数高效适配方法的均匀适配假设与三类局限;右侧为本文构建的统一分析框架与五种方法的对应关系。}
\label{fig:ch1_research_landscape}
\end{figure}
\subsection{现有研究的关键问题总结}
\label{subsec:status_summary}
综合上述分析可以看出,大语言模型在表示学习机制、参数高效适配方法以及结构异质性分析方面均已取得一定进展,但在面向复杂任务的系统化适配建模方面仍存在若干关键问题。
第一,\textbf{模型内部结构角色差异刻画不足。} 现有适配方法多基于统一形式的更新或调制机制,对模块级功能差异、维度级结构差异以及参数子空间的非均匀更新特征缺乏系统利用。在复杂任务需求下,这种均匀适配方式难以针对关键结构成分进行有效调控,从而限制模型能力迁移效率。
第二,\textbf{多层级结构异质性缺乏统一分析框架。} 尽管已有研究从表示调制、低秩更新、路由机制及频谱分析等角度提出多种方法,但不同技术路径之间缺乏统一的结构描述与形式化表达,尚未形成具有内在一致性的结构感知建模体系。
第三,\textbf{从表示空间到参数空间的适配路径尚不完整。} 现有方法通常仅关注表示调制或参数更新结构中的单一层面,对于如何在统一框架下协同建模表示空间中的信息流调制与参数空间中的结构组织,以及如何在有限预算条件下平衡共享能力与任务特化能力,仍缺乏系统性方案。
基于上述问题,本文将模型适配进一步理解为一种结构感知的非均匀调制过程,即在表示流传播与参数更新过程中,根据模型内部结构角色差异施加有针对性的调制机制。在此基础上,下一节将提出面向大语言模型的结构感知表征适配统一分析框架,并据此组织后续各层级方法设计。
\section{面向大语言模型的结构感知适配统一分析框架}
\label{sec:unified_framework}
前述分析表明,大语言模型在不同模块、表示维度及参数子空间中普遍存在结构异质性。这种异质性不仅体现在模型架构层面,也反映在模型内部表示的形成过程中:不同类型的信息往往由不同层级与不同子结构进行建模,从而在表示空间中形成具有功能分化的组织方式。
在此背景下,若在模型适配过程中对所有表示与参数施加形式一致的调整,则难以同时兼顾多任务共享规律与局部结构差异,容易导致关键结构成分表达不足。因此,从下游任务适配需求出发,模型适配过程需要具备\emph{结构敏感性},即能够根据不同结构特征,对模型内部表示施加差异化调控。
为刻画这一过程,可以从模型前向计算的角度进行分析。对于输入样本 $\mathbf{X}$,模型在逐层计算过程中产生一系列中间表示,并通过这些表示在层间逐步传递与变换。该过程可视为一种\emph{表示流}representation flow即信息在模型内部随层级推进而持续演化的过程。
从这一视角出发,结构感知适配可以统一理解为:在表示流的传播过程中,对中间表示施加依赖于输入与结构特征的非均匀变换。基于此,本文将模型适配抽象为对表示流的\emph{结构感知调制},并在此基础上构建统一分析框架,以刻画后续方法的共性机制。
\subsection{结构感知调制的统一形式化}
\label{subsec:unified_formulation}
在上述表示流视角下,考虑预训练模型在适配过程中的表示变换形式。设预训练模型参数为 $\Theta_0$,适配参数为 $\Theta_a$。对于第 $\ell$ 层,给定输入样本 $\mathbf{X}$,该层产生的中间表示记为 $\mathbf{Z}^{(\ell)}$(例如注意力输出或前馈网络输出),其构成表示流在该层的状态;在参数空间方法中,$\mathbf{Z}^{(\ell)}$ 也可对应由该层权重更新所刻画的适配对象。
结构感知调制的统一形式可表示为:
\begin{equation}
\tilde{\mathbf{Z}}^{(\ell)}
=
\mathcal{M}_{\theta}
\Big(
\mathbf{Z}^{(\ell)};\,
\mathbf{X},\,
\mathcal{R}
\Big),
\label{eq:ch1_unified_M}
\end{equation}
其中,$\mathcal{M}_{\theta}(\cdot)$ 表示结构感知调制算子,$\tilde{\mathbf{Z}}^{(\ell)}$ 为调制后的表示,$\mathcal{R}$ 为结构角色描述符,用于刻画模型内部的结构异质性类型,例如模块级、维度级及参数级等不同层级的结构差异。相应地,$\mathbf{Z}^{(\ell)}$ 在表示空间方法中表示中间表示流对象,在参数空间方法中表示结构化参数更新对象。
上述形式化将模型适配统一刻画为在结构约束下的表示变换过程。与对参数进行整体更新的视角相比,该表达更直接地反映了适配过程中不同结构单元在表示流中的作用差异。通过引入结构角色描述符 $\mathcal{R}$,可以在统一框架下区分不同类型的结构异质性,并据此构造相应的调制策略。
\subsection{结构感知调制的形式类别划分}
\label{subsec:modulation_forms}
在上述统一形式下,结构感知调制既可以作用于表示流,也可以作用于参数更新结构,但其核心差异主要体现在调制算子的具体实现方式上。根据调制作用的结构层级与建模目标的不同,可从调制机制的角度将结构感知调制归纳为三类基本形式。
\textbf{乘性调制}用于刻画表示流中不同成分的重要性差异。在多任务与多结构并存的场景下,不同表示维度或通道对任务目标的贡献程度存在差异,因此需要通过条件化门控机制对其进行选择性增强或抑制。其形式为:
\begin{equation}
\mathcal{M}_{\theta}(\mathbf{Z};\mathbf{X},\mathcal{R})
=
\mathbf{Z} \odot \mathbf{S}_{\theta}(\mathbf{X},\mathcal{R}),
\label{eq:ch1_multiplicative}
\end{equation}
其中 $\mathbf{S}_{\theta}(\cdot)$ 为依赖输入与结构信息的调制信号。第三章的 HyCAM 方法以及第四章的 RoSA 与第五章的 DyPAM 方法均属于此类形式。
\textbf{组合式调制}用于刻画多尺度结构特征。在复杂数据与任务场景中,不同尺度模式往往对应不同频率成分,需要在统一框架下进行分解与重组。其形式为:
\begin{equation}
\mathcal{M}_{\theta}(\mathbf{Z};\mathbf{X},\mathcal{R})
=
\bigoplus_{s=1}^{S}
\mathbf{Z}_{s} \cdot g_{\theta,s}(\mathbf{X},\mathcal{R}),
\label{eq:ch1_compositional}
\end{equation}
其中 $\mathbf{Z}_s$ 表示第 $s$ 个频段的表示分量。第六章的 CASCADE 方法采用此类形式。
\textbf{结构分解调制}用于刻画多任务场景下的共享与专用结构。在有限参数预算条件下,不同任务对模型容量的需求存在差异,需要在共享表示与任务特有表示之间进行分配。其形式为:
\begin{equation}
\mathcal{M}_{\theta}(\mathbf{Z};\mathbf{X},\mathcal{R})
=
\mathbf{Z} \cdot \left(\Delta\Theta_{shared} + \mathbf{m} \odot \Delta\Theta_{specific}\right),
\label{eq:ch1_structural}
\end{equation}
其中 $\Delta\Theta_{shared}$$\Delta\Theta_{specific}$ 分别对应共享与专用参数增量。第六章的 MESSA 方法采用此类形式。
上述三类调制形式对应不同结构异质性条件下的建模方式,并与后续方法体系形成如下对应关系,如表~\ref{tab:ch1_method_overview} 所示。
\begin{figure}[htbp]
\centering
% 占位:待替换为外部绘制的 modulation_forms.pdf
% \includegraphics[width=0.9\textwidth]{modulation_forms.pdf}
\caption{三种结构感知调制形式的示意图。该图采用三列并排布局,每列对应一种调制形式:
\textbf{左列}(乘性调制):输入表示$\mathbf{Z}^{(\ell)}$经过条件化信号生成模块$\mathbf{S}_\theta(\mathbf{X},\mathcal{R})$产生逐元素调制信号通过Hadamard乘法$\odot$作用于原始表示,输出调制后表示$\tilde{\mathbf{Z}}^{(\ell)}$。下方标注"HyCAM / RoSA / DyPAM"及"表示空间"。
\textbf{中列}(组合式调制):输入通过多个异构频域变换分解为$S$个频段分量$\mathbf{Z}_1, \mathbf{Z}_2, \ldots, \mathbf{Z}_S$,每个分量经路由权重$g_{\theta,s}$加权后通过$\bigoplus$重组。下方标注"CASCADE"及"参数空间"。
\textbf{右列}(结构分解调制):参数更新被分解为共享增量$\Delta\Theta_{shared}$和经掩码$\mathbf{m}$选择的专用增量$\Delta\Theta_{specific}$,二者相加后与输入表示相乘。下方标注"MESSA"及"参数空间"。
三列顶部统一标注公式$\tilde{\mathbf{Z}}^{(\ell)}=\mathcal{M}_{\theta}(\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R})$作为统一母式。每列使用与方法体系表一致的配色(表示空间青色调、参数空间橙色调)。}
\label{fig:ch1_modulation_forms}
\end{figure}
\begin{table}[h]
\centering
\caption{本文方法体系与结构异质性的对应关系。}
\label{tab:ch1_method_overview}
\resizebox{0.95\linewidth}{!}{
\begin{tabular}{lllclc}
\toprule
结构异质性类型 & 结构角色描述符 & 调制形式 & 适配空间 & 对应方法 & 章节 \\
\midrule
模块级功能异质性 & $\mathcal{R}_{mod}$ & 乘性调制 & 表示空间 & HyCAM & 第三章 \\
维度级位置结构异质性 & $\mathcal{R}_{dim}$ & 乘性调制 & 表示空间 & RoSA & 第四章 \\
维度级位置结构异质性 & $\mathcal{R}_{dim}$ & 乘性调制 & 表示空间 & DyPAM & 第五章 \\
频谱级多尺度异质性 & $\mathcal{R}_{spec}$ & 组合式调制 & 参数空间 & CASCADE & 第六章 \\
参数级容量分配异质性 & $\mathcal{R}_{param}$ & 结构分解调制 & 参数空间 & MESSA & 第六章 \\
\bottomrule
\end{tabular}
}
\end{table}
\subsection{结构异质性类型与本文方法体系}
\label{subsec:method_system}
基于上述统一框架,本文从模型内部结构特征出发,将模型适配过程中涉及的结构异质性划分为四类,并构建了相应的方法体系,如表~\ref{tab:ch1_method_overview} 所示。
从调制作用对象的角度看,上述调制形式可以进一步作用于不同层级的适配空间,即表示空间与参数空间。\textbf{表示空间}层面的适配方法直接作用于模型前向计算过程中的中间表示流,通过对注意力输出、维度通道等表示成分施加输入条件化的调制信号,改变信息在后续层中的传播与组合方式;\textbf{参数空间}层面的适配方法则作用于权重更新结构本身,通过在频谱分解或稀疏分配等参数组织层面引入结构感知机制,以提升有限参数预算下的更新效率。前者关注模型对已有知识的调用方式,后者关注参数更新的组织方式。尽管参数空间方法直接作用于权重更新结构,其目标仍然是改善表示形成与传播过程,因此本文将二者统一纳入结构感知表征适配的研究范畴。
在此划分下,本文的方法体系沿着由表示空间到参数空间的路径递进展开:第三至第五章在表示空间中,从模块级功能差异出发,逐步深入到维度级位置结构的静态选择与动态调制;第六章则转向参数空间,从多尺度频谱结构与参数容量分配两个方面对适配机制进行建模。
综上,本文在统一的结构感知调制框架下,将模型适配刻画为在不同结构角色约束下对表示流与参数更新的非均匀调制过程,并据此形成由表示空间到参数空间逐层展开的方法体系。该框架为后续各章方法的设计与分析提供了统一的建模基础。
\section{研究内容与技术路线}
\label{sec:research_content}
\subsection{主要研究内容}
\label{subsec:research_content_detail}
针对前述大语言模型适配过程中存在的结构异质性问题,本文在第~\ref{sec:unified_framework}~节提出的统一分析框架下,从模型内部结构角色差异出发,对表示流调制与参数更新组织进行系统建模,构建面向复杂任务场景的结构感知适配方法体系。
在统一形式化视角下,本文将模型适配理解为在结构角色描述符 $\mathcal{R}$ 约束下,对表示流与参数更新施加非均匀调制的过程。围绕这一建模思路,本文针对不同层级的结构异质性,设计相应形式的调制算子,并在表示空间与参数空间中形成相应的建模路径。本文的方法体系可概括为如下递进路径:
\begin{center}
模块级功能结构 $\rightarrow$ 维度级位置结构(静态 $\rightarrow$ 动态) $\rightarrow$ 参数空间结构(频谱 $\rightarrow$ 容量分配)
\end{center}
从适配作用对象的角度看,本文进一步将结构感知适配问题划分为表示空间与参数空间两个层面,并在不同结构层级上展开系统研究。其中:
1在表示空间层面针对模块级与维度级结构异质性研究表示流中的非均匀调制机制分别围绕模块功能角色差异与位置结构差异构建相应的乘性调制方法
2在参数空间层面针对权重更新过程中的多尺度结构与容量分配问题围绕频谱级与参数级结构异质性构建组合式调制与结构分解调制方法以提升有限参数预算下的适配效率。
在上述统一结构下,本文进一步将结构感知调制机制具体展开为一组相互关联的方法,主要研究内容包括以下四个方面。
\textbf{1基于模块功能角色感知的表示调制方法HyCAM}
针对多任务建模中不同计算模块承担差异化功能的问题,本文基于模块级结构异质性($\mathcal{R}_{mod}$在表示空间中构建乘性调制机制提出混合上下文注意力调制方法Hybrid Contextual Attention Modulation, HyCAM
该方法利用自注意力模块与前馈网络在功能上的差异,对注意力表示施加输入条件化的通道级调制,并通过“共享调制—专用调制—动态路由”结构,实现多任务场景下知识共享与任务特化之间的结构化协调,从而提升模型在复杂任务条件下的协同建模能力。
\textbf{2基于位置结构感知的静态选择性表示适配方法RoSA}
针对位置编码在表示维度中引入的结构非均匀性,本文基于维度级结构异质性($\mathcal{R}_{dim}$),在表示空间中构建静态、粗粒度的乘性调制机制,提出 RoPE 感知的选择性适配方法RoPE-aware Selective Adaptation, RoSA
该方法通过刻画不同维度在位置结构建模中的功能差异,对关键维度进行定向增强,并结合层级选择策略实现跨层资源分配,在保持参数高效性的前提下提升模型对位置结构信息的利用能力。
\textbf{3基于位置结构感知的动态细粒度表示调制方法DyPAM}
在静态选择性适配基础上,进一步考虑输入条件对表示结构的影响,将维度级适配扩展为输入依赖的动态调制问题。基于同一结构描述符($\mathcal{R}_{dim}$在表示空间中构建细粒度乘性调制机制提出动态位置注意力调制方法Dynamic Positional Attention Modulation, DyPAM
该方法通过构造与位置结构对齐的调制信号,使不同维度的重要性能够随输入变化自适应调整,从而实现由“静态结构选择”向“动态结构调制”的递进式建模,提升模型对复杂输入条件的结构感知能力。
\textbf{4面向参数空间的多尺度与容量分配结构感知适配方法CASCADE 与 MESSA}
在表示空间方法基础上,本文进一步将结构感知适配扩展至参数空间,分别从频谱结构与参数容量分配两个角度建模参数级结构异质性($\mathcal{R}_{spec}, \mathcal{R}_{param}$)。二者分别对应参数空间中多尺度结构建模与容量分配建模的两个互补方向。
针对权重更新中的多尺度特征基于组合式调制形式提出频谱级联的多尺度参数适配方法Coarse-to-Fine Spectral Cascading, CASCADE通过构建异构频段专家与级联调制机制实现从全局趋势到局部细节的多尺度协同建模。
针对多任务场景中的参数容量分配问题基于结构分解调制形式提出共享—特有稀疏分解的多任务适配方法Multi-task Efficient Shared-Specific Sparse Adaptation, MESSA通过结构化参数分解与预算感知分配机制在有限参数条件下实现共享能力与任务特化能力之间的平衡。
\textbf{5方法体系总结}
综上,本文在统一的结构感知调制框架下,构建了覆盖表示空间与参数空间的多层级适配方法体系。表示空间方法围绕模块级与维度级结构逐步细化,体现由粗粒度到细粒度的调制过程;参数空间方法则从多尺度结构与容量分配角度对适配过程进行结构化建模。上述方法共同形成面向复杂任务场景的大语言模型结构感知适配路径。
\subsection{整体技术路线}
\label{subsec:technical_route}
为系统开展面向复杂任务场景的大语言模型结构感知表征适配研究,本文以模型内部结构异质性为出发点,构建统一的分层建模技术路线,其总体框架如图~\ref{fig:tech_route}所示。
% TikZ 源码保留供参考,最终版本使用外部绘制的 PDF
% \begin{figure}[htbp]
% \centering
% \begin{tikzpicture}[
% node distance=0.4cm,
% >={Stealth[length=2.5mm, width=1.8mm]},
% topbox/.style={rectangle, rounded corners=3pt, draw=black!50, fill=black!4,
% text width=13.5cm, align=center, inner sep=7pt, font=\small},
% fwbox/.style={rectangle, rounded corners=3pt, draw=blue!35!black, fill=blue!4,
% text width=13.5cm, align=center, inner sep=7pt, font=\small},
% spcbox/.style={rectangle, rounded corners=3pt, draw=#1!45!black, fill=#1!10,
% text width=6.2cm, minimum height=0.7cm, align=center, inner sep=5pt,
% font=\small\bfseries},
% mtdbox/.style={rectangle, rounded corners=3pt, draw=#1!35!black, fill=#1!5,
% text width=5.8cm, align=left, inner sep=5pt, font=\footnotesize},
% btmbox/.style={rectangle, rounded corners=3pt, draw=black!50, fill=black!4,
% text width=13.5cm, align=center, inner sep=6pt, font=\small},
% arr/.style={->, line width=0.7pt, draw=black!50},
% tlab/.style={font=\scriptsize, text=black!55, fill=white, inner sep=1.5pt},
% ]
% %% Row 1: Problem
% \node[topbox] (prob) {
% {\bfseries 大语言模型内部多层级结构异质性}\\[2pt]
% 模块功能分化\quad\textbullet\quad 维度位置结构差异\quad\textbullet\quad
% 参数更新多尺度模式\quad\textbullet\quad 容量分配需求不均匀};
% %% Row 2: Unified Framework
% \node[fwbox, below=0.5cm of prob] (fw) {
% {\bfseries 结构感知表征适配统一分析框架}\\[3pt]
% $\tilde{\mathbf{Z}}^{(\ell)}=\mathcal{M}_{\theta}(\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R})$\\[4pt]
% {\footnotesize $\mathcal{R}_{\mathrm{mod}}$\,(模块级)\quad
% $\mathcal{R}_{\mathrm{dim}}$\,(维度级)\quad
% $\mathcal{R}_{\mathrm{spec}}$\,(频谱级)\quad
% $\mathcal{R}_{\mathrm{param}}$\,(参数级)}\\[2pt]
% {\footnotesize 乘性调制\quad\textbullet\quad 组合式调制\quad\textbullet\quad 结构分解调制}};
% %% Row 3: Space Labels (left=teal, right=orange)
% \node[spcbox=teal] (rsp) at ($(fw.south)+(-3.45,-1.0)$) {表示空间(第三$\sim$五章)};
% \node[spcbox=orange] (psp) at ($(fw.south)+(3.45,-1.0)$) {参数空间(第六章)};
% %% Representation Space Methods
% \node[mtdbox=teal, below=0.3cm of rsp] (hycam) {
% {\small\bfseries 第三章\enspace HyCAM}\\[1pt]
% $\mathcal{R}_{\mathrm{mod}}$\enspace$\cdot$\enspace 乘性调制\\
% 模块级功能异质性\\ 共享/专用 CAM + 动态路由};
% \node[mtdbox=teal, below=0.3cm of hycam] (rosa) {
% {\small\bfseries 第四章\enspace RoSA}\\[1pt]
% $\mathcal{R}_{\mathrm{dim}}$\enspace$\cdot$\enspace 乘性调制\\
% 维度级位置结构(静态$\cdot$粗粒度)\\ 低频维度增强 + 动态层选择};
% \node[mtdbox=teal, below=0.3cm of rosa] (dypam) {
% {\small\bfseries 第五章\enspace DyPAM}\\[1pt]
% $\mathcal{R}_{\mathrm{dim}}$\enspace$\cdot$\enspace 乘性调制\\
% 维度级位置结构(动态$\cdot$细粒度)\\ 输入条件化调制 + 头级/层级偏置};
% %% Parameter Space Methods
% \node[mtdbox=orange, below=0.3cm of psp] (cascade) {
% {\small\bfseries 第六章\enspace CASCADE}\\[1pt]
% $\mathcal{R}_{\mathrm{spec}}$\enspace$\cdot$\enspace 组合式调制\\
% 频谱级多尺度异质性\\ 异构频域专家 + 级联频谱调制};
% \node[mtdbox=orange, below=0.3cm of cascade] (messa) {
% {\small\bfseries 第六章\enspace MESSA}\\[1pt]
% $\mathcal{R}_{\mathrm{param}}$\enspace$\cdot$\enspace 结构分解调制\\
% 参数级容量分配异质性\\ 共享-特有分解 + 预算感知优化};
% %% Row Bottom: Validation
% \node[btmbox, below=0.6cm of dypam, xshift=3.45cm] (valid) {
% {\bfseries 实验验证}\quad 常识推理\enspace$\cdot$\enspace 数学推理\enspace$\cdot$\enspace
% 多任务联合适配\enspace|\enspace 多骨干模型\enspace$\cdot$\enspace 多参数规模};
% %% Arrows
% \draw[arr] (prob) -- (fw);
% \coordinate (fk) at ($(fw.south)+(0,-0.3)$);
% \draw[line width=0.7pt, draw=black!50] (fw.south) -- (fk);
% \draw[arr] (fk) -| (rsp.north); \draw[arr] (fk) -| (psp.north);
% \draw[arr] (rsp) -- (hycam); \draw[arr] (psp) -- (cascade);
% \draw[arr] (hycam) -- node[tlab, right=2pt] {模块级\,$\to$\,维度级} (rosa);
% \draw[arr] (rosa) -- node[tlab, right=2pt] {静态\,$\to$\,动态} (dypam);
% \draw[arr] (cascade) -- node[tlab, right=2pt] {互补视角} (messa);
% \draw[arr] (dypam.south) -- (dypam.south |- valid.north);
% \draw[arr] (messa.south) -- (messa.south |- valid.north);
% \end{tikzpicture}
% \end{figure}
\begin{figure}[htbp]
\centering
% 占位:待替换为外部绘制的 tech_route.pdf
% \includegraphics[width=0.9\textwidth]{tech_route.pdf}
\caption{本文整体技术路线示意图。该图采用自上而下的层级流程结构,共分为五层,见注释:}
% \textbf{第一层}(问题层)为全幅横条,标注"大语言模型内部多层级结构异质性",列出四类异质性——模块功能分化、维度位置结构差异、参数更新多尺度模式、容量分配需求不均匀。
% \textbf{第二层}(框架层)为全幅横条(蓝色调),标注"结构感知表征适配统一分析框架",包含统一调制算子公式$\tilde{\mathbf{Z}}^{(\ell)}=\mathcal{M}_{\theta}(\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R})$,列出四类描述符$\mathcal{R}_{\mathrm{mod}}$/$\mathcal{R}_{\mathrm{dim}}$/$\mathcal{R}_{\mathrm{spec}}$/$\mathcal{R}_{\mathrm{param}}$与三种调制形式。
% \textbf{第三层}(空间层)分为左右两列:左列标注"表示空间(第三\textasciitilde 五章)"(青色调),右列标注"参数空间(第六章)"(橙色调)。
% \textbf{第四层}方法层在左列纵向排列三个方法卡片——第三章HyCAM$\mathcal{R}_{\mathrm{mod}}$乘性调制、第四章RoSA$\mathcal{R}_{\mathrm{dim}}$静态粗粒度、第五章DyPAM$\mathcal{R}_{\mathrm{dim}}$,动态细粒度),卡片间用箭头连接并标注"模块级$\to$维度级"和"静态$\to$动态"右列纵向排列两个方法卡片——第六章CASCADE$\mathcal{R}_{\mathrm{spec}}$组合式调制和MESSA$\mathcal{R}_{\mathrm{param}}$,结构分解调制),卡片间标注"互补视角"。
% \textbf{第五层}(验证层)为全幅横条,标注"实验验证",列出常识推理、数学推理、多任务联合适配、多骨干模型、多参数规模。
% 各层之间用向下箭头连接,框架层通过分叉箭头分别指向左右两列空间。}
\label{fig:tech_route}
\end{figure}
该技术路线以模型内部结构异质性分析为起点,从模块功能分工、位置编码引入的维度结构差异以及参数更新过程中的多尺度特征等方面,对模型内部结构属性进行系统刻画;在此基础上,依托第~\ref{sec:unified_framework}~节提出的统一分析框架,将上述结构特性抽象为不同层级的结构角色描述符,并据此构建相应的结构感知调制算子,从而形成由结构刻画到调制建模的统一技术路径。
在上述框架下,本文沿表示空间与参数空间两个层面展开具体方法设计。在表示空间中,从模块级与维度级结构异质性出发,研究表示流中的非均匀调制机制,通过结构感知调制增强模型对关键信息的表达能力,并由静态选择逐步过渡到输入条件化的动态调制;在参数空间中,进一步从多尺度频谱结构与参数容量分配角度出发,构建结构化的参数更新机制,以提升有限参数预算下的适配效率与建模能力。
在上述方法体系基础上,本文通过统一的实验组织与评测流程,对不同层级结构感知适配方法进行系统验证,并分析其在复杂任务场景中的协同作用。整体技术路线体现为:以结构异质性分析为起点,经统一框架抽象与分层方法设计,最终通过实验验证形成完整的结构感知适配研究闭环。
\section{论文组织结构}
\label{sec:organization}
本文围绕大语言模型内部的结构异质性特征,研究结构感知表征适配问题。全文在统一分析框架下,按照从问题建模到方法设计再到实验验证的逻辑展开,各章节内容安排如下。
第一章为绪论,介绍研究背景与研究意义,梳理大语言模型表示机制与结构感知适配领域的研究现状与关键问题,在此基础上提出面向大语言模型的结构感知适配统一分析框架,并给出本文的研究内容与整体技术路线。
第二章为相关理论与研究现状,围绕大语言模型表示学习机制、参数高效微调方法以及结构异质性感知与多层级适配方法展开综述,并对现有研究的主要挑战进行系统分析。
第三章针对多任务建模中的模块级功能异质性($\mathcal{R}_{mod}$)问题,在乘性调制形式下研究基于模块功能角色感知的多任务表征适配方法,构建上下文注意力调制机制及其混合扩展框架,以提升模型在多任务场景中的协同建模能力。
第四章针对位置编码引入的维度级位置结构异质性($\mathcal{R}_{dim}$),在乘性调制形式下研究基于位置结构感知的静态选择性表征适配方法,通过对不同维度的重要性进行结构化刻画,并结合层级选择机制实现跨层资源分配,从而实现静态、粗粒度的位置结构感知适配。
第五章在第四章静态选择性适配的基础上,继续聚焦维度级位置结构异质性($\mathcal{R}_{dim}$),将适配机制由静态维度选择扩展为输入条件化的动态调制,并引入头级与层级结构偏置以刻画注意力结构差异,实现从粗粒度到细粒度的位置结构感知递进。
第六章将视角从表示空间转向参数空间,分别针对频谱级多尺度异质性($\mathcal{R}_{spec}$)与参数级容量分配异质性($\mathcal{R}_{param}$),在组合式调制与结构分解调制两种形式下,构建多尺度结构建模与容量分配建模的统一适配方法体系,包括基于异构频域专家级联的多尺度适配方法以及基于共享-特有稀疏分解的多任务适配方法,以提升有限参数预算下的适配效率与多任务协同能力。
第七章为总结与展望,总结本文的主要研究内容与创新点,并结合大语言模型与结构感知适配的发展趋势,对未来研究方向进行讨论。