LLMver_v1

This commit is contained in:
panda361
2026-03-20 22:40:13 +08:00
parent cf02f82db0
commit cacdc79ae2
75 changed files with 2553 additions and 10203 deletions

View File

@@ -6,164 +6,161 @@
\section{研究背景与意义}
\label{sec:background}
\subsection{城市时空智能建模的发展背景与关键挑战}
\label{subsec:background_challenges}
\subsubsection{城市复杂系统演化与时空数据驱动需求}
\subsection{大语言模型表征适配的发展背景与关键挑战}
随着全球城镇化进程的持续推进,城市正在由以静态基础设施为核心的空间载体,逐步演化为由人口活动、交通运行、产业组织、资源配置与公共服务等多类过程共同耦合的复杂动态系统\cite{}。在这一系统中,不同要素之间存在持续的相互作用与反馈关系:人口流动影响交通负载与服务需求,土地利用与功能布局塑造出行模式与商业活力,公共事件与环境变化又进一步改变城市运行状态。由此,城市运行呈现出显著的动态性、开放性与多主体协同特征,其演化过程难以通过单一规则或局部观测加以充分刻画。
\subsubsection{基础模型范式推动统一表示学习的发展}
\begin{figure}[!h]
\centering
\subcaptionbox{占位符1}{\includegraphics[width = 0.4\linewidth]{pic/logo-buaa.eps}\vspace{50pt}}
\hfill
\subcaptionbox{占位符2}{\includegraphics[width = 0.25\linewidth]{pic/buaa-mark.jpg}}
\caption{占位图片}
近年来以大语言模型为代表的基础模型Foundation Models在自然语言处理及相关智能任务中展现出显著的表达能力与泛化潜力\cite{brown2020language,bommasani2021opportunities}。该类模型通过在大规模、多源异构语料上进行预训练,在统一的序列建模框架下学习高维表示空间中的统计规律,从而形成具有较强抽象能力的通用表征。这种以表示学习为核心的建模方式,使模型能够在单一参数体系中整合语义理解、知识表达与推理能力,为多类型下游任务提供共享的知识基础。
与传统面向特定任务构建模型的范式相比,基础模型强调在统一表示空间中对多任务进行建模与迁移。模型不再针对每一类任务独立学习特定结构,而是通过预训练阶段形成通用表示,并在下游任务中通过适配机制对已有表示进行重组与调用。这一由“任务特定建模”向“通用表示学习”的转变,使模型能够在不同任务之间复用已有知识结构,并在新任务场景中实现高效迁移。
\begin{figure}[htbp]
\centering
% \includegraphics[width=0.85\textwidth]{fm_paradigm.pdf}
\caption[基础模型范式下统一表示学习的示意图]{基础模型范式下统一表示学习的示意图。左侧表示传统任务特定建模方式,不同任务依赖独立模型与特征设计;右侧表示基础模型通过预训练形成统一表示空间,并通过适配机制支持多任务共享与迁移。}
\label{fig:ch1_fm_paradigm}
\end{figure}
在这一范式下,模型能力不再仅由单一任务性能刻画,而更多取决于其在统一的表示空间中整合多源信息与支持多类型推理的能力。这种能力依赖于表示空间的内部组织方式,即不同语义成分、结构信息与知识模式在表示中的编码与分布形式。
与此同时,移动互联网、物联网、车联网、卫星遥感以及城市感知基础设施的快速发展,使得城市运行过程能够以更加连续、细粒度与多模态的方式被记录与表征。交通传感器、移动终端定位数据、轨迹数据、遥感影像、兴趣点信息以及环境监测数据等,持续刻画城市中人、车、路、地及各类服务设施的时空活动状态\cite{}。这些数据在空间上覆盖从路段、区域到城市全域的多层级结构,在时间上涵盖实时感知、短期波动与长期演化等多尺度过程,从而为理解城市运行机理、识别潜在规律以及支撑智能决策提供了重要基础。
因此,下游任务的适配过程可以被理解为对预训练表示的再组织过程,即在保持原有知识结构的前提下,引导模型在表示空间中激活与任务相关的成分。这一视角为从表示机制出发研究大语言模型适配问题提供了基础。
\subsubsection{复杂任务对统一表示空间的非均匀结构需求}
大规模观测数据的持续积累,使研究者能够在更细粒度层面刻画交通拥堵传播、人口迁移演化、功能区活动强度变化以及公共服务供需波动等复杂城市现象;与此同时,城市智能任务也逐步由传统的统计分析扩展至状态预测、行为推断、空间语义理解、过程模拟与决策支持等更具综合性的建模问题\cite{}。在这一过程中,城市智能研究的核心关注点正由"数据获取能力"转向"如何从复杂时空数据中学习具有泛化性与可迁移性的有效表示"
在上述统一表示学习范式下,模型可以通过共享的参数空间服务于多类型任务。然而,随着基础模型在实际应用中的推广,下游任务逐渐呈现出更强的复杂性与多样性,这使得统一表示空间所承载的建模需求不再是均匀一致的
然而,数据规模的扩张并不必然带来建模能力的同步提升。随着观测来源、空间尺度与任务类型的不断增加,城市系统所呈现的高维非线性关系、多主体交互过程以及跨时间尺度演化特征,使得传统依赖经验规则或低维统计假设的建模方法难以充分刻画其内在结构规律\cite{}。因此,面向复杂城市系统的发展需求,研究能够从大规模时空观测数据中提取关键结构信息并支撑多类城市智能任务的表征学习方法,已成为当前时空智能建模的重要科学问题
具体而言,不同任务在输入形式、推理路径与决策目标上的差异,会导致模型对内部表示结构提出不同侧重的需求。例如,部分任务更依赖局部上下文的精细对齐,部分任务更依赖长程依赖关系的组织与传播,另一些任务则更依赖对关键信息的选择性强化。这表明,复杂任务并非简单共享同一套表示能力,而是在表示空间中以不同方式激活不同结构成分
\subsubsection{复杂时空任务的多维特征与建模挑战}
从表示学习角度看,这一现象反映出表示空间内部存在隐式的功能分化:不同表示维度、不同层级结构以及不同计算模块,在复杂任务中的作用并不相同。不同输入条件与推理模式对应不同的激活路径与信息流动方式,从而表现出对模型内部结构的差异化敏感性。
在上述数据与应用背景下,城市智能研究正由针对单一现象的建模,逐步发展为面向多类型任务的综合分析与决策问题。典型的城市时空任务通常同时涉及状态预测、行为分析、空间语义理解以及过程推理等多种目标形式,其任务定义、输入信息与输出需求在同一系统中交织,使得建模问题呈现出显著的多维特征。在这一背景下,不同任务之间既共享部分基础结构信息,又在建模目标与决策侧重点上存在差异,这种“共享—差异”并存的关系对统一建模提出了更高要求
因此,在统一模型框架下,适配问题可以进一步理解为:如何在保持预训练表示主体结构稳定的前提下,根据任务需求对表示空间中的关键结构成分进行有针对性的调控。该问题将模型适配由“参数更新问题”转化为“结构感知的表示调制问题”
进一步地,城市时空过程在空间与时间维度上表现出显著的结构复杂性。不同区域在功能属性、交通拓扑及人口分布等方面存在差异,使得城市活动具有明显的位置依赖与非均匀性特征;同时,城市运行过程往往叠加多尺度动态模式,例如日周期与周周期所体现的稳定规律,以及突发事件引发的短时扰动。空间结构与时间演化之间的耦合作用,使得城市系统呈现出复杂的时空交互机制。此外,多源观测数据在采样频率、语义粒度与噪声分布等方面存在差异,进一步增加了统一建模的难度 \cite{}
\subsubsection{参数高效适配范式的发展}
从表征学习的视角来看,上述多维特征不仅体现为数据与任务层面的复杂性,更对模型内部表示提出了更高要求。模型需要在统一的表示空间中同时刻画跨任务与跨区域的共享规律,并对局部结构差异、多尺度动态变化及语义异构性保持足够敏感。这意味着,在同一模型中,不同层级与不同子结构往往需要承担差异化的表征功能。如何在统一建模框架下协调这些差异化需求,使模型能够兼顾共享性与结构敏感性,构成了复杂时空任务建模的核心挑战之一
在上述非均匀结构需求背景下模型适配机制成为关键环节。随着大语言模型规模的持续扩展针对下游任务进行全参数微调fine-tuning所带来的计算与存储开销显著增加。在此背景下参数高效微调Parameter-Efficient Fine-Tuning, PEFT方法逐渐成为主流的模型适配技术路径\cite{houlsby2019parameter,hu2021lora,li2021prefix}。该类方法通过引入低秩更新、附加适配模块或提示向量等轻量结构,在保持主体参数基本不变的前提下,实现对模型的任务相关适配,从而在适配效率与性能之间取得平衡
\subsubsection{时空数据表征学习范式的发展}
从建模方式看,现有参数高效适配方法通常在模型不同层级施加形式一致的参数更新或表示调制机制,例如在各层引入结构相同的适配模块,或对权重矩阵施加统一形式的低秩扰动。这类设计使适配过程能够以较低复杂度作用于整个模型表示空间,从而实现稳定的迁移效果。
随着城市时空系统建模复杂度的不断提升传统依赖显式规则与统计假设的方法逐渐难以刻画高维动态过程。在此背景下表征学习Representation Learning逐步成为时空数据建模的核心范式。相较于依赖人工特征设计的方法其通过数据驱动方式构建隐式表示空间使模型能够在较少先验约束的条件下刻画复杂的非线性时空关系从而提升对真实城市运行过程的建模能力\cite{}。深度学习方法的发展进一步推动了这一转变,通过卷积结构、序列建模机制与图结构建模等方式,使模型能够在端到端框架下学习潜在时空表示,并在交通预测、人口流动分析等任务中取得良好效果\cite{}
然而,这种在模型不同层级施加形式一致适配策略的方式,与复杂任务对表示空间非均匀结构的需求之间存在潜在不匹配。当模型内部不同结构单元在表示形成中承担差异化功能时,统一形式的适配策略难以对关键表示成分进行精细调控。在复杂任务场景与有限适配预算条件下,这种结构均匀假设可能限制模型能力迁移的效率
尽管上述方法在特定任务上表现出较强能力,其学习到的表示仍普遍与具体任务目标紧密耦合,缺乏跨任务与跨场景的通用性。在城市时空智能逐步向多任务协同与综合决策支持演进的背景下,这种“任务特定表征”范式逐渐暴露出局限:模型难以在不同任务之间共享知识,重复训练成本较高,且在面对新任务或新场景时泛化能力有限。这一问题在结构复杂且任务耦合紧密的城市系统中尤为突出
因此,模型适配问题可以进一步表述为:在保持参数高效性的前提下,如何使适配机制能够与模型内部结构特征相匹配,从而对不同结构单元施加差异化调制
围绕上述问题时空表征学习逐步由面向单一任务的特征建模转向构建具有更强迁移性与泛化能力的通用表示general-purpose representation。该方向强调在统一表示空间中刻画跨任务、跨区域及跨时间尺度的共享结构规律使模型能够在不同任务之间实现知识复用与能力迁移。整体来看时空表征学习呈现出由显式建模向隐式表示、由任务特定表示向通用表示的演进趋势。然而如何在实际建模过程中有效学习并利用这种通用表示使其适应多类型时空任务的需求仍是当前研究中的关键问题。
\subsubsection{模型内部结构异质性及其对适配建模的启示}
\subsubsection{大语言模型推动时空智能建模范式转变}
从模型机制角度看,上述适配局限与模型内部结构特征密切相关。大语言模型内部不同模块、表示维度以及参数子空间在信息建模过程中呈现出显著的功能差异。例如,自注意力结构主要承担上下文关系的组织与长程依赖建模功能,而前馈网络更侧重参数化知识表达;在表示维度层面,不同子空间在位置结构建模与语义编码中的作用并不均衡;在参数更新层面,权重调整过程往往表现出多尺度与非均匀分布特征。
随着时空表征学习逐步由任务特定建模向通用表示建模演进以大语言模型为代表的基础模型foundation models为复杂城市系统的统一建模提供了新的技术路径。通过大规模数据预训练大语言模型在统一的序列建模框架下构建共享表示空间使模型能够在不同任务之间共享知识并实现跨场景泛化\cite{}。相较于针对单一任务独立建模的传统方式,该范式为在同一模型中整合多源信息与多类型任务需求提供了可能
这些现象表明,大语言模型内部由具有不同功能角色的结构单元构成,而非均质整体。不同结构单元在表示形成与任务适配中的贡献存在差异,使模型整体行为可以理解为多种结构作用的协同结果
从建模能力上看,大语言模型在长程依赖建模与多步推理方面所表现出的能力,使其在处理跨区域关联与跨时间尺度动态关系时具有潜在优势。已有研究开始探索将基础模型引入城市时空任务,例如通过序列化方式刻画轨迹演化过程,或利用统一表示空间支持空间语义理解与跨任务推理\cite{}。这些初步工作表明,基础模型为时空智能建模提供了一种兼具表达能力与统一性的建模范式
由此,模型内部结构不仅是对表示机制的描述对象,也可以被视为适配建模中的基本作用单元。基于结构角色差异对模型进行建模,使适配过程能够针对不同结构单元施加差异化作用,从而为后续构建结构感知适配机制提供了基础
然而,大语言模型所具备的通用表示能力并不意味着其能够直接适配复杂城市时空任务。城市时空数据的多维特征要求模型在统一表示空间中同时刻画共享规律与结构差异,而大语言模型的预训练过程主要基于通用语料,其内部表示结构与时空建模需求之间仍存在一定差异。因此,如何在保持预训练通用能力的基础上,使模型内部表示与时空数据的结构特征相协调,成为将基础模型引入时空智能建模的关键问题。
\subsubsection{面向时空建模的模型适配问题与挑战}
\subsubsection{大语言模型结构感知表征适配的关键问题与挑战}
如前所述,大语言模型通过大规模预训练所构建的通用表示能力,为复杂时空任务的统一建模提供了新的技术路径。然而,预训练阶段获得的通用能力并不等同于对具体时空任务的有效建模能力。在实际应用中,模型仍需在保持已有知识结构的前提下,对特定任务的输入模式与输出需求形成针对性的适配。因此,如何设计有效的模型适配机制,使其能够在复杂时空场景中发挥作用,成为基础模型应用中的关键问题
综合以上分析,在统一表示学习范式与复杂任务需求的共同驱动下,模型适配问题逐渐呈现出明显的结构依赖特征。当模型内部不同结构单元在表示形成中承担差异化功能时,适配过程是否能够刻画并利用这些结构差异,直接影响模型能力迁移的效率与稳定性
现有适配方法通常采用统一的参数更新或表示调制策略,在模型不同层级与子结构上施加形式一致的调整。这类方法隐含假设模型内部各组成部分在适配过程中的作用是近似一致的。然而,从模型表示机制来看,不同模块、不同表示维度及不同参数子空间在信息建模中往往承担差异化功能。本文将这种现象概括为\emph{模型内部的结构角色差异}
若适配过程仅对模型参数或表示施加整体性、形式一致的调整,则其对不同结构成分的作用往往是均匀的,难以反映复杂任务对表示结构的差异化需求。相应地,若适配机制能够显式刻画结构角色差异,并据此对表示流或参数更新施加有针对性的调制,则有可能在有限适配资源条件下,更有效地引导模型激活与任务相关的表示成分
在时空建模场景中,这一问题更加突出。城市时空任务要求模型在统一表示空间中同时刻画跨任务共享规律、多尺度动态变化及局部结构差异,这意味着模型内部不同层级与子结构需要承担不同的表征职责。如果适配机制无法感知这种结构角色差异,而仍采用均匀调整方式,则难以在有限适配能力下实现对关键表示的有效调控,从而影响模型在复杂场景中的泛化能力与稳定性
因此,本文关注的核心问题是:在统一表示空间中,如何基于模型内部结构角色差异,对表示流与参数更新过程进行非均匀调制,从而在有限适配预算下实现高效任务特化。围绕这一问题,本文从模块级、维度级与参数级等多个层面展开分析与方法设计,并在统一的结构感知调制视角下对不同适配策略进行系统刻画
因此,面向时空建模的模型适配问题,其核心在于如何使适配过程与模型内部结构相协调,即在统一模型框架下刻画并利用结构角色差异,从而实现对复杂时空任务的有效适配。围绕这一问题,第~\ref{sec:unified_framework}~节将从不同结构层级出发,对模型表示调制机制进行系统分析与方法设计。
\newpage
\subsection{理论意义、方法体系与应用价值}
\label{subsec:significance}
面向复杂城市时空数据的表征学习与模型适配问题开展系统研究,在理论理解、方法体系构建与工程实践支撑三个层面均具有重要意义。
围绕大语言模型表征适配机制开展系统研究,在理论理解、方法体系构建与实际应用支撑等方面具有重要意义。
{\heiti \underline{理论意义}}
理论层面看,城市运行过程本质上体现为多维度、多层级结构信息的动态耦合与演化过程。不同空间区域、不同时间尺度以及不同功能任务之间存在复杂的交互关系,使得有效建模不仅需要刻画整体运行规律,还需反映局部结构差异与动态变化特征。因此,如何在统一表示框架下刻画复杂时空系统中的多维结构信息,构成了时空表征学习中的核心问题。
表示学习与模型机制角度看,大语言模型通过大规模预训练在统一表示空间中形成了高度抽象的通用知识结构。然而,这类表示能力并不能直接对应具体任务需求,模型在适配过程中需要在保持既有知识组织方式的同时,对任务相关的输入结构与推理模式形成针对性响应。因此,“预训练表示如何在适配过程中转化为任务特定能力”成为当前基础模型研究中的核心问题之一
随着表征学习方法的发展,模型通过隐式表示空间刻画复杂系统行为已成为主流路径。然而,现有研究多从任务建模或参数优化角度展开,对于模型内部表示如何在复杂任务中分工协作,缺乏系统性认识。特别是在多任务耦合与多尺度动态并存的时空场景中,模型需要在统一表示空间中同时刻画共享规律与结构差异,这对表示结构的组织方式提出了更高要求
进一步地,随着模型规模与任务复杂度的提升,模型内部不同结构单元在信息建模中的功能分化逐渐显现。例如,自注意力模块主要承担上下文关系组织与长程依赖建模功能,前馈网络更侧重参数化知识表达,而位置相关表示在不同维度子空间中呈现出不均衡的重要性。这表明,模型能力的形成不仅依赖整体参数规模,也与表示结构的组织方式密切相关
进一步地,从模型表示机制出发,可以观察到大模型在不同模块、不同表示维度及不同参数子空间中往往形成差异化的功能分工。例如,自注意力结构侧重上下文依赖建模,前馈网络承担知识表达功能,位置编码在不同维度上引入异质的结构特征。这种模型内部的结构角色差异,为理解复杂时空表征能力的形成机制提供了重要线索
基于上述认识,本文从结构角色差异的视角出发,系统分析模型内部不同层级结构在复杂时空任务中的功能贡献,并建立时空数据多维特征与模型表示调制机制之间的联系。该研究有助于深化对“预训练表征如何通过适配形成任务特定能力”的理解,为复杂时空系统表征能力的形成机制提供新的理论视角。
\begin{figure}[!h]
\centering
\includegraphics[width=.25\textwidth]{pic/buaa-mark.jpg}
\caption{占位图片\\第二行题注}
\label{fig:logo}
\end{figure}
基于上述认识,从结构角色差异出发分析模型适配过程中的表示调制机制,有助于在更细粒度层面理解大语言模型能力迁移与任务特化的内在规律。将适配过程刻画为对不同结构单元施加差异化调制的过程,为解释复杂任务条件下的模型行为提供了统一视角,并推动表征学习研究由性能驱动向机制驱动转变
{\heiti \underline{方法体系意义}}
现有模型适配方法多从单一层级或局部机制出发进行设计,不同方法之间缺乏统一的结构建模视角与内在关联。这些方法通常分别关注表示调制、参数选择或更新结构等不同方面,虽在各自场景中表现出有效性,但由于缺乏统一理论框架,难以系统解释其作用机制及相互关系
现有大语言模型适配方法多从单一层级或局部结构出发进行设计,例如针对参数更新结构、附加模块或提示向量进行独立改进。尽管这些方法在不同任务场景中取得了良好效果,但由于缺乏统一的结构建模视角,其作用机制与适用范围难以系统刻画,不同技术路径之间的内在联系也不清晰
针对上述问题,本文围绕模型内部结构角色差异,构建了一个从模块、维度到参数级逐层递进的表征适配方法体系。该体系中,不同层级的适配方法共享统一的结构感知建模思想,即根据模型内部不同子结构在建模中的功能角色,对表示流或参数更新施加差异化的非均匀调制。在统一形式化框架下,这些方法可归纳为乘性调制、组合式调制与结构分解调制等不同实现形式,从而在理论上实现不同适配策略的统一刻画
围绕模型内部结构角色差异,本文构建了从模块、维度到参数级逐层展开的结构感知表征适配方法体系。该体系以统一的建模思想为基础,即根据模型内部各结构单元在表示形成中的功能角色,对表示流或参数更新施加非均匀调制。在统一形式化框架下,上述方法可归纳为乘性调制、组合式调制与结构分解调制三类基本形式,从而实现不同适配机制的统一描述
具有内在逻辑一致性的分层方法体系,不仅能够更精细地刻画复杂时空任务中的多维结构特征,也使不同层级的模型改进能够在统一视角下得到解释与整合,为跨任务与跨场景的表示迁移提供了系统化的方法基础
具有内在一致性的分层方法体系,有助于从整体视角理解不同适配策略之间的关系,使模型改进从局部结构优化拓展为在统一框架下的系统化建模。同时,该体系为多任务场景的表示迁移与能力协同提供了方法基础,并为后续结构感知建模研究提供了可扩展的技术路径
{\heiti \underline{应用与工程价值}}
工程实践角度看,城市智能系统正逐步由面向单一任务的优化问题,发展为面向多任务协同与综合决策支持的复杂系统,对建模方法的可扩展性、稳定性及持续评估能力提出了更高要求。在这一背景下,如何在有限计算资源条件下高效适配大语言模型,并在接近真实应用环境的条件下系统评估其性能,成为时空智能研究中的重要问题。
应用角度看,大语言模型正由离线研究环境逐步走向多任务协同与持续部署的复杂系统场景。在这一过程中,模型适配方法不仅需要具备性能提升能力,还需要在计算开销、参数规模与部署稳定性等方面满足工程约束。在保持预训练模型主体能力的前提下,通过有限参数更新实现高效适配,已成为基础模型落地应用的关键问题。
本文提出的结构感知适配方法通过在模型内部关键结构上进行针对性的调制,在保持预训练模型主体参数不变的前提下,实现对复杂时空任务的有效适配,从而降低了大模型在城市智能场景中的应用门槛。同时,围绕复杂时空任务的验证需求,构建了面向多任务与多阶段评估的实验基础设施,通过统一的任务组织方式与评估流程,使模型性能能够在更接近实际应用环境的条件下得到系统检验
本文提出的结构感知适配方法通过在模型内部关键结构单元上进行针对性的表示调制与参数组织,使适配过程更加聚焦于对任务能力形成具有关键作用的表示成分,从而在有限适配预算条件下提升模型性能与资源利用效率。这种建模方式有助于降低大模型在实际部署中的适配成本,并提升其在多任务环境中的持续适应能力
此外,针对时空推理与决策类任务的评测需求,构建相应的数据资源与实验基准,有助于弥补现有城市计算研究在复杂任务评估方面的不足,使模型不仅能够进行状态预测,还能够支持更高层次的语义理解与决策分析。上述方法体系与评测环境的结合,有助于形成从模型设计到系统验证的完整研究闭环,为时空智能建模技术向工程实践的转化提供重要支撑
此外,通过对不同结构适配策略进行系统验证,可以在多任务与多场景条件下评估方法性能表现,从而更全面分析结构感知适配机制的有效性。方法设计与实验分析的结合,有助于形成从结构建模到性能验证的完整研究闭环。
总体而言,围绕结构感知表征适配问题开展系统研究,有助于深化对基础模型适配机制的理解,推动模型适配方法由均匀更新向结构驱动调制演进,并为复杂任务场景下的大语言模型高效应用提供方法支撑。
总体而言,从理论分析到方法体系构建,再到工程评测与应用支撑,围绕复杂时空表征学习与模型适配问题的系统研究,有助于推动时空智能建模方法向更高表达能力与更强泛化能力的发展,为构建高效、可持续的城市智能系统提供重要技术基础。
% \newpage
\section{时空表征学习研究现状与关键问题分析}
\section{大语言模型表征适配研究现状与关键问题分析}
\label{sec:research_status}
\subsection{时空数据建模与表征学习研究现状}
\label{subsec:status_st_modeling}
城市时空建模方法经历了由显式数学建模向数据驱动表征学习的范式演进。早期研究主要基于时间序列分析与空间统计方法,通过构建带有先验假设的数学模型对交通流、人口分布及环境变化等过程进行刻画\cite{}。此类方法在系统结构相对稳定或数据规模有限的场景中具有一定适用性,但其表达能力依赖于模型假设与特征设计,难以刻画复杂城市系统中普遍存在的非线性与动态耦合关系。
\subsection{大语言模型的表示学习机制}
\label{subsec:status_representation}
随着深度学习技术的发展,研究者逐步引入循环神经网络、卷积神经网络及图神经网络等模型通过端到端学习方式提取潜在时空表示,在交通预测、出行行为建模及城市功能区分析等任务中取得了显著进展\cite{}。特别是结合图结构建模与注意力机制的方法,能够在一定程度上刻画空间拓扑依赖与长程时间关联,为复杂城市系统建模提供了更为灵活的技术路径\cite{}
大语言模型的适配问题建立在其预训练表示机制之上。以 Transformer 为核心的模型通过多层自注意力与前馈网络的交替堆叠,在统一序列建模框架下逐步构建从局部上下文关联到高层语义抽象的层级化表示结构\cite{vaswani2017attention}。相较于依赖显式特征设计的传统方法,该类模型通过大规模预训练在共享参数体系中学习通用表示,使语义理解、知识表达与推理能力能够在同一表示空间中协同形成\cite{brown2020language,bommasani2021opportunities}
然而,从城市智能建模的整体需求来看,现有方法仍存在两方面局限。其一,模型通常围绕特定任务进行设计,所学习的表示与任务目标紧密耦合,缺乏跨任务与跨场景的通用性。在多任务协同建模环境中,这种“任务特定表征”范式导致知识难以共享,模型在面对新任务时泛化能力有限。其二,城市时空数据普遍具有多尺度动态模式、空间非均匀性及多源语义差异等结构特征,而基于单一结构假设的模型设计难以在统一表示空间中同时刻画这些复杂属性
从表示形成机制看Transformer 内部不同计算单元在信息建模中承担着相互关联但并不相同的功能。自注意力模块通过动态权重分配组织跨位置的信息交互,主要负责上下文依赖关系的建模与信息路由;前馈网络则通过参数化非线性映射对中间表示进行变换与重组,在语义表达与知识存储中发挥重要作用\cite{geva2021transformer,dong2025attention}。同时,位置编码机制(如旋转位置编码 RoPE通过在表示维度中注入结构化位置信息使模型能够在表示空间内刻画顺序关系与距离模式\cite{su2024roformer}
因此,如何构建能够刻画多维结构特征、并具备跨任务迁移能力的通用时空表征学习方法,已成为该领域的重要研究方向
随着模型规模与训练数据的持续扩展,大语言模型在表示空间中逐渐形成具有层级性与各向异性的结构特征。已有研究表明,不同层级往往对应不同粒度的信息加工过程\cite{belinkov2018evaluating},不同注意力头在依赖关系建模中表现出差异化模式\cite{voita2019bottom},而不同表示维度或子空间对语法、语义及位置结构信息的承载能力也并不均衡\cite{jin2025massive}。这表明,模型表示空间并非均质整体,而是由多种具有不同功能角色的结构成分构成
\subsection{模型适配与结构感知建模研究现状}
因此,在下游任务适配过程中,不同结构单元对模型性能的贡献并不一致。任务能力的形成往往依赖于对部分关键表示成分的重组与强化,而非对整个表示空间的均匀调整。这一特征表明,表示在不同结构单元上的非均匀分布,将直接影响适配过程中不同结构成分的作用方式,并为后续从结构角度研究适配机制提供了基础。
\subsection{参数高效适配方法研究现状}
\label{subsec:status_peft}
随着基础模型的发展,通过大规模预训练获取通用表示,并在下游任务进行适配优化,逐渐成为复杂系统建模的重要范式\cite{}。参数高效微调Parameter-Efficient Fine-Tuning, PEFT方法通过仅更新少量参数实现模型适配在降低计算成本的同时保持了较好的性能表现。典型方法包括低秩适配LoRA\cite{hu2021lora}、适配器插入\cite{houlsby2019parameter}以及前缀调制\cite{li2021prefix}
随着大语言模型参数规模的持续增长,对每个下游任务进行全参数微调所带来的计算与存储成本逐渐成为制约模型应用的重要因素。为提升模型复用效率并降低适配开销参数高效微调Parameter-Efficient Fine-Tuning, PEFT方法逐渐成为主流技术路径\cite{houlsby2019parameter,hu2021lora,li2021prefix}。该类方法通过引入少量可训练参数或对原有参数更新施加结构约束,在保持预训练模型主体能力的前提下实现任务特定适配
从时空建模需求出发审视上述方法,可以发现其核心策略通常在模型不同层级与子结构上施加形式一致的参数更新或表示调制,隐含假设模型内部各组成部分在适配过程中具有相似作用。然而,已有研究表明,模型内部不同结构单元在信息建模中往往承担差异化功能。例如,自注意力模块侧重上下文依赖的动态整合,前馈网络主要承担知识表达功能\cite{geva2021transformer};位置编码在不同维度上引入具有频率结构的表示偏置,使得表示在维度空间中呈现系统性的功能差异\cite{su2024roformer};参数更新在频谱空间中亦表现出全局与局部结构并存的特性
现有参数高效适配方法主要包括三类:一类通过在模型内部插入轻量附加模块,如 Adapter通过瓶颈结构增强任务特定特征表达\cite{houlsby2019parameter};一类通过对权重更新空间施加低秩或稀疏约束,如 LoRA 等方法,通过结构化分解降低参数更新复杂度\cite{hu2021lora};另一类则通过提示、前缀或软提示等方式,在输入或中间表示层引入额外可学习信号,引导模型调用已有知识结构\cite{li2021prefix,lester2021power}
在多任务学习方面,动态路由机制与混合专家结构被用于缓解任务间干扰并提升模型容量利用效率\cite{}。然而,现有方法多从任务权重分配或参数更新策略角度进行设计,对于模型内部不同表示层级在复杂任务中的功能分工缺乏系统性刻画。在多任务耦合且结构复杂的时空场景中,均匀适配策略难以同时兼顾预训练知识的保持与任务特定能力的获取
从更抽象的角度看,上述方法主要作用于两类对象:一类针对参数更新结构,通过限制更新自由度提升适配效率;另一类作用于表示流,通过附加调制信号改变模型对已有知识的调用方式。两类路径分别从参数空间与表示空间出发,为大语言模型适配提供了有效的实现手段
因此,如何从模型内部结构出发,刻画不同层级与子结构在表征学习中的功能角色,并据此设计具有结构感知能力的适配机制,成为当前模型适配研究中的关键问题
然而,多数现有方法在设计上在不同层级、不同模块或不同参数子空间中施加形式一致的更新或调制机制。这种策略隐含地假设模型内部结构单元在适配过程中具有近似一致的作用,从而采用统一的适配形式作用于整个模型。尽管这一假设有助于简化方法设计并保证训练稳定性,但在复杂任务需求与有限适配预算并存的条件下,其对关键结构成分的刻画能力仍然有限。因此,参数高效适配研究逐渐从“如何减少参数更新量”进一步转向“如何在有限预算下更有针对性地组织更新”
\subsection{时空智能数据与评测体系研究现状}
\label{subsec:status_benchmark}
\subsection{大语言模型结构异质性研究现状}
\label{subsec:status_structure}
模型能力的有效评估依赖于系统化的数据资源与标准化的实验基准。在数据集方面城市计算研究已构建了大量面向交通预测、轨迹分析及空间分布建模的公开数据资源例如METR-LA、PEMS-BAY以及GeoLife等\cite{}。这些数据集通常围绕特定预测目标构建,能够在单一任务场景中较好地反映模型性能
在对大语言模型表示机制的进一步分析中,研究者逐渐发现模型内部存在显著的结构异质性特征,并尝试从不同层级对其进行刻画。这些研究为理解模型能力形成机制以及改进适配策略提供了重要线索
然而,随着城市智能应用逐步向推理与决策支持任务拓展,现有数据集在任务复杂度与评测维度方面的局限逐渐显现。一方面,传统数据资源主要侧重短期动态建模,对于跨时间尺度的逻辑推理与复杂情境理解支持不足;另一方面,现有问答类数据集在空间与时间信息的结合方面仍较为有限,难以系统评估模型对时空关系的理解与推理能力\cite{}
在模块层面,已有工作指出自注意力与前馈网络在功能上具有相对稳定的角色差异:前者主要承担上下文关系的组织与信息路由功能,后者则在特征变换与知识表达中发挥更重要作用\cite{geva2021transformer,dong2025attention}。这一现象表明,不同模块在表示形成中的贡献并不均衡,对其施加统一形式的适配策略未必能够充分发挥各自优势
评测体系方面已有工作提出了若干面向时空预测任务的统一评测框架如LibCity、DL-Traff及TorchSpatial等\cite{},通过规范化数据处理流程与评价指标实现模型间的公平比较。然而,这类框架普遍依赖人工维护,在可扩展性与持续性方面存在不足,难以跟进快速增长的研究工作;同时,不同框架之间在评估设置上的差异,也影响了实验结果的可比性与可复现性
表示维度与位置结构层面,位置编码机制(如旋转位置编码)会在表示空间中引入具有频率结构的系统性偏置,使不同维度在位置信息建模中承担不同作用\cite{su2024roformer,barbero2024round}。同时,不同层、不同注意力头以及不同维度对子空间结构的敏感性存在差异,进一步体现出表示空间内部的细粒度结构分化
此外,城市时空任务在实际应用中往往具有持续演化与多阶段决策特征,仅依赖静态离线数据难以全面反映模型在动态环境中的表现。因此,构建能够支持复杂任务、多阶段验证及持续更新的评测基础设施,已成为推动时空智能研究向实际应用转化的重要方向。
\subsection{现有研究的主要挑战总结}
在参数空间层面,模型训练与微调过程中的参数更新通常呈现出非均匀分布与多尺度特征\cite{rahaman2019spectral}% 注需补充到ref.bib: rahaman2019spectral (Rahaman et al., On the Spectral Bias of Neural Networks, ICML 2019)
部分参数子空间对模型整体行为具有更显著影响,而多任务场景中不同任务对共享与专用参数的依赖程度也存在差异。这些现象表明,参数组织方式本身也具有结构属性,并对适配效果产生重要影响。
综合前述分析可以看出,尽管现有研究在时空数据建模、模型适配及评测体系等方面取得了一定进展,但在面向复杂城市时空智能任务的统一建模过程中,仍存在若干关键问题有待进一步解决,主要体现在以下三个方面
总体来看,现有研究已从模块、维度与参数等多个角度揭示了大语言模型内部的结构复杂性。然而,这些工作多围绕局部结构特征展开,其分析对象、建模方式及方法形式尚未形成统一描述框架,不同层级结构异质性之间的内在联系仍有待系统刻画。图~\ref{fig:ch1_research_landscape}~概括了上述研究现状及其与本文方法体系的关系
1\textbf{模型内部结构角色差异的刻画不足。}
复杂时空数据要求模型在统一表示空间中同时刻画多任务共享规律、位置依赖关系及多尺度动态变化。然而,现有方法多采用形式一致的建模或适配策略,隐含假设模型各层级与子结构作用相近,缺乏对不同模块、不同表示维度及不同参数子空间功能角色差异的刻画。这种均匀建模方式难以针对关键结构进行有效调控,从而限制了模型对复杂时空模式的表达能力\cite{}
\begin{figure}[htbp]
\centering
% \includegraphics[width=0.95\textwidth]{ch1_research_landscape.pdf}
\caption{大语言模型表征适配研究现状与本文方法定位。左侧展示模型内部三个层面的结构异质性现象(模块级功能分化、维度级位置结构差异、参数空间多尺度与容量分配特征);中间为现有参数高效适配方法的均匀适配假设与三类局限;右侧为本文构建的统一分析框架与五种方法的对应关系。}
\label{fig:ch1_research_landscape}
\end{figure}
2\textbf{多任务场景下结构角色协同与容量分配机制不足。}
在多任务时空建模中,不同任务之间既存在共享结构规律,又在表示需求上存在差异,对模型内部结构的协同与资源分配提出了更高要求。现有方法多从参数更新或任务权重角度进行设计,缺乏对不同结构单元功能分工的系统建模。在有限参数预算下,如何实现共享能力与任务特定能力的有效平衡仍有待进一步研究\cite{}
\subsection{现有研究的关键问题总结}
\label{subsec:status_summary}
3\textbf{面向复杂时空任务的评测基础设施尚不完善。}
现有研究主要依赖静态离线数据集进行验证,其评测目标多集中于单一任务或短期预测指标,难以全面反映模型在复杂城市环境中的综合表现。在数据资源方面,现有时空数据集主要面向状态预测任务构建,缺乏同时包含空间位置与时间上下文、且对时空条件敏感的评测资源,难以系统评估模型的时空推理与情境理解能力。在评测平台方面,现有框架普遍依赖人工维护,在模型收录的可扩展性与评估流程的持续更新能力方面存在不足,难以支撑多任务、多阶段的系统化评估需求\cite{}
综合上述分析可以看出,大语言模型在表示学习机制、参数高效适配方法以及结构异质性分析方面均已取得一定进展,但在面向复杂任务的系统化适配建模方面仍存在若干关键问题。
第一,\textbf{模型内部结构角色差异刻画不足。} 现有适配方法多基于统一形式的更新或调制机制,对模块级功能差异、维度级结构差异以及参数子空间的非均匀更新特征缺乏系统利用。在复杂任务需求下,这种均匀适配方式难以针对关键结构成分进行有效调控,从而限制模型能力迁移效率。
综上,复杂时空数据所引入的结构异质性不仅体现在数据与任务层面,也体现在模型内部结构角色的功能分化上。如何在统一框架下刻画并利用这种结构角色差异,设计结构感知的适配机制,并构建支撑复杂任务验证的评测体系,构成了本文的核心研究问题。围绕上述问题,第~\ref{sec:unified_framework}~节将进一步提出面向时空数据的结构感知适配统一分析框架
第二,\textbf{多层级结构异质性缺乏统一分析框架。} 尽管已有研究从表示调制、低秩更新、路由机制及频谱分析等角度提出多种方法,但不同技术路径之间缺乏统一的结构描述与形式化表达,尚未形成具有内在一致性的结构感知建模体系
\section{面向时空数据的结构感知适配统一分析框架}
第三,\textbf{从表示空间到参数空间的适配路径尚不完整。} 现有方法通常仅关注表示调制或参数更新结构中的单一层面,对于如何在统一框架下协同建模表示空间中的信息流调制与参数空间中的结构组织,以及如何在有限预算条件下平衡共享能力与任务特化能力,仍缺乏系统性方案。
基于上述问题,本文将模型适配进一步理解为一种结构感知的非均匀调制过程,即在表示流传播与参数更新过程中,根据模型内部结构角色差异施加有针对性的调制机制。在此基础上,下一节将提出面向大语言模型的结构感知表征适配统一分析框架,并据此组织后续各层级方法设计。
\section{面向大语言模型的结构感知适配统一分析框架}
\label{sec:unified_framework}
前述分析表明,城市时空数据在空间结构、时间演化及任务目标等方面均呈现出显著的异质性特征。这种异质性不仅体现在数据分布与任务定义层面,也进一步体现在模型表征过程中:不同类型的时空结构信息往往需要在模型内部由不同层级与不同子结构进行刻画
前述分析表明,大语言模型在不同模块、表示维度及参数子空间中普遍存在结构异质性。这种异质性不仅体现在模型架构层面,也反映在模型内部表示的形成过程中:不同类型的信息往往由不同层级与不同子结构进行建模,从而在表示空间中形成具有功能分化的组织方式
在此背景下,若在模型适配过程中对所有表示与参数施加形式一致的调整,则难以兼顾多任务共享规律与局部结构差异,容易导致关键结构信息表达不足。因此,从时空建模需求出发,模型适配过程需要具备\emph{结构敏感性},即能够根据不同结构特征,对模型内部表示进行差异化调控。
在此背景下,若在模型适配过程中对所有表示与参数施加形式一致的调整,则难以同时兼顾多任务共享规律与局部结构差异,容易导致关键结构成分表达不足。因此,从下游任务适配需求出发,模型适配过程需要具备\emph{结构敏感性},即能够根据不同结构特征,对模型内部表示施加差异化调控。
进一步刻画这一过程,可以从模型前向计算的角度进行理解。对于输入样本 $\mathbf{X}$,模型在逐层计算过程中产生一系列中间表示,并通过这些表示在不同层级之间逐步传递与变换。该过程可视为一种\emph{表示流}representation flow即信息在模型内部随层级推进而不断演化的动态过程。
从表示学习的角度来看,结构敏感性可以统一理解为:在上述表示流的传播过程中,对中间表示施加依赖于输入与结构特征的非均匀变换。基于这一认识,本文将模型适配过程抽象为对表示流的\emph{结构感知调制},并在此基础上构建统一分析框架,以刻画后续各章方法的核心机制。
为刻画这一过程,可以从模型前向计算的角度进行分析。对于输入样本 $\mathbf{X}$,模型在逐层计算过程中产生一系列中间表示,并通过这些表示在间逐步传递与变换。该过程可视为一种\emph{表示流}representation flow即信息在模型内部随层级推进而持续演化的过程。
从这一视角出发,结构感知适配可以统一理解为:在表示流的传播过程中,对中间表示施加依赖于输入与结构特征的非均匀变换。基于此,本文将模型适配抽象为对表示流的\emph{结构感知调制},并在此基础上构建统一分析框架,以刻画后续方法的共性机制。
\subsection{结构感知调制的统一形式化}
\label{subsec:unified_formulation}
在上述直觉基础上,考虑预训练模型在适配过程中的表示变换形式。设预训练模型参数为 $\Theta_0$,适配参数为 $\Theta_a$。对于第 $\ell$ 层,给定输入时空样本 $\mathbf{X}$,该层产生的中间表示记为 $\mathbf{Z}^{(\ell)}$(例如注意力输出或前馈网络输出),其构成表示流在该层的状态。
在上述表示流视角下,考虑预训练模型在适配过程中的表示变换形式。设预训练模型参数为 $\Theta_0$,适配参数为 $\Theta_a$。对于第 $\ell$ 层,给定输入样本 $\mathbf{X}$,该层产生的中间表示记为 $\mathbf{Z}^{(\ell)}$(例如注意力输出或前馈网络输出),其构成表示流在该层的状态;在参数空间方法中,$\mathbf{Z}^{(\ell)}$ 也可对应由该层权重更新所刻画的适配对象
结构感知调制的统一形式可表示为:
\begin{equation}
@@ -177,25 +174,25 @@
\Big),
\label{eq:ch1_unified_M}
\end{equation}
其中,$\mathcal{M}_{\theta}(\cdot)$ 结构感知调制算子,$\tilde{\mathbf{Z}}^{(\ell)}$ 为调制后的表示,$\mathcal{R}$ 为结构角色描述符,用于刻画由时空数据结构特性所诱导的模型内部结构异质性类型,例如模块级、维度级及参数级等不同层级的结构差异。
其中,$\mathcal{M}_{\theta}(\cdot)$ 表示结构感知调制算子,$\tilde{\mathbf{Z}}^{(\ell)}$ 为调制后的表示,$\mathcal{R}$ 为结构角色描述符,用于刻画模型内部结构异质性类型,例如模块级、维度级及参数级等不同层级的结构差异。相应地,$\mathbf{Z}^{(\ell)}$ 在表示空间方法中表示中间表示流对象,在参数空间方法中表示结构化参数更新对象。
形式化表达了一个基本观点:模型适配的关键不在于对参数进行全面更新,而在于根据时空结构特征,对表示流中不同组成部分施加有针对性的调制。通过引入结构角色描述符 $\mathcal{R}$,可以在统一框架下区分不同类型的结构异质性,并据此设计差异化的调制策略。
上述形式化将模型适配统一刻画为在结构约束下的表示变换过程。与对参数进行整体更新的视角相比,该表达更直接地反映了适配过程中不同结构单元在表示流中的作用差异。通过引入结构角色描述符 $\mathcal{R}$,可以在统一框架下区分不同类型的结构异质性,并据此构造相应的调制策略。
\subsection{三种调制形式}
\subsection{结构感知调制形式类别划分}
\label{subsec:modulation_forms}
在上述统一形式下,不同适配方法的差异主要体现在调制算子的具体实现方式上。根据调制机制与建模需求的不同,本文将结构感知调制归纳为三类基本形式。
在上述统一形式下,结构感知调制既可以作用于表示流,也可以作用于参数更新结构,但其核心差异主要体现在调制算子的具体实现方式上。根据调制作用的结构层级与建模目标的不同,可从调制机制的角度将结构感知调制归纳为三类基本形式。
\textbf{乘性调制}用于刻画表示流中不同成分的重要性差异。在多任务与多结构并存的场景下,不同表示维度或通道对任务目标的贡献程度存在差异,因需要通过门控机制进行选择性增强或抑制。其形式为:
\textbf{乘性调制}用于刻画表示流中不同成分的重要性差异。在多任务与多结构并存的场景下,不同表示维度或通道对任务目标的贡献程度存在差异,因需要通过条件化门控机制对其进行选择性增强或抑制。其形式为:
\begin{equation}
\mathcal{M}_{\theta}(\mathbf{Z};\mathbf{X},\mathcal{R})
=
\mathbf{Z} \odot \mathbf{S}_{\theta}(\mathbf{X},\mathcal{R}),
\label{eq:ch1_multiplicative}
\end{equation}
其中 $\mathbf{S}_{\theta}(\cdot)$条件化调制信号。第三章的 HyCAM 方法以及第四章的 RoSADyPAM 方法均属于此类形式。
其中 $\mathbf{S}_{\theta}(\cdot)$依赖输入与结构信息的调制信号。第三章的 HyCAM 方法以及第四章的 RoSA 与第五章的 DyPAM 方法均属于此类形式。
\textbf{组合式调制}用于刻画多尺度结构特征。在城市时空数据中,不同时间尺度与空间尺度上的模式往往对应不同频率成分,需要在统一框架下进行分解与重组。其形式为:
\textbf{组合式调制}用于刻画多尺度结构特征。在复杂数据与任务场景中,不同尺度模式往往对应不同频率成分,需要在统一框架下进行分解与重组。其形式为:
\begin{equation}
\mathcal{M}_{\theta}(\mathbf{Z};\mathbf{X},\mathcal{R})
=
@@ -203,40 +200,61 @@
\mathbf{Z}_{s} \cdot g_{\theta,s}(\mathbf{X},\mathcal{R}),
\label{eq:ch1_compositional}
\end{equation}
其中 $\mathbf{Z}_s$ 表示第 $s$ 个频段的表示分量。第章的 CASCADE 方法采用此类形式。
其中 $\mathbf{Z}_s$ 表示第 $s$ 个频段的表示分量。第章的 CASCADE 方法采用此类形式。
\textbf{结构分解调制}用于刻画多任务场景下的共享与专用结构。在有限参数预算下,不同任务对模型容量的需求存在差异,需要在共享表示与任务特有表示之间进行分配。其形式为:
\textbf{结构分解调制}用于刻画多任务场景下的共享与专用结构。在有限参数预算条件下,不同任务对模型容量的需求存在差异,需要在共享表示与任务特有表示之间进行分配。其形式为:
\begin{equation}
\mathcal{M}_{\theta}(\mathbf{Z};\mathbf{X},\mathcal{R})
=
\mathbf{Z} \cdot \left(\Delta\Theta_{shared} + \mathbf{m} \odot \Delta\Theta_{specific}\right),
\label{eq:ch1_structural}
\end{equation}
其中 $\Delta\Theta_{shared}$$\Delta\Theta_{specific}$ 分别对应共享与专用参数增量。第章的 MESSA 方法采用此类形式。
其中 $\Delta\Theta_{shared}$$\Delta\Theta_{specific}$ 分别对应共享与专用参数增量。第章的 MESSA 方法采用此类形式。
上述三类调制形式对应不同结构异质性条件下的建模方式,并与后续方法体系形成如下对应关系,如表~\ref{tab:ch1_method_overview} 所示。
\begin{figure}[htbp]
\centering
% 占位:待替换为外部绘制的 modulation_forms.pdf
% \includegraphics[width=0.9\textwidth]{modulation_forms.pdf}
\caption{三种结构感知调制形式的示意图。该图采用三列并排布局,每列对应一种调制形式:
\textbf{左列}(乘性调制):输入表示$\mathbf{Z}^{(\ell)}$经过条件化信号生成模块$\mathbf{S}_\theta(\mathbf{X},\mathcal{R})$产生逐元素调制信号通过Hadamard乘法$\odot$作用于原始表示,输出调制后表示$\tilde{\mathbf{Z}}^{(\ell)}$。下方标注"HyCAM / RoSA / DyPAM"及"表示空间"。
\textbf{中列}(组合式调制):输入通过多个异构频域变换分解为$S$个频段分量$\mathbf{Z}_1, \mathbf{Z}_2, \ldots, \mathbf{Z}_S$,每个分量经路由权重$g_{\theta,s}$加权后通过$\bigoplus$重组。下方标注"CASCADE"及"参数空间"。
\textbf{右列}(结构分解调制):参数更新被分解为共享增量$\Delta\Theta_{shared}$和经掩码$\mathbf{m}$选择的专用增量$\Delta\Theta_{specific}$,二者相加后与输入表示相乘。下方标注"MESSA"及"参数空间"。
三列顶部统一标注公式$\tilde{\mathbf{Z}}^{(\ell)}=\mathcal{M}_{\theta}(\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R})$作为统一母式。每列使用与方法体系表一致的配色(表示空间青色调、参数空间橙色调)。}
\label{fig:ch1_modulation_forms}
\end{figure}
\begin{table}[h]
\centering
\caption{本文方法体系与结构异质性的对应关系。}
\label{tab:ch1_method_overview}
\resizebox{0.95\linewidth}{!}{
\begin{tabular}{llllc}
\begin{tabular}{lllclc}
\toprule
结构异质性类型 & 结构角色描述符 & 调制形式 & 对应方法 & 章节 \\
结构异质性类型 & 结构角色描述符 & 调制形式 & 适配空间 & 对应方法 & 章节 \\
\midrule
模块级功能异质性 & $\mathcal{R}_{mod}$ & 乘性调制 & HyCAM & 第三章 \\
维度级位置结构异质性 & $\mathcal{R}_{dim}$ & 乘性调制 & RoSA, DyPAM & 第四章 \\
频谱级多尺度异质性 & $\mathcal{R}_{spec}$ & 组合式调制 & CASCADE & 第五章 \\
参数级容量分配异质性 & $\mathcal{R}_{param}$ & 结构分解调制 & MESSA &\\
模块级功能异质性 & $\mathcal{R}_{mod}$ & 乘性调制 & 表示空间 & HyCAM & 第三章 \\
维度级位置结构异质性 & $\mathcal{R}_{dim}$ & 乘性调制 & 表示空间 & RoSA & 第四章 \\
维度级位置结构异质性 & $\mathcal{R}_{dim}$ & 乘性调制 & 表示空间 & DyPAM & 第五章 \\
频谱级多尺度异质性 & $\mathcal{R}_{spec}$ & 组合式调制 & 参数空间 & CASCADE &\\
参数级容量分配异质性 & $\mathcal{R}_{param}$ & 结构分解调制 & 参数空间 & MESSA & 第六章 \\
\bottomrule
\end{tabular}
}
\end{table}
\subsection{结构异质性类型与本文方法体系}
\label{subsec:method_system}
基于上述统一框架,本文从时空数据的结构特出发,将模型适配过程中涉及的结构异质性划分为四类,并构建了相应的方法体系,如表~\ref{tab:ch1_method_overview} 所示。
基于上述统一框架,本文从模型内部结构特出发,将模型适配过程中涉及的结构异质性划分为四类,并构建了相应的方法体系,如表~\ref{tab:ch1_method_overview} 所示。
第三章从模块级功能差异出发,研究多任务场景下的表示调制问题;第四章进一步从表示维度层面分析位置结构所引入的异质性;第五章则从参数空间角度,分别从多尺度结构与容量分配两个方面对适配机制进行扩展。尽管各方法关注的结构层级不同,但在本节提出的统一框架下,均可理解为对表示流施加结构感知调制的不同实例化,从而形成由粗到细、由表示空间到参数空间的递进式建模路径
从调制作用对象的角度看,上述调制形式可以进一步作用于不同层级的适配空间,即表示空间与参数空间。\textbf{表示空间}层面的适配方法直接作用于模型前向计算过程中的中间表示流,通过对注意力输出、维度通道等表示成分施加输入条件化的调制信号,改变信息在后续层中的传播与组合方式;\textbf{参数空间}层面的适配方法则作用于权重更新结构本身,通过在频谱分解或稀疏分配等参数组织层面引入结构感知机制,以提升有限参数预算下的更新效率。前者关注模型对已有知识的调用方式,后者关注参数更新的组织方式。尽管参数空间方法直接作用于权重更新结构,其目标仍然是改善表示形成与传播过程,因此本文将二者统一纳入结构感知表征适配的研究范畴
在此划分下,本文的方法体系沿着由表示空间到参数空间的路径递进展开:第三至第五章在表示空间中,从模块级功能差异出发,逐步深入到维度级位置结构的静态选择与动态调制;第六章则转向参数空间,从多尺度频谱结构与参数容量分配两个方面对适配机制进行建模。
综上,本文在统一的结构感知调制框架下,将模型适配刻画为在不同结构角色约束下对表示流与参数更新的非均匀调制过程,并据此形成由表示空间到参数空间逐层展开的方法体系。该框架为后续各章方法的设计与分析提供了统一的建模基础。
\section{研究内容与技术路线}
\label{sec:research_content}
@@ -244,88 +262,170 @@
\subsection{主要研究内容}
\label{subsec:research_content_detail}
针对上述挑战,本文以城市时空数据的结构特性为导向,在第~\ref{sec:unified_framework}~节建立的统一分析框架下,系统研究面向时空智能任务的大语言模型结构感知适配方法,并构建相应的评测基础设施,以形成方法设计与系统验证相结合的研究闭环
针对前述大语言模型适配过程中存在的结构异质性问题,本文在第~\ref{sec:unified_framework}~节提出的统一分析框架下,从模型内部结构角色差异出发,对表示流调制与参数更新组织进行系统建模,构建面向复杂任务场景的结构感知适配方法体系
总体而言,本文围绕模型内部结构角色差异,从不同层级展开研究,主要包括以下四个方面
在统一形式化视角下,本文将模型适配理解为在结构角色描述符 $\mathcal{R}$ 约束下,对表示流与参数更新施加非均匀调制的过程。围绕这一建模思路,本文针对不同层级的结构异质性,设计相应形式的调制算子,并在表示空间与参数空间中形成相应的建模路径。本文的方法体系可概括为如下递进路径
1针对多任务时空建模中不同模块承担差异化功能的问题研究模块级结构异质性$\mathcal{R}_{mod}$),构建基于乘性调制的表示适配方法;
\begin{center}
模块级功能结构 $\rightarrow$ 维度级位置结构(静态 $\rightarrow$ 动态) $\rightarrow$ 参数空间结构(频谱 $\rightarrow$ 容量分配)
\end{center}
2针对位置编码引入的维度级结构差异问题研究维度级结构异质性$\mathcal{R}_{dim}$),构建面向位置结构的细粒度调制机制;
从适配作用对象的角度看,本文进一步将结构感知适配问题划分为表示空间与参数空间两个层面,并在不同结构层级上展开系统研究。其中:
3针对参数更新过程中的多尺度结构与容量分配问题研究频谱级与参数级结构异质性$\mathcal{R}_{spec}, \mathcal{R}_{param}$),构建组合式与结构分解调制方法;
1在表示空间层面针对模块级与维度级结构异质性研究表示流中的非均匀调制机制分别围绕模块功能角色差异与位置结构差异构建相应的乘性调制方法;
4针对复杂时空任务缺乏统一评测环境的问题构建面向多任务与多阶段验证的评测数据与实验基础设施
2在参数空间层面针对权重更新过程中的多尺度结构与容量分配问题围绕频谱级与参数级结构异质性构建组合式调制与结构分解调制方法以提升有限参数预算下的适配效率
在上述总体框架下,本文的具体研究内容如下
在上述统一结构下,本文进一步将结构感知调制机制具体展开为一组相互关联的方法,主要研究内容包括以下四个方面
\textbf{研究内容一:基于模块功能角色感知的多任务时空表征适配方法(第三章}
\textbf{1基于模块功能角色感知的表示调制方法HyCAM}
针对城市多任务时空建模中Transformer不同功能模块承担差异化角色的问题,本文模块级结构异质性($\mathcal{R}_{mod}$出发,研究基于乘性调制的表示适配机制,提出混合上下文注意力调制方法Hybrid Contextual Attention Modulation, HyCAM
针对多任务建模中不同计算模块承担差异化功能的问题,本文基于模块级结构异质性($\mathcal{R}_{mod}$,在表示空间中构建乘性调制机制提出混合上下文注意力调制方法Hybrid Contextual Attention Modulation, HyCAM
该方法基于如下认识自注意力模块主要负责上下文依赖关系的动态建模而前馈网络更多承担参数化知识表达功能因此在适配过程中应优先对注意力表示进行定向调制而非对所有模块施加均匀更新。基于此本文构建上下文注意力调制Contextual Attention Modulation, CAM模块通过通道级门控机制对自注意力输出进行输入条件化的乘性调制以实现对关键表示成分的选择性增强或抑制
该方法利用自注意力模块与前馈网络在功能上的差异,对注意力表示施加输入条件化的通道级调制,并通过“共享调制—专用调制—动态路由”结构,实现多任务场景下知识共享与任务特化之间的结构化协调,从而提升模型在复杂任务条件下的协同建模能力
在此基础上,进一步设计"共享CAM—专用CAM—动态路由"的混合结构,其中共享模块用于建模跨任务的通用调制模式,专用模块用于刻画任务特定结构,动态路由机制根据输入上下文自适应地融合两类调制信号,从而在统一模型中实现知识共享与任务特化之间的平衡。
\textbf{2基于位置结构感知的静态选择性表示适配方法RoSA}
\textbf{研究内容二:基于位置结构感知的维度级时空表征适配方法(第四章)}
针对位置编码在表示维度中引入的结构非均匀性,本文基于维度级结构异质性($\mathcal{R}_{dim}$),在表示空间中构建静态、粗粒度的乘性调制机制,提出 RoPE 感知的选择性适配方法RoPE-aware Selective Adaptation, RoSA
针对位置编码在表示维度上引入的结构差异问题,本文从维度级结构异质性($\mathcal{R}_{dim}$)出发,研究面向位置结构的细粒度表示调制方法
该方法通过刻画不同维度在位置结构建模中的功能差异,对关键维度进行定向增强,并结合层级选择策略实现跨层资源分配,在保持参数高效性的前提下提升模型对位置结构信息的利用能力
以旋转位置编码RoPE为例其频率结构使不同维度承担不同的位置信息表达功能从而导致注意力表示在维度空间中呈现显著的非均匀性。现有适配方法通常忽略这种结构差异对所有维度施加同质化更新难以充分利用位置结构信息。
\textbf{3基于位置结构感知的动态细粒度表示调制方法DyPAM}
为此本文提出两类递进式方法。首先提出RoPE感知的选择性适配方法RoPE-aware Selective Adaptation, RoSA通过构建RoPE感知注意力增强模块RoAE对关键维度进行定向增强并结合动态层选择策略实现跨层级的资源分配。进一步地提出动态位置注意力调制方法Dynamic Positional Attention Modulation, DyPAM将维度级适配由静态选择扩展为输入条件化的动态调制通过低秩投影与维度嵌入机制生成与位置结构对齐的调制信号从而在不同输入条件下实现更精细的结构感知建模
在静态选择性适配基础上,进一步考虑输入条件对表示结构的影响,将维度级适配扩展为输入依赖的动态调制问题。基于同一结构描述符($\mathcal{R}_{dim}$在表示空间中构建细粒度乘性调制机制提出动态位置注意力调制方法Dynamic Positional Attention Modulation, DyPAM
\textbf{研究内容三:基于多尺度频谱结构与参数容量分配的适配方法(第五章)}
该方法通过构造与位置结构对齐的调制信号,使不同维度的重要性能够随输入变化自适应调整,从而实现由“静态结构选择”向“动态结构调制”的递进式建模,提升模型对复杂输入条件的结构感知能力。
在上述表示空间建模的基础上,本文进一步将研究视角扩展至参数空间,针对多尺度结构与容量分配问题,分别从频谱级结构异质性($\mathcal{R}_{spec}$)与参数级结构异质性($\mathcal{R}_{param}$)出发,构建相应的适配方法。
\textbf{4面向参数空间多尺度与容量分配结构感知适配方法CASCADE 与 MESSA}
首先针对权重更新中的多尺度特征提出基于频谱级联的多尺度参数适配方法Coarse-to-Fine Spectral Cascading, CASCADE。该方法通过构建由低频与高频专家组成的异构结构并通过级联调制机制建立不同频段之间的依赖关系从而实现对全局趋势与局部细节的协同建模
在表示空间方法基础上,本文进一步将结构感知适配扩展至参数空间,分别从频谱结构与参数容量分配两个角度建模参数级结构异质性($\mathcal{R}_{spec}, \mathcal{R}_{param}$)。二者分别对应参数空间中多尺度结构建模与容量分配建模的两个互补方向
其次,针对多任务场景中的参数容量分配问题,提出基于共享-特有稀疏分解的多任务适配方法Multi-task Efficient Shared-Specific Sparse Adaptation, MESSA。该方法将参数更新分解为跨任务共享部分与任务特有部分通过可学习的结构门控实现参数在不同任务之间的自适应分配从而在有限参数预算下提升多任务建模能力
针对权重更新中的多尺度特征基于组合式调制形式提出频谱级联的多尺度参数适配方法Coarse-to-Fine Spectral Cascading, CASCADE通过构建异构频段专家与级联调制机制实现从全局趋势到局部细节的多尺度协同建模
\textbf{研究内容四:面向时空智能的大模型评测体系与实验基础设施(第六章)}
针对多任务场景中的参数容量分配问题基于结构分解调制形式提出共享—特有稀疏分解的多任务适配方法Multi-task Efficient Shared-Specific Sparse Adaptation, MESSA通过结构化参数分解与预算感知分配机制在有限参数条件下实现共享能力与任务特化能力之间的平衡。
为支撑上述方法在复杂时空任务中的系统验证,本文进一步构建面向多任务与多阶段评估的实验基础设施。
\textbf{5方法体系总结}
一方面构建AI驱动的交通预测持续评测框架AgentCity通过多智能体协同机制实现模型集成、任务组织与评估流程的自动化从而提升评测体系的可扩展性与持续更新能力。另一方面构建时空敏感的兴趣点问答数据集POI-QA通过引入空间位置与时间上下文信息构建能够反映时空推理能力的评测任务从而弥补现有数据集在复杂时空理解方面的不足
上述评测体系与数据资源,为结构感知适配方法在真实城市时空场景中的验证提供了统一环境。
综上,本文四项研究内容在统一框架下形成递进关系:研究内容一与二从表示空间出发,分别在模块级与维度级刻画结构角色差异;研究内容三进一步扩展至参数空间,从多尺度结构与容量分配角度进行建模;研究内容四则从评测基础设施角度提供系统验证支撑,从而形成面向时空智能建模的方法—数据—系统闭环。
综上,本文在统一的结构感知调制框架下,构建了覆盖表示空间与参数空间的多层级适配方法体系。表示空间方法围绕模块级与维度级结构逐步细化,体现由粗粒度到细粒度的调制过程;参数空间方法则从多尺度结构与容量分配角度对适配过程进行结构化建模。上述方法共同形成面向复杂任务场景的大语言模型结构感知适配路径
\subsection{整体技术路线}
\label{subsec:technical_route}
为系统开展面向复杂时空任务的表征学习研究,本文围绕城市时空数据的结构特征构建统一的分层建模技术路线,其总体框架如图~\ref{fig:tech_route}所示。
为系统开展面向复杂任务场景的大语言模型结构感知表征适配研究,本文以模型内部结构异质性为出发点,构建统一的分层建模技术路线,其总体框架如图~\ref{fig:tech_route}所示。
% TikZ 源码保留供参考,最终版本使用外部绘制的 PDF
% \begin{figure}[htbp]
% \centering
% \begin{tikzpicture}[
% node distance=0.4cm,
% >={Stealth[length=2.5mm, width=1.8mm]},
% topbox/.style={rectangle, rounded corners=3pt, draw=black!50, fill=black!4,
% text width=13.5cm, align=center, inner sep=7pt, font=\small},
% fwbox/.style={rectangle, rounded corners=3pt, draw=blue!35!black, fill=blue!4,
% text width=13.5cm, align=center, inner sep=7pt, font=\small},
% spcbox/.style={rectangle, rounded corners=3pt, draw=#1!45!black, fill=#1!10,
% text width=6.2cm, minimum height=0.7cm, align=center, inner sep=5pt,
% font=\small\bfseries},
% mtdbox/.style={rectangle, rounded corners=3pt, draw=#1!35!black, fill=#1!5,
% text width=5.8cm, align=left, inner sep=5pt, font=\footnotesize},
% btmbox/.style={rectangle, rounded corners=3pt, draw=black!50, fill=black!4,
% text width=13.5cm, align=center, inner sep=6pt, font=\small},
% arr/.style={->, line width=0.7pt, draw=black!50},
% tlab/.style={font=\scriptsize, text=black!55, fill=white, inner sep=1.5pt},
% ]
% %% Row 1: Problem
% \node[topbox] (prob) {
% {\bfseries 大语言模型内部多层级结构异质性}\\[2pt]
% 模块功能分化\quad\textbullet\quad 维度位置结构差异\quad\textbullet\quad
% 参数更新多尺度模式\quad\textbullet\quad 容量分配需求不均匀};
% %% Row 2: Unified Framework
% \node[fwbox, below=0.5cm of prob] (fw) {
% {\bfseries 结构感知表征适配统一分析框架}\\[3pt]
% $\tilde{\mathbf{Z}}^{(\ell)}=\mathcal{M}_{\theta}(\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R})$\\[4pt]
% {\footnotesize $\mathcal{R}_{\mathrm{mod}}$\,(模块级)\quad
% $\mathcal{R}_{\mathrm{dim}}$\,(维度级)\quad
% $\mathcal{R}_{\mathrm{spec}}$\,(频谱级)\quad
% $\mathcal{R}_{\mathrm{param}}$\,(参数级)}\\[2pt]
% {\footnotesize 乘性调制\quad\textbullet\quad 组合式调制\quad\textbullet\quad 结构分解调制}};
% %% Row 3: Space Labels (left=teal, right=orange)
% \node[spcbox=teal] (rsp) at ($(fw.south)+(-3.45,-1.0)$) {表示空间(第三$\sim$五章)};
% \node[spcbox=orange] (psp) at ($(fw.south)+(3.45,-1.0)$) {参数空间(第六章)};
% %% Representation Space Methods
% \node[mtdbox=teal, below=0.3cm of rsp] (hycam) {
% {\small\bfseries 第三章\enspace HyCAM}\\[1pt]
% $\mathcal{R}_{\mathrm{mod}}$\enspace$\cdot$\enspace 乘性调制\\
% 模块级功能异质性\\ 共享/专用 CAM + 动态路由};
% \node[mtdbox=teal, below=0.3cm of hycam] (rosa) {
% {\small\bfseries 第四章\enspace RoSA}\\[1pt]
% $\mathcal{R}_{\mathrm{dim}}$\enspace$\cdot$\enspace 乘性调制\\
% 维度级位置结构(静态$\cdot$粗粒度)\\ 低频维度增强 + 动态层选择};
% \node[mtdbox=teal, below=0.3cm of rosa] (dypam) {
% {\small\bfseries 第五章\enspace DyPAM}\\[1pt]
% $\mathcal{R}_{\mathrm{dim}}$\enspace$\cdot$\enspace 乘性调制\\
% 维度级位置结构(动态$\cdot$细粒度)\\ 输入条件化调制 + 头级/层级偏置};
% %% Parameter Space Methods
% \node[mtdbox=orange, below=0.3cm of psp] (cascade) {
% {\small\bfseries 第六章\enspace CASCADE}\\[1pt]
% $\mathcal{R}_{\mathrm{spec}}$\enspace$\cdot$\enspace 组合式调制\\
% 频谱级多尺度异质性\\ 异构频域专家 + 级联频谱调制};
% \node[mtdbox=orange, below=0.3cm of cascade] (messa) {
% {\small\bfseries 第六章\enspace MESSA}\\[1pt]
% $\mathcal{R}_{\mathrm{param}}$\enspace$\cdot$\enspace 结构分解调制\\
% 参数级容量分配异质性\\ 共享-特有分解 + 预算感知优化};
% %% Row Bottom: Validation
% \node[btmbox, below=0.6cm of dypam, xshift=3.45cm] (valid) {
% {\bfseries 实验验证}\quad 常识推理\enspace$\cdot$\enspace 数学推理\enspace$\cdot$\enspace
% 多任务联合适配\enspace|\enspace 多骨干模型\enspace$\cdot$\enspace 多参数规模};
% %% Arrows
% \draw[arr] (prob) -- (fw);
% \coordinate (fk) at ($(fw.south)+(0,-0.3)$);
% \draw[line width=0.7pt, draw=black!50] (fw.south) -- (fk);
% \draw[arr] (fk) -| (rsp.north); \draw[arr] (fk) -| (psp.north);
% \draw[arr] (rsp) -- (hycam); \draw[arr] (psp) -- (cascade);
% \draw[arr] (hycam) -- node[tlab, right=2pt] {模块级\,$\to$\,维度级} (rosa);
% \draw[arr] (rosa) -- node[tlab, right=2pt] {静态\,$\to$\,动态} (dypam);
% \draw[arr] (cascade) -- node[tlab, right=2pt] {互补视角} (messa);
% \draw[arr] (dypam.south) -- (dypam.south |- valid.north);
% \draw[arr] (messa.south) -- (messa.south |- valid.north);
% \end{tikzpicture}
% \end{figure}
\begin{figure}[htbp]
\centering
% 占位:待替换为外部绘制的 tech_route.pdf
% \includegraphics[width=0.9\textwidth]{tech_route.pdf}
\caption{本文整体技术路线示意图。该图从时空数据的结构复杂性出发,展示了结构角色感知表征学习方法体系的层级化建模思路,包括模块级表示流调制、维度级结构敏感建模、多尺度参数更新机制以及参数结构优化策略,并进一步给出统一实验验证与评测体系在整体研究框架中的支撑作用。}
\caption{本文整体技术路线示意图。该图采用自上而下的层级流程结构,共分为五层,见注释:}
% \textbf{第一层}(问题层)为全幅横条,标注"大语言模型内部多层级结构异质性",列出四类异质性——模块功能分化、维度位置结构差异、参数更新多尺度模式、容量分配需求不均匀。
% \textbf{第二层}(框架层)为全幅横条(蓝色调),标注"结构感知表征适配统一分析框架",包含统一调制算子公式$\tilde{\mathbf{Z}}^{(\ell)}=\mathcal{M}_{\theta}(\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R})$,列出四类描述符$\mathcal{R}_{\mathrm{mod}}$/$\mathcal{R}_{\mathrm{dim}}$/$\mathcal{R}_{\mathrm{spec}}$/$\mathcal{R}_{\mathrm{param}}$与三种调制形式。
% \textbf{第三层}(空间层)分为左右两列:左列标注"表示空间(第三\textasciitilde 五章)"(青色调),右列标注"参数空间(第六章)"(橙色调)。
% \textbf{第四层}方法层在左列纵向排列三个方法卡片——第三章HyCAM$\mathcal{R}_{\mathrm{mod}}$乘性调制、第四章RoSA$\mathcal{R}_{\mathrm{dim}}$静态粗粒度、第五章DyPAM$\mathcal{R}_{\mathrm{dim}}$,动态细粒度),卡片间用箭头连接并标注"模块级$\to$维度级"和"静态$\to$动态"右列纵向排列两个方法卡片——第六章CASCADE$\mathcal{R}_{\mathrm{spec}}$组合式调制和MESSA$\mathcal{R}_{\mathrm{param}}$,结构分解调制),卡片间标注"互补视角"。
% \textbf{第五层}(验证层)为全幅横条,标注"实验验证",列出常识推理、数学推理、多任务联合适配、多骨干模型、多参数规模。
% 各层之间用向下箭头连接,框架层通过分叉箭头分别指向左右两列空间。}
\label{fig:tech_route}
\end{figure}
该技术路线以时空结构异质性分析为起点,首先从城市系统中的多任务耦合关系、位置依赖特征以及多尺度动态模式等结构属性出发,对时空建模问题进行系统刻画;在此基础上,通过第~\ref{sec:unified_framework}~节提出的统一分析框架,将时空结构特性映射为模型内部不同层级的结构角色差异,并据此设计相应的表示调制与参数适配方法
该技术路线以模型内部结构异质性分析为起点,从模块功能分工、位置编码引入的维度结构差异以及参数更新过程中的多尺度特征等方面,对模型内部结构属性进行系统刻画;在此基础上,依托第~\ref{sec:unified_framework}~节提出的统一分析框架,将上述结构特性抽象为不同层级的结构角色描述符,并据此构建相应的结构感知调制算子,从而形成由结构刻画到调制建模的统一技术路径
具体而言,在模块层面,研究表示在不同计算单元中的组织方式,通过结构感知调制机制增强模型对任务相关信息的表达能力;在维度与位置结构层面,刻画表示空间中的非均匀性特征,提升模型对空间依赖与时间动态的建模能力;在参数层面,进一步分析多尺度结构与容量分配对模型适配行为的影响,构建兼顾全局与局部特征的结构化更新机制
在上述框架下,本文沿表示空间与参数空间两个层面展开具体方法设计。在表示空间中,从模块级与维度级结构异质性出发,研究表示流中的非均匀调制机制,通过结构感知调制增强模型对关信息的表达能力,并由静态选择逐步过渡到输入条件化的动态调制;在参数空间中,进一步多尺度频谱结构与参数容量分配角度出发,构建结构化的参数更新机制,以提升有限参数预算下的适配效率与建模能力
在上述方法体系基础上,本文通过统一的实验组织与评测流程,对不同层级结构适配策略进行系统验证,并分析其在复杂时空任务中的协同作用。整体技术路线体现出由时空结构问题出发,经统一框架抽象,逐层展开方法设计,最终通过评测基础设施完成验证的递进式研究路径,从而形成完整的时空智能建模研究闭环。
在上述方法体系基础上,本文通过统一的实验组织与评测流程,对不同层级结构感知适配方法进行系统验证,并分析其在复杂任务场景中的协同作用。整体技术路线体现为:以结构异质性分析为起点,经统一框架抽象与分层方法设计,最终通过实验验证形成完整的结构感知适配研究闭环。
%======================================================================
\section{论文组织结构}
\label{sec:organization}
本文围绕复杂城市时空数据的结构特性,系统研究基础模型在多任务时空智能建模中的表征适配机制,并构建相应的评测基础设施。全文按照”问题提出—统一分析—方法设计—系统验证的逻辑展开,各章节内容安排如下。
本文围绕大语言模型内部的结构异质性特征,研究结构感知表征适配问题。全文在统一分析框架下,按照从问题建模到方法设计再到实验验证的逻辑展开,各章节内容安排如下。
第一章为绪论,介绍研究背景与研究意义,梳理时空表征学习与模型适配领域的研究现状与关键问题,在此基础上提出面向时空数据的结构感知适配统一分析框架,并给出本文的研究内容与整体技术路线。
第一章为绪论,介绍研究背景与研究意义,梳理大语言模型表示机制与结构感知适配领域的研究现状与关键问题,在此基础上提出面向大语言模型的结构感知适配统一分析框架,并给出本文的研究内容与整体技术路线。
第二章为国内外研究现状,系统综述与本文研究相关的四类工作,包括时空数据建模与表征学习方法、基础模型与大语言模型表示机制、参数高效适配与结构建模方法以及时空智能数据与评测体系,并对现有研究的主要挑战进行总结分析。
第二章为相关理论与研究现状,围绕大语言模型表示学习机制、参数高效微调方法以及结构异质性感知与多层级适配方法展开综述,并对现有研究的主要挑战进行系统分析。
第三章针对多任务时空建模中的模块级结构异质性问题,研究基于模块功能角色差异的表征适配方法,构建上下文注意力调制机制及其扩展框架,以提升模型在多任务场景中的协同建模能力。
第三章针对多任务建模中的模块级功能异质性$\mathcal{R}_{mod}$)问题,在乘性调制形式下研究基于模块功能角色感知的多任务表征适配方法,构建上下文注意力调制机制及其混合扩展框架,以提升模型在多任务场景中的协同建模能力。
第四章针对位置编码引入的维度级结构差异问题,研究位置结构驱动的各向异性表征学习方法,从表示维度与层级结构出发设计结构感知调制机制,以增强模型对复杂时空依赖关系的刻画能力
第四章针对位置编码引入的维度级位置结构异质性($\mathcal{R}_{dim}$),在乘性调制形式下研究基于位置结构感知的静态选择性表征适配方法,通过对不同维度的重要性进行结构化刻画,并结合层级选择机制实现跨层资源分配,从而实现静态、粗粒度的位置结构感知适配
第五章面向多尺度动态模式与多任务容量分配问题,从参数空间视角出发研究多尺度结构建模与参数结构自适应方法,分别从频谱结构与参数分解两个方面构建适配机制,以提升模型在复杂场景下的整体建模能力
第五章在第四章静态选择性适配的基础上,继续聚焦维度级位置结构异质性($\mathcal{R}_{dim}$),将适配机制由静态维度选择扩展为输入条件化的动态调制,并引入头级与层级结构偏置以刻画注意力结构差异,实现从粗粒度到细粒度的位置结构感知递进
第六章围绕复杂时空任务的评测需求,构建面向多任务与多阶段验证的实验基础设施,包括交通预测持续评测框架与时空敏感问答数据集,并在统一评测环境下对相关方法进行系统验证与分析
第六章将视角从表示空间转向参数空间,分别针对频谱级多尺度异质性($\mathcal{R}_{spec}$)与参数级容量分配异质性($\mathcal{R}_{param}$),在组合式调制与结构分解调制两种形式下,构建多尺度结构建模与容量分配建模的统一适配方法体系,包括基于异构频域专家级联的多尺度适配方法以及基于共享-特有稀疏分解的多任务适配方法,以提升有限参数预算下的适配效率与多任务协同能力
第七章为总结与展望,总结本文的主要研究内容与创新点,并结合时空智能建模与基础模型的发展趋势,对未来研究方向进行讨论。
第七章为总结与展望,总结本文的主要研究内容与创新点,并结合大语言模型与结构感知适配的发展趋势,对未来研究方向进行讨论。