LLMver_v1
This commit is contained in:
498
chap02.tex
498
chap02.tex
@@ -1,365 +1,341 @@
|
||||
% !TeX root = ../main.tex
|
||||
% 第二章 国内外研究现状
|
||||
\chapter{国内外研究现状}
|
||||
% 第二章 大语言模型表征适配的相关理论与研究进展
|
||||
\chapter{大语言模型表征适配的相关理论与研究进展}
|
||||
\label{chap:related_work}
|
||||
|
||||
本章围绕时空数据建模、基础模型表征机制及参数高效适配方法三个维度,对相关领域的研究现状进行系统梳理。在此基础上,对现有评测体系与数据资源进行分析,揭示当前研究在结构异质性建模、适配机制设计及评测支撑方面的不足,从而为后续章节提出的结构角色感知适配方法提供文献基础与问题定位。
|
||||
|
||||
|
||||
\section{时空数据建模与表征学习研究}
|
||||
\label{sec:rw_st_modeling}
|
||||
|
||||
城市时空数据是刻画现实物理世界动态演化过程的基础信息载体。随着城市物联传感网络、移动互联终端以及地球观测基础设施的持续发展,时空数据呈现出多源异构、高维动态与流式持续等特征,其建模方法也经历了由显式统计建模向数据驱动表征学习的范式演进。本节围绕时空建模问题的任务类型、方法发展路径及数据结构特征等方面,对相关研究进行系统梳理,并从表征学习视角分析当前研究范式的演进趋势与面临的结构挑战。
|
||||
|
||||
\subsection{时空数据建模问题类型与应用场景}
|
||||
\label{subsec:rw_st_problems}
|
||||
|
||||
% 注:需补充到ref.bib: zheng2014urban (Yu Zheng, Urban Computing, ACM TIST 2014)
|
||||
城市时空数据建模通常面向多种实际应用需求,其核心目标在于通过对时间与空间维度上动态变化过程的建模,实现对复杂系统状态的理解、预测与优化。从城市计算的视角来看,时空数据来源涵盖交通传感器网络、移动终端定位数据、车辆轨迹数据、遥感卫星影像、兴趣点(POI)信息以及社交媒体地理标签等多种类型\cite{}。% 注:需补充到ref.bib: zheng2014urban (Zheng et al., Urban Computing: Concepts, Methodologies, and Applications, ACM TIST 2014)
|
||||
根据建模目标与任务形式的不同,相关研究可划分为若干典型问题类型。
|
||||
|
||||
首先,\textbf{时空预测类任务}是当前研究最为广泛的方向。该类任务通常关注在给定历史观测数据的条件下,对未来某一时间范围内的系统状态进行估计,例如交通速度与流量预测\cite{METR_LA/PEMS_BAY,PEMSD4/8}、出行需求预测\cite{NYCTaxi/Bike}以及环境质量变化趋势分析等。此类任务对模型在捕获空间传播模式与时间依赖关系方面提出了较高要求。
|
||||
|
||||
其次,\textbf{行为建模与轨迹分析类任务}逐渐成为研究热点。随着位置感知技术的普及,城市个体活动轨迹及群体行为模式能够被更为精细地刻画。通过对出行路径、停留行为及兴趣点访问模式等信息进行建模,可以为城市规划与服务优化提供重要参考\cite{DeepMove,START}。这类任务通常涉及离散空间事件序列的语义理解与多主体交互分析,对模型在空间语义推理方面的能力提出更高要求。
|
||||
|
||||
此外,\textbf{决策支持与推理分析类任务}在近年来受到越来越多关注。例如,面向应急响应的路径规划、城市运行风险评估及公共设施选址优化等问题,往往需要在不确定环境中进行多阶段推理与策略评估。相比传统预测任务,这类问题不仅依赖对历史数据的建模,还要求模型具备一定的情境理解与逻辑推理能力\cite{CityBench}。
|
||||
|
||||
总体而言,不同类型的时空建模任务在目标形式与评价方式上存在差异,但其共同特征在于:均需要在统一建模框架下刻画复杂系统在时间与空间维度上的动态演化规律。更为重要的是,上述任务类型在城市系统中往往并行存在,表现为多目标共存与多任务耦合的特征。这种多任务并存关系为模型适配提出了差异化的结构要求——不同任务可能共享部分底层结构信息,同时又在建模目标与侧重点上具有各自的特殊需求。
|
||||
|
||||
|
||||
\subsection{传统时空建模方法}
|
||||
\label{subsec:rw_traditional_st}
|
||||
|
||||
% 注:需补充到ref.bib: cressie2011statistics (Cressie & Wikle, Statistics for Spatio-Temporal Data, Wiley 2011)
|
||||
% 注:需补充到ref.bib: tobler1970computer (Tobler, A Computer Movie Simulating Urban Growth, Economic Geography 1970)
|
||||
在深度学习技术广泛应用之前,时空数据建模主要依赖统计分析与数学建模方法。在时间维度上,自回归移动平均模型(ARIMA)及其扩展形式被广泛用于刻画时间序列中的线性趋势与周期性变化规律\cite{}。% 注:需补充到ref.bib: box2015time (Box et al., Time Series Analysis, 2015)
|
||||
在空间维度上,地理学第一定律——"一切事物都与其他事物相关联,但近处的事物比远处的事物更为相关"——为空间依赖关系的建模提供了基本出发点\cite{}。% 注:需补充到ref.bib: tobler1970computer (Tobler, A Computer Movie Simulating Urban Growth in the Detroit Region, Economic Geography 1970)
|
||||
基于此,空间自相关分析与地统计学方法被广泛用于描述不同区域之间的关联结构,例如克里金插值方法通过空间协方差模型对未采样位置进行最优预测\cite{}。% 注:需补充到ref.bib: cressie2011statistics (Cressie \& Wikle, Statistics for Spatio-Temporal Data, Wiley 2011)
|
||||
|
||||
在时空联合建模方面,Cressie与Wikle提出的层次动态时空模型(Hierarchical Dynamic Spatio-Temporal Models)通过将不确定性分解为数据层、过程层与参数层三个层级,为时空数据的概率建模提供了系统化的理论框架\cite{}。% 注:需补充到ref.bib: cressie2011statistics (Cressie \& Wikle, Statistics for Spatio-Temporal Data, Wiley 2011)
|
||||
此外,卡尔曼滤波及其非线性扩展在动态系统状态估计中发挥了重要作用,通过状态方程与观测方程的递推更新实现对系统状态的连续跟踪\cite{}。% 注:需补充到ref.bib: kalman1960new (Kalman, A New Approach to Linear Filtering and Prediction Problems, ASME J. Basic Eng. 1960)
|
||||
|
||||
上述传统方法的重要价值在于其可解释性与不确定性建模能力。层次化建模框架能够显式表征不同来源的不确定性,空间统计方法则为理解空间异质性提供了严谨的概念工具。然而,当城市系统规模不断扩大且运行模式愈发复杂时,传统方法在表达非线性关系与高维交互模式方面的能力逐渐受到限制。特别是在多任务耦合或多源数据融合场景中,依赖人工特征设计与显式概率假设的建模策略难以充分挖掘数据中的潜在结构信息。
|
||||
|
||||
值得注意的是,传统时空统计方法所建立的核心概念——空间依赖、时间非平稳性、多尺度过程以及层次化不确定性——为后续深度表征学习中"结构归纳偏置"的设计提供了重要的理论先导。
|
||||
% TODO: 补充中文文献。建议添加:王劲峰等, 地理学时空数据分析方法, 地理学报 2014;或李德仁, 空间数据挖掘理论与应用(第3版), 科学出版社 2019
|
||||
|
||||
|
||||
\subsection{深度学习驱动的时空表征学习方法}
|
||||
\label{subsec:rw_dl_st}
|
||||
|
||||
% 注:需补充到ref.bib: shi2015convolutional (Shi et al., ConvLSTM, NeurIPS 2015)
|
||||
% 注:需补充到ref.bib: li2018dcrnn (Li et al., DCRNN, ICLR 2018)
|
||||
% 注:需补充到ref.bib: yu2018stgcn (Yu et al., STGCN, IJCAI 2018)
|
||||
% 注:需补充到ref.bib: wu2019graph (Wu et al., Graph WaveNet, IJCAI 2019)
|
||||
% 注:需补充到ref.bib: zhou2021informer (Zhou et al., Informer, AAAI 2021)
|
||||
% 注:需补充到ref.bib: wu2021autoformer (Wu et al., Autoformer, NeurIPS 2021)
|
||||
% TODO: 补充中文文献。建议添加:贾兴利等, 交通预测中的时空图神经网络研究综述, 交通运输工程学报 2026, DOI:10.19818/j.cnki.1671-1637.2026.01.003
|
||||
随着深度学习技术的发展,基于神经网络的时空建模方法在过去十余年间取得了显著进展,其核心贡献在于将时空依赖关系转化为可学习的结构归纳偏置(inductive bias),从而实现了从人工特征设计向端到端表征学习的范式转变。按照所采用的空间结构假设,深度时空建模方法可大致沿三条主线加以梳理。
|
||||
|
||||
\textbf{第一条主线}是基于栅格与场的时空建模方法。早期工作将城市空间划分为规则网格,通过卷积结构提取空间邻域特征,并结合循环网络捕获时间依赖关系。ConvLSTM等工作将卷积操作嵌入LSTM的门控结构中,实现了空间感知能力与时间记忆能力的算子级融合\cite{}。% 注:需补充到ref.bib: shi2015convolutional (Shi et al., Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting, NeurIPS 2015)
|
||||
然而,城市路网与传感器分布通常呈现不规则的非欧几里得结构,将其强制映射为网格会丢失真实的拓扑关系信息。
|
||||
|
||||
\textbf{第二条主线}是基于图结构的时空表征学习方法,这一方向在2018年至2023年间逐渐成为交通预测等任务的主流范式。时空图神经网络(Spatio-Temporal Graph Neural Networks, STGNNs)将传感器或地理区域建模为图的节点,将物理连接或属性相似性建模为图的边,从而在非欧几里得空间中进行信息传播与表征聚合。DCRNN将交通流动态建模为有向图上的扩散过程,并与序列编解码结构相结合\cite{DGCRN};% 注:li2018dcrnn
|
||||
STGCN则在频域上定义图卷积算子,通过全卷积结构取代循环计算\cite{};% 注:需补充到ref.bib: yu2018stgcn (Yu et al., Spatio-Temporal Graph Convolutional Networks, IJCAI 2018)
|
||||
Graph WaveNet引入自适应邻接矩阵学习机制,允许模型在训练过程中通过节点嵌入自动发现潜在的空间依赖关系\cite{}。% 注:需补充到ref.bib: wu2019graph (Wu et al., Graph WaveNet for Deep Spatial-Temporal Graph Modeling, IJCAI 2019)
|
||||
后续工作进一步在动态图建模\cite{DSTAGNN}、多图融合\cite{DGCRN}以及多尺度时空表示\cite{STWave}等方面进行了深入探索。在注意力机制的引入方面,部分研究通过空间注意力与时间注意力的联合设计,实现了对不同节点和不同时间步特征的动态权重分配\cite{STAEformer}。此外,STID等工作从简洁建模的角度出发,指出在附加适当的时空嵌入信息后,简单的多层感知机即可取得与复杂图模型相当的预测性能,这一发现促使研究者重新审视时空表征学习中归纳偏置的作用方式\cite{STID}。在模型规模与效率方面,BigST针对大规模传感器网络提出了高效的时空建模方案\cite{BigST};LightST则通过轻量化设计探索精度与效率之间的平衡\cite{LightST}。
|
||||
|
||||
在上述监督学习范式之外,时空预训练方法的探索代表了该领域的另一重要方向。UniST通过统一的掩码预训练策略在多种时空数据集上构建通用时空表示\cite{UniST};FlashST利用提示学习机制实现跨数据集的快速适配\cite{FlashST};EasyST则通过教师-学生蒸馏框架降低时空预训练的计算成本\cite{EasyST}。这些工作标志着时空表征学习正在由"任务特定模型"向"通用预训练—下游适配"的范式过渡。然而,现有时空预训练方法在跨城市迁移与多任务联合建模方面仍面临挑战,其学习到的通用表示能否有效支撑结构复杂的城市智能任务,仍有待进一步验证。
|
||||
|
||||
\textbf{第三条主线}是面向长序列预测的Transformer类方法。随着预测时间跨度与序列长度的增加,传统循环结构面临效率瓶颈与长程依赖建模困难。Informer通过稀疏注意力机制与蒸馏策略提升长序列预测效率\cite{};% 注:需补充到ref.bib: zhou2021informer (Zhou et al., Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting, AAAI 2021)
|
||||
Autoformer则引入序列分解机制与自相关注意力,将趋势与季节性成分分离建模\cite{}。% 注:需补充到ref.bib: wu2021autoformer (Wu et al., Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting, NeurIPS 2021)
|
||||
此外,PatchTST\cite{PatchTST}、TimeMixer++\cite{TimeMixer++}等工作进一步探索了多粒度与多通道时序建模策略。
|
||||
|
||||
上述三条主线虽然在空间结构载体与建模机制上存在差异,但在问题层面共享同一核心目标:如何在统一表示框架下有效刻画空间依赖、时间动态与尺度变化之间的交互关系。深度时空表征学习的演进可被理解为对结构归纳偏置的逐步显式化——从局部时空卷积到图结构传播,再到长上下文注意力建模。然而,现有方法大多围绕特定任务进行设计,所学习的表示与任务目标紧密耦合,在多任务协同与跨场景迁移方面仍面临泛化能力不足的问题。
|
||||
|
||||
|
||||
\subsection{时空建模中的结构复杂性问题}
|
||||
\label{subsec:rw_st_complexity}
|
||||
|
||||
尽管深度时空表征学习方法在各类基准测试中取得了显著进展,但真实的城市时空系统所呈现的结构复杂性仍对现有方法构成根本性挑战。城市时空数据并非均匀分布的数值流,而是在多个维度上呈现出系统性的结构分化。具体而言,可从以下四个层面加以概括。
|
||||
|
||||
\textbf{(1)多任务功能异质性。}
|
||||
城市系统中往往存在多任务高度共存的场景。例如,交通流量预测、出行需求估计与事件风险评估等任务虽然共享底层空间结构信息,但在建模目标与特征需求上存在差异\cite{standley2020tasks}。传统多任务建模方法通常采用硬共享底层网络的方式,容易导致任务间的负迁移与知识干扰\cite{yu2020gradient,liu2021conflict}。在城市多目标预测场景中,同时预测交通速度与流量两个密切相关的指标时,模型内部不同功能模块(如注意力层与前馈网络层)对两个任务的贡献可能存在显著差异——注意力模块更多承担跨区域空间关联的建模,而前馈网络则更多负责数值量程的映射。这种模块级的功能分工在均匀的参数共享策略下难以被有效利用。
|
||||
|
||||
\textbf{(2)位置结构依赖与表示非均匀性。}
|
||||
城市活动在空间分布上具有显著的非均匀性,不同区域在功能属性与交互模式上存在差异。时空事件的发生位置赋予了输入序列中不同元素截然不同的语义权重。例如,城市中心商业区与郊区居住区在出行模式、客流密度及时间分布上呈现出截然不同的规律,而位于交通枢纽的传感器节点往往比普通路段节点承载更为丰富的空间传播信息。然而,现有模型在表征聚合过程中往往缺乏对这种位置结构的显式感知,使得关键的空间位置信息在层层传递中被过度平滑\cite{DSTAGNN}。在大语言模型的位置编码机制下,这种非均匀性进一步体现为不同表示维度对空间位置信息的差异化编码能力。
|
||||
|
||||
\textbf{(3)多尺度动态模式。}
|
||||
城市运行过程通常同时包含稳定的周期性变化与随机扰动事件。例如,日常出行模式体现为相对平稳的时间周期结构(早晚高峰、周末效应),而突发事件(如交通事故、极端天气、大型活动)又会在短时间尺度内引发显著波动\cite{STWave}。从频谱分析的角度来看,低频分量对应全局趋势与周期结构,高频分量对应局部扰动与事件驱动变化。单一时间感受野的建模方式难以兼顾跨尺度的频谱特征,而深度网络在训练中普遍存在的频谱偏置——优先拟合低频分量、对高频细节学习缓慢——进一步加剧了这一问题。
|
||||
|
||||
\textbf{(4)多源差异与容量分配冲突。}
|
||||
跨模态的时空数据在信息密度与噪声分布上存在差异。例如,交通传感器提供的高频数值流与社交媒体地理标签提供的稀疏事件信号在数据特性上截然不同,而深度模型在参数容量分配上通常是静态的,无法根据数据源的异质性进行自适应调控。在多任务适配场景下,有限的可训练参数需要在不同任务间进行分配,如何确定哪些参数应当跨任务共享、哪些应当任务特有,成为影响适配效果的关键问题。
|
||||
|
||||
上述结构复杂性表明,试图用均匀的网络结构同等对待所有时空输入特征的做法,不可避免地会导致关键结构信号的淹没或模型容量的低效利用。
|
||||
% TODO: 补充中文文献。建议添加:朱庆、傅晓, 多模态时空大数据可视分析方法综述, 测绘学报 2017;或 自然资源时空大数据挖掘与知识服务研究进展, 地球信息科学学报 2025, DOI:10.12082/dqxxkx.2025.240625
|
||||
这一问题不仅是传统深度时空模型的瓶颈,也为后续将大语言模型引入时空建模后,设计结构感知的适配机制提供了直接动机。从第~\ref{sec:unified_framework}~节所建立的分析框架来看,上述四类结构复杂性分别对应了模块级($\mathcal{R}_{mod}$)、维度级($\mathcal{R}_{dim}$)、频谱级($\mathcal{R}_{spec}$)与参数级($\mathcal{R}_{param}$)四个层面的结构异质性。
|
||||
本章围绕大语言模型的架构基础、参数高效适配方法、多任务学习机制以及结构异质性感知建模四个方面,对相关领域的研究进展进行系统梳理。第~\ref{sec:rw_llm_arch}~节介绍 Transformer 架构、旋转位置编码、预训练范式以及模型内部功能分化的研究基础;第~\ref{sec:rw_peft}~节综述参数高效微调方法的主要类别及其均匀适配局限;第~\ref{sec:rw_multitask}~节梳理多任务学习与模块级功能适配的相关工作;第~\ref{sec:rw_structure_aware}~节回顾围绕维度级异质性、频谱结构与参数容量分配的结构感知适配研究。上述梳理为第~\ref{sec:unified_framework}~节提出的统一分析框架以及后续各章方法设计提供文献基础与问题定位。
|
||||
|
||||
|
||||
%======================================================================
|
||||
\section{基础模型与大语言模型表征机制研究}
|
||||
\label{sec:rw_foundation_model}
|
||||
\section{大语言模型架构基础与表示机制}
|
||||
\label{sec:rw_llm_arch}
|
||||
|
||||
近年来,以Transformer为代表的基础模型在自然语言处理与多模态学习领域取得了显著进展。其强大的表示能力与跨任务泛化性能为复杂系统建模提供了新的技术路径。本节从表示学习机制、预训练范式及复杂任务建模能力等方面,对基础模型与大语言模型的相关研究进行系统梳理,并探讨其在时空智能领域的初步应用与面临的适配挑战。
|
||||
本节从架构、位置编码、预训练范式与模型内部功能分化四个方面,介绍大语言模型的表示学习基础,为后续方法章节提供统一的技术背景。
|
||||
|
||||
\subsection{Transformer表示学习机制}
|
||||
\label{subsec:rw_transformer}
|
||||
%----------------------------------------------------------------------
|
||||
\subsection{Transformer 架构与核心计算流程}
|
||||
\label{subsec:rw_transformer_arch}
|
||||
|
||||
Transformer架构通过引入自注意力机制,摒弃了循环神经网络的序列递归计算范式,实现了对序列内部全局依赖关系的高效并行建模\cite{vaswani2017attention}。给定第$\ell$层的输入隐藏表示$\mathbf{H}^{(\ell-1)} \in \mathbb{R}^{T \times d}$,自注意力模块首先通过线性投影生成Query、Key和Value矩阵$\mathbf{Q}^{(\ell,h)}, \mathbf{K}^{(\ell,h)}, \mathbf{V}^{(\ell,h)}$(其中$h$为多头索引),随后通过缩放点积计算注意力权重,实现对上下文信息的加权聚合。
|
||||
Transformer 架构通过引入自注意力机制,实现了对序列内部全局依赖关系的并行建模,已成为当前大语言模型的基础架构\cite{vaswani2017attention}。现代大语言模型(如 LLaMA\cite{touvron2023llama}、Qwen\cite{bai2023qwen})普遍采用仅解码器(decoder-only)架构,由 $L$ 层 Transformer 块堆叠而成。每一层包含多头自注意力(Multi-Head Self-Attention, MHSA)模块与前馈网络(Feed-Forward Network, FFN)模块,并采用预归一化(Pre-LN)结构与残差连接。为保证自回归生成的因果性,模型引入下三角因果掩码(causal mask),使每个 token 仅能观测到其前驱上下文。
|
||||
|
||||
从模型内部的功能分工来看,近年来的机制可解释性研究揭示了Transformer架构中注意力模块与前馈网络之间存在系统性的角色分化。Geva等人的研究表明,前馈网络可被视为键值记忆存储结构,其参数矩阵中编码了训练语料中的知识模式\cite{geva2021transformer}。Dong等人进一步指出,注意力模块更侧重于执行上下文信息的检索与路由功能,而前馈网络则承担知识存储与模式匹配的作用\cite{dong2025attention}。此外,对多头注意力的分析表明,不同注意力头在功能上存在差异化分工,部分头侧重局部位置模式,部分头侧重全局语义依赖\cite{voita2019bottom,michel2019sixteen}。层级维度上,浅层表示更侧重局部模式建模,深层表示更倾向于捕获全局语义关系\cite{belinkov2018evaluating}。
|
||||
给定第 $\ell$ 层的输入隐藏表示 $\mathbf{H}^{(\ell-1)} \in \mathbb{R}^{T \times d}$(其中 $T$ 为序列长度,$d$ 为隐藏维度),该层的计算过程可概括为:
|
||||
\begin{equation}
|
||||
\bar{\mathbf{H}}^{(\ell)} = \mathrm{LayerNorm}(\mathbf{H}^{(\ell-1)}),
|
||||
\end{equation}
|
||||
\begin{equation}
|
||||
\mathbf{H}_{att}^{(\ell)} = \mathrm{MHSA}(\bar{\mathbf{H}}^{(\ell)}) + \mathbf{H}^{(\ell-1)},
|
||||
\end{equation}
|
||||
\begin{equation}
|
||||
\mathbf{H}^{(\ell)} = \mathrm{FFN}(\mathrm{LayerNorm}(\mathbf{H}_{att}^{(\ell)})) + \mathbf{H}_{att}^{(\ell)}.
|
||||
\end{equation}
|
||||
|
||||
在位置信息编码方面,旋转位置编码(RoPE)通过将绝对位置映射为复平面上的旋转角度,使模型在注意力计算中能够内在地感知相对位置偏移\cite{su2024roformer}。不同维度对被赋予不同频率的旋转角度,这一机制导致表示在维度空间中呈现出系统性的频率结构。ALiBi则采用注意力偏移方式引入位置信息\cite{press2021train}。这些位置编码机制不仅影响模型的长序列外推能力,更在表示空间中引入了与频率结构相关的非均匀特性——不同维度承担不同频率范围的信息编码功能。
|
||||
在多头自注意力模块中,输入表示经线性投影生成 Query、Key、Value 矩阵,并按注意力头数 $H$ 分割为 $d_h = d/H$ 维的子空间。第 $h$ 个注意力头的计算为:
|
||||
\begin{equation}
|
||||
\mathrm{Attention}^{(h)}(\mathbf{Q}^{(h)}, \mathbf{K}^{(h)}, \mathbf{V}^{(h)}) = \mathrm{softmax}\!\left(\frac{\mathbf{Q}^{(h)} \mathbf{K}^{(h)\top}}{\sqrt{d_h}}\right) \mathbf{V}^{(h)}.
|
||||
\label{eq:ch2_attention}
|
||||
\end{equation}
|
||||
各头输出拼接后经线性投影得到 MHSA 最终输出。现代大语言模型还广泛采用分组查询注意力(Grouped Query Attention, GQA)以在保持模型容量的同时降低推理开销\cite{ainslie2023gqa}。
|
||||
|
||||
从时空建模需求来看,Transformer的上述机制特征——模块功能分化、头与层的角色差异以及位置编码引入的维度级结构——构成了理解模型内部结构角色异质性的重要基础,也为后续设计结构感知的适配方法提供了机制层面的支撑。
|
||||
前馈网络模块通常采用门控线性单元(Gated Linear Unit)结构,以 SwiGLU 为典型代表:
|
||||
\begin{equation}
|
||||
\mathrm{FFN}(\mathbf{x}) = (\mathrm{SiLU}(\mathbf{x}\mathbf{W}_1) \odot \mathbf{x}\mathbf{W}_3) \mathbf{W}_2,
|
||||
\end{equation}
|
||||
其中 $\mathbf{W}_1, \mathbf{W}_2, \mathbf{W}_3$ 为可学习参数矩阵。FFN 在参数规模上通常占据 Transformer 块的三分之二以上,在模型表示能力中发挥重要作用。
|
||||
|
||||
从信息流动角度看,残差连接不仅缓解了深层网络的梯度消失问题,更重要的是将 Transformer 的前向计算转化为对中心残差流(residual stream)的迭代细化过程——每一层的 MHSA 与 FFN 都可以被理解为对残差流中隐藏状态的加性更新。层归一化则负责在每次更新前后对特征分布进行重整,确保表示空间的统计稳定性。因此,Transformer 的表示形成过程由注意力、前馈、残差与归一化等多个功能组件协同完成,而非单一均匀结构,这为后续从模块、维度与参数空间分析适配问题提供了结构基础。
|
||||
|
||||
\subsection{预训练基础模型与表示迁移学习}
|
||||
\label{subsec:rw_pretrain}
|
||||
\begin{figure}[htbp]
|
||||
\centering
|
||||
% 占位:待替换为外部绘制的 2_transformer_block.pdf
|
||||
% \includegraphics[width=0.75\textwidth]{assets/2_transformer_block.pdf}
|
||||
\caption{基于Pre-LN结构的Transformer解码器块示意图。该图展示单个Transformer层的完整计算流程:
|
||||
输入隐藏状态$\mathbf{H}^{(\ell-1)}$首先经LayerNorm归一化,进入多头自注意力(MHSA)模块,其中Query/Key经RoPE旋转后计算带因果掩码的缩放点积注意力,Value不经旋转直接参与加权聚合;MHSA输出经残差连接后再经LayerNorm,进入采用SwiGLU结构的前馈网络(FFN)模块,最终经残差连接输出$\mathbf{H}^{(\ell)}$。
|
||||
图中应标注以下结构异质性关注点:(1)MHSA与FFN之间的功能分工(上下文路由 vs 知识存储)标注为$\mathcal{R}_{mod}$;(2)MHSA内部不同维度对的RoPE频率差异标注为$\mathcal{R}_{dim}$;(3)权重矩阵$\mathbf{W}$上的参数更新结构标注为$\mathcal{R}_{spec}$/$\mathcal{R}_{param}$。}
|
||||
\label{fig:ch2_transformer_block}
|
||||
\end{figure}
|
||||
|
||||
% 注:需补充到ref.bib: devlin2019bert (Devlin et al., BERT, NAACL 2019)
|
||||
预训练—微调范式是基础模型取得成功的重要技术路径。通过在大规模通用数据上进行自监督学习,模型能够构建具有较强表达能力的通用表示空间。BERT通过掩码语言建模构建双向语境表示\cite{},% 注:需补充到ref.bib: devlin2019bert (Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, NAACL 2019)
|
||||
GPT系列模型则通过自回归预训练获取生成式语言建模能力\cite{brown2020language}。这种大规模预训练策略使模型能够在下游任务中实现高效迁移,降低了任务特定模型设计的复杂度\cite{bommasani2021opportunities}。
|
||||
%----------------------------------------------------------------------
|
||||
\subsection{旋转位置编码与位置信息建模}
|
||||
\label{subsec:rw_rope}
|
||||
|
||||
随着这一范式的成功向其他数据模态扩展,时间序列与时空领域亦开始探索基础模型的构建路径。时间序列基础模型试图通过在海量时序数据上进行预训练,学习跨数据集可共享的通用时序表示\cite{hu2023llm}。% 注:需补充到ref.bib: liang2024foundation (Liang et al., Foundation Models for Time Series Analysis, KDD Tutorial 2024)
|
||||
% 注:需补充到ref.bib: ansari2024chronos (Ansari et al., Chronos, arXiv 2024)
|
||||
从技术路线来看,时序基础模型可分为两类:一类是从零开始在大规模时序数据上训练的专用模型,通过掩码重构或对比学习等自监督策略提取通用时序分布特征;另一类则是将已有的大语言模型"重编程"为时序预测器,通过输入对齐或嵌入映射使语言模型的表示空间适应数值时序数据。前者在领域适应性方面具有优势,后者则利用了语言模型已有的推理能力与世界知识。
|
||||
自注意力机制本身具有置换不变性,不编码任何序列顺序信息,因此需要外部机制将位置信息注入注意力计算。早期工作采用绝对位置嵌入或基于正弦函数的固定编码\cite{vaswani2017attention},但这些方法在长序列外推方面存在局限。旋转位置编码(Rotary Position Embedding, RoPE)通过对 Query 和 Key 向量施加位置相关的旋转变换来编码相对位置关系,已被 LLaMA、Qwen、Mistral 等主流大语言模型广泛采用\cite{su2024roformer}。
|
||||
|
||||
在时空领域,UniST等工作尝试构建统一的时空预训练框架,通过掩码预训练策略在多种城市数据集上学习通用时空表示\cite{UniST};FlashST通过提示学习机制实现跨数据集的快速适配\cite{FlashST}。这些工作标志着时空基础模型的研究正在从"任务特定建模"向"通用表示构建"的方向发展。
|
||||
具体而言,RoPE 将每个注意力头向量 $\mathbf{z} \in \mathbb{R}^{d_h}$($d_h$ 为偶数)的维度两两配对,将每对 $(z_{2i}, z_{2i+1})$ 视为复数分量,施加依赖于位置 $t$ 和维度索引 $i$ 的二维旋转:
|
||||
\begin{equation}
|
||||
\mathrm{RoPE}(z_{2i}, z_{2i+1}; t) =
|
||||
\begin{bmatrix}
|
||||
\cos \theta_i t & -\sin \theta_i t \\
|
||||
\sin \theta_i t & \cos \theta_i t
|
||||
\end{bmatrix}
|
||||
\begin{bmatrix}
|
||||
z_{2i} \\
|
||||
z_{2i+1}
|
||||
\end{bmatrix},
|
||||
\label{eq:ch2_rope}
|
||||
\end{equation}
|
||||
其中旋转频率 $\theta_i = \omega^{-2i/d_h}$,$\omega$ 为基础频率常数(通常取 $10000$,在支持长文本的模型中可扩展至更大值)。该设计使不同维度对的旋转频率按几何级数递减:低索引维度对对应高频旋转,编码局部位置差异;高索引维度对对应低频旋转,编码全局上下文依赖。
|
||||
|
||||
然而,预训练迁移学习的核心假设——存在跨任务可共享的中间表征——在时空任务中面临特殊挑战。一方面,时空数据的结构性输入(坐标、拓扑关系、多模态属性等)与通用语料存在显著差异,简单的格式对齐难以保证结构信息的有效传递;另一方面,时空任务在评测目标上从数值预测扩展到推理一致性与决策可执行性,使得"迁移什么、如何迁移"成为需要重新审视的问题。因此,时空场景下的表示迁移不仅需要参数层面的适配,更需要考虑模型内部表示结构与时空数据结构特征之间的协调。
|
||||
RoPE 最显著的特性在于其呈现出一种频率分解结构(frequency decomposition structure)。经旋转后两个位置 $t_1$ 与 $t_2$ 之间的注意力得分仅依赖于它们的相对位置差 $t_1 - t_2$,且不同维度对在注意力得分中的贡献随相对距离呈现截然不同的衰减模式:低频维度对即使在较长距离上仍能维持较高的注意力得分,而高频维度对的注意力随距离迅速衰减\cite{barbero2024round}。近年的进一步分析还从频谱视角指出,RoPE 的位置—内容耦合实质上对应一种相位调制过程,使其不仅是"给序列加位置",而是在表示空间中塑造了具有频率结构的几何变换。这种多尺度的位置响应特性使同一表示向量中不同维度对在位置信息编码中承担不同功能角色,构成了维度级位置结构异质性的直接来源。
|
||||
|
||||
除 RoPE 之外,ALiBi\cite{press2021train} 通过在注意力分数上施加线性距离偏移实现位置建模,不直接修改表示向量,在长度外推方面具有特定优势。可学习绝对位置嵌入则依赖训练长度范围内的位置索引,通常在外推性上不如相对位置方法。由于 RoPE 在当前主流大语言模型中的广泛应用及其对模型内部表示结构的深刻影响,本文后续第四、五章的方法均以 RoPE 机制为基础展开设计。
|
||||
|
||||
\subsection{大语言模型在复杂任务建模中的潜力}
|
||||
\label{subsec:rw_llm_potential}
|
||||
\begin{figure}[htbp]
|
||||
\centering
|
||||
% 占位:待替换为外部绘制的 2_rope_frequency.pdf
|
||||
% \includegraphics[width=0.85\textwidth]{assets/2_rope_frequency.pdf}
|
||||
\caption{RoPE旋转位置编码的频率分解结构示意图。该图分为三个子图:
|
||||
\textbf{(a)维度对旋转频率}:横轴为维度对索引$i$,纵轴为旋转频率$\theta_i = \omega^{-2i/d_h}$(对数刻度),展示频率随维度索引几何递减的趋势,标注低索引=高频(局部位置敏感)与高索引=低频(全局依赖)两个区域。
|
||||
\textbf{(b)位置响应衰减曲线}:横轴为相对位置距离$|t_1 - t_2|$,纵轴为注意力得分贡献,绘制3--4条代表性维度对的衰减曲线(高频对快速衰减、低频对缓慢衰减),直观展示不同维度对的多尺度位置感知特性。
|
||||
\textbf{(c)维度对旋转示意}:选取一个高频维度对和一个低频维度对,在复平面上展示位置$t$从$0$到$T$时向量旋转轨迹的差异——高频对旋转多圈、低频对仅旋转小角度。}
|
||||
\label{fig:ch2_rope_frequency}
|
||||
\end{figure}
|
||||
|
||||
随着模型规模与训练数据量的持续扩大,大语言模型在复杂任务环境中展现出显著能力。GPT-4\cite{achiam2023gpt}、LLaMA系列\cite{touvron2023llama,dubey2024llama}以及Qwen系列\cite{bai2023qwen,team2024qwen2}等模型不仅在语言理解与生成任务中表现出色,还在多步推理、上下文学习以及跨任务知识迁移方面展现出良好潜力。
|
||||
%----------------------------------------------------------------------
|
||||
\subsection{预训练范式与大语言模型的表示能力}
|
||||
\label{subsec:rw_pretrain_paradigm}
|
||||
|
||||
对于时空智能领域而言,大语言模型的潜在价值可从三个维度加以分析。\textbf{第一},地理知识可提取性。研究表明,大语言模型在其参数空间中隐式编码了关于空间位置、区域属性及地理关系的知识\cite{feng2024citygpt}。% 注:需补充到ref.bib: manvi2024geollm (Manvi et al., GeoLLM: Extracting Geospatial Knowledge from Large Language Models, ICLR 2024)
|
||||
% TODO: 建议补充 Gurnee & Tegmark, Language Models Represent Space and Time, arXiv:2310.02207, 2023 —— 该工作实证表明LLM内部自发形成了空间与时间的线性表征结构,是LLM空间认知能力的重要实证支撑
|
||||
通过适当的提示策略或微调,可以从模型中提取地理相关的语义信息。\textbf{第二},长程依赖建模与推理能力。大语言模型在处理长上下文序列时所表现出的能力,使其在刻画跨区域关联与跨时间尺度动态关系方面具有潜在优势。\textbf{第三},工具调用与工作流执行能力。结合代码生成与工具调用机制,大语言模型可用于构建面向空间分析任务的自动化工作流\cite{}。% 注:需补充到ref.bib: zhang2025geoanalystbench (Zhang et al., GeoAnalystBench: A GeoAI Benchmark for Assessing LLMs for Spatial Analysis Workflow and Code Generation, arXiv:2509.05881)
|
||||
现代大语言模型遵循"海量预训练—任务适配/对齐"的基本范式。通过在包含数万亿词元的大规模语料上进行自回归下一词预测训练,模型在统一的参数体系中构建具有较强表达能力的通用表示空间。BERT 通过掩码语言建模构建双向语境表示\cite{devlin2019bert};% 注:需补充到ref.bib: devlin2019bert (Devlin et al., BERT, NAACL 2019)
|
||||
GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-context learning 能力\cite{brown2020language}。随着模型规模的持续扩展,以 LLaMA\cite{touvron2023llama}、Qwen\cite{bai2023qwen} 和 Gemma\cite{gemma_2025} 为代表的开源大语言模型在语言理解、知识表达、多步推理与代码生成方面展现出显著能力。
|
||||
|
||||
然而,大语言模型的上述潜力并不等同于对时空任务的有效建模能力。模型原本为处理一维离散语言符号设计,当面对具有强时空周期性、复杂图拓扑以及跨尺度波动的多任务时空数据时,简单地将时空信息转化为文本序列进行处理,难以保证结构信息的准确传递与利用。因此,如何在保持预训练知识的基础上,使模型内部表示与时空数据的结构特征相协调,成为将大语言模型有效引入时空建模的关键问题。
|
||||
大规模预训练使模型在表示空间中形成了高度抽象的通用知识结构,各层中间表示不仅捕获了浅层的词法与句法信息,还蕴含了深层的语义共现、常识推理乃至高阶逻辑关系\cite{bommasani2021opportunities}。然而,预训练能力强并不意味着可以直接替代任务适配:预训练目标与下游任务目标并不完全一致,面向特定领域、特定格式或特定推理模式的能力往往需要通过监督信号或偏好信号进行再组织;更重要的是,当模型规模达到百亿级别时,全参数微调不仅面临极高的计算与存储开销,还极易破坏预训练阶段积累的通用知识结构,导致灾难性遗忘(catastrophic forgetting)与表征退化。
|
||||
|
||||
因此,预训练模型提供的是强大的通用表示底座,而非自动完成任务特化的终点。真正决定这些预训练能力能否被有效调用的,仍然是适配机制如何作用于模型内部表示与参数结构。如何以极低的参数预算在保持通用知识的前提下实现高效任务特化,成为当前研究的核心课题。
|
||||
|
||||
\subsection{大模型在时空智能领域的初步探索}
|
||||
\label{subsec:rw_llm_st}
|
||||
%----------------------------------------------------------------------
|
||||
\subsection{模型内部的功能分化与结构异质性}
|
||||
\label{subsec:rw_functional_differentiation}
|
||||
|
||||
近年来,学术界已开始积极探索将大语言模型应用于城市计算与时空智能任务。从适配策略来看,现有工作可从以下几个方面加以归纳。
|
||||
越来越多的研究表明,Transformer 并非功能均匀的整体,其内部不同组件在信息处理中承担着差异化的角色。这些发现构成了理解模型结构异质性的重要基础。
|
||||
|
||||
在\textbf{特征对齐与表示增强}方面,UrbanGPT将轻量级时空依赖编码器与大语言模型的指令微调范式相结合,通过构建时空指令集实现零样本跨城市预测\cite{}。% 注:需补充到ref.bib: li2024urbangpt (Li et al., UrbanGPT, KDD 2024)
|
||||
该工作通过将时空编码器的输出对齐到语言模型的嵌入空间,使模型能够在不同城市与不同任务之间进行知识迁移。CityGPT将城市空间信息嵌入语言模型的认知框架中,增强模型对城市功能区的理解能力\cite{feng2024citygpt}。BigCity通过统一数据格式与提示设计,将多种时空任务纳入单一模型进行联合处理\cite{yu2025bigcity}。VecCity则从城市实体表示学习的角度出发,为不同粒度的空间单元构建统一的向量表示\cite{zhang2024veccity}。
|
||||
\textbf{模块间的功能分化。}Geva 等人的开创性工作将前馈网络的两层线性映射解构为键值记忆结构:第一层权重(keys)负责识别输入残差流中的局部概念模式,第二层权重(values)则负责提取并注入与该模式相关的特征\cite{geva2021transformer}。Dong 等人从注意力与前馈网络的协同角度出发,揭示了二者在上下文信息路由与知识存储方面的互补关系\cite{dong2025attention}。Bogoychev 等人的参数冻结与消融实验进一步证实,冻结不同网络结构单元(嵌入层、注意力层或 FFN 层)会对模型性能造成完全不同程度的影响,从侧面说明"并非所有参数对任务贡献均等"\cite{}。% 注:需补充到ref.bib: bogoychev2021not (Bogoychev, Not All Parameters Are Born Equal: Attention Is Mostly What You Need, BlackboxNLP 2021)
|
||||
这些发现表明,自注意力模块主要承担上下文关系的动态组织与信息路由功能,而前馈网络更多承担参数化知识表达与非线性映射功能。
|
||||
|
||||
在\textbf{提示工程与跨域适配}方面,部分研究尝试通过文本提示的设计将时空信息转化为语言模型可处理的格式。例如,STLLM等工作将时空图网络提取的结构特征转化为模型可处理的嵌入表示\cite{STLLM}。在轨迹与移动性建模方面,PLMTrajRec利用预训练语言模型的序列建模能力进行轨迹恢复\cite{PLMTrajRec};POI-Enhancer等工作则探索将大语言模型的语义能力用于增强兴趣点表示学习\cite{cheng2025poi}。这些工作在不同程度上验证了语言模型所蕴含的世界知识对时空任务的潜在支撑作用。
|
||||
\textbf{层间的角色梯度。}Belinkov 等人通过探针(probing)实验表明,浅层表示更多编码词汇与句法层面的局部信息,深层表示则更多反映语义与推理层面的全局关系,呈现出类似传统 NLP 流水线的层级进展\cite{belinkov2018evaluating}。这种层级功能梯度意味着不同深度的层对参数更新的需求强度与方式可能存在系统性差异——浅层可能更多需要局部模式的校准,深层可能更多需要语义关系的重组。
|
||||
|
||||
在\textbf{评测与基准构建}方面,CityBench通过覆盖多城市、多任务的评测框架,系统评估大语言模型在城市任务中的能力边界\cite{CityBench}。USTBench将时空推理能力分解为理解、预测、规划与反思四个维度进行细粒度评估\cite{USTBench}。STBench则侧重于空间与时间信息的联合理解能力测试\cite{STBench}。这些评测工作揭示出当前大语言模型在空间拓扑推理与时间周期性建模方面仍存在明显不足。
|
||||
\textbf{头间的功能差异。}在多头注意力层面,Voita 等人发现不同注意力头在功能上存在明确分工,包括位置敏感头、语法关系头与稀有词汇头等不同类型\cite{voita2019bottom};Michel 等人的剪枝实验进一步表明,大量注意力头在推理阶段可被移除而不显著影响模型性能,暗示头之间存在功能冗余与角色差异\cite{michel2019sixteen}。在更深入的机制可解释性(mechanistic interpretability)研究中,Olsson 等人识别出与 in-context learning 能力增长密切相关的 induction heads,表明部分注意力头可被归纳为具有明确算法功能的"电路"(circuits)组件\cite{}。% 注:需补充到ref.bib: olsson2022context (Olsson et al., In-context Learning and Induction Heads, Anthropic 2022)
|
||||
这些发现强化了"模型内部存在可分解子结构与角色分工"的认识。
|
||||
|
||||
上述工作的一个共同特征值得关注:无论是特征对齐、提示工程还是指令微调,现有方法在将时空信息输入大语言模型时,主要关注输入端的格式转换与表示对齐,而较少涉及模型内部表示结构在处理时空信息时的功能组织方式。具体而言,注意力模块与前馈网络在时空推理中是否承担不同角色、不同维度是否对空间位置与时间周期信息具有差异化的敏感性、参数更新在不同频谱成分上是否需要差异化策略——这些问题在现有文献中尚未得到系统研究。这一观察表明,从模型内部结构出发设计适配机制,构成了将大语言模型有效应用于时空建模的重要研究空间。
|
||||
\textbf{维度间的非均匀分布。}Jin 等人发现的"极端激活值"(Massive Activations)现象表明,少数特定维度在模型前向计算中产生远超其他维度的激活幅值,且这些维度承担着上下文信息编码的关键功能\cite{jin2025massive}。这些极端激活并非简单的数值异常,而是与注意力集中、量化稳定性乃至预测行为存在因果关联。结合第~\ref{subsec:rw_rope}~节所述 RoPE 位置编码引入的频率结构,模型表示在维度空间中呈现出系统性的结构分化。
|
||||
|
||||
\textbf{参数更新的频谱结构。}从训练动态角度看,深度网络在训练过程中存在频谱偏置(spectral bias),即优先拟合低频分量,对高频细节的学习相对缓慢\cite{rahaman2019spectral}。% 注:需补充到ref.bib: rahaman2019spectral (Rahaman et al., On the Spectral Bias of Neural Networks, ICML 2019)
|
||||
这意味着权重更新矩阵在频域中具有非均匀的能量分布,不同频率分量承载着不同尺度的适配信息。
|
||||
|
||||
上述发现从模块、层、头、维度与参数更新等多个角度揭示了大语言模型内部的结构复杂性。这些实证证据表明,模型自身并非均匀结构,因此下游适配也不宜默认所有结构位置具有近似一致的更新价值,而应考虑不同结构角色的差异化作用。这一认识为第~\ref{sec:unified_framework}~节构建的结构感知适配统一分析框架提供了实证依据。
|
||||
|
||||
|
||||
%======================================================================
|
||||
\section{参数高效适配与结构建模方法研究}
|
||||
\section{参数高效微调方法}
|
||||
\label{sec:rw_peft}
|
||||
|
||||
基于第~\ref{sec:rw_st_modeling}~节的分析,城市时空数据具有多层级的结构异质性特征;而大语言模型在设计上通常假设输入信息具有相对均匀的结构,其适配方法亦多采用形式一致的更新策略。数据端的"结构异质"与模型端的"均匀适配"之间存在的张力,构成了将大语言模型有效应用于复杂时空任务的核心挑战。本节围绕参数高效微调方法、多任务学习机制、表示结构分析、多尺度频谱建模以及模型结构优化等方面,对相关研究进展进行系统梳理。
|
||||
随着大语言模型参数规模的持续增长,全参数微调所带来的计算与存储开销逐渐成为制约模型应用的瓶颈。参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法通过引入少量可训练参数 $\Theta_a$,在保持预训练参数 $\Theta_0$ 基本不变的前提下实现任务特定适配,使适配后模型参数可表示为 $\Theta = \Theta_0 + \Delta\Theta(\Theta_a)$\cite{ding2023parameter,han2024parameter}。根据参数化方式的不同,现有 PEFT 方法大致可划分为低秩适配、附加式与提示类适配、选择式与稀疏微调三类。
|
||||
|
||||
\subsection{参数高效微调方法}
|
||||
\label{subsec:rw_peft_methods}
|
||||
%----------------------------------------------------------------------
|
||||
\subsection{低秩适配方法}
|
||||
\label{subsec:rw_lora_family}
|
||||
|
||||
当模型参数规模从数亿膨胀至千亿级别时,全参数微调在计算成本与存储开销方面变得不可接受,且在数据量有限时容易引发灾难性遗忘\cite{ding2023parameter}。参数高效微调(PEFT)方法的核心思想是:冻结预训练主干网络参数$\Theta_0$,仅引入少量可训练参数$\Theta_a$,使得最终模型参数可表示为$\Theta = \Theta_0 + \Delta\Theta$\cite{lialin2023scaling,han2024parameter}。
|
||||
低秩适配方法基于"权重更新矩阵具有低内在维度(intrinsic dimension)"的假设:尽管预训练模型的整体参数空间极其庞大,但模型在适应特定下游任务时,所需权重的实际更新往往位于一个低维流形之上。LoRA 在此基础上将目标权重矩阵 $\mathbf{W}_0 \in \mathbb{R}^{d_{out} \times d_{in}}$ 的更新分解为两个低秩矩阵的乘积\cite{hu2021lora}:
|
||||
\begin{equation}
|
||||
\Delta\mathbf{W} = \mathbf{B}\mathbf{A}, \quad \mathbf{A} \in \mathbb{R}^{r \times d_{in}},\, \mathbf{B} \in \mathbb{R}^{d_{out} \times r},\, r \ll \min(d_{in}, d_{out}),
|
||||
\label{eq:ch2_lora}
|
||||
\end{equation}
|
||||
其中 $\mathbf{A}$ 采用随机高斯初始化,$\mathbf{B}$ 采用零初始化以保证训练起始时不改变预训练行为。在推理阶段,低秩增量可以直接被重新参数化合并回原始权重矩阵,不引入任何额外推理延迟。
|
||||
|
||||
目前主流的PEFT方法可划分为以下几类。\textbf{(1)附加式方法}:Adapter通过在Transformer层间插入小型瓶颈网络进行表示调整\cite{houlsby2019parameter};前缀调制通过在输入序列前追加可学习的连续向量引导模型生成\cite{li2021prefix};提示调制则通过嵌入层面的可训练向量激活模型能力\cite{lester2021power}。这些方法保持主干权重不变,通过附加结构引入任务信息。\textbf{(2)选择式方法}:BitFit仅更新网络中的偏置项参数\cite{zaken2021bitfit};LISA则根据层重要性进行选择性更新\cite{pan2024lisa}。\textbf{(3)低秩分解方法}:LoRA基于权重更新矩阵具有低内在秩的假设,将$\Delta\mathbf{W}$分解为两个低秩矩阵的乘积$\Delta\mathbf{W} = \mathbf{B}\mathbf{A}$(其中$\mathbf{A} \in \mathbb{R}^{r \times d_{in}}, \mathbf{B} \in \mathbb{R}^{d_{out} \times r}, r \ll \min(d_{in}, d_{out})$),从而成百倍地减少可训练参数规模\cite{hu2021lora}。DoRA进一步将权重更新分解为方向与幅度两个分量\cite{liu2024dora};AdaLoRA通过重要性评估实现动态秩分配\cite{zhang2023adalora};VeRA利用共享随机矩阵进一步压缩参数开销\cite{kopiczko2023vera}。
|
||||
在 LoRA 基础上,后续工作沿多个方向展开改进。在参数化与训练特性改进方面,DoRA 将权重更新进一步分解为方向(direction)与幅度(magnitude)两个分量,分别进行优化,以更好地模拟全参数微调的学习行为\cite{liu2024dora}。在预算分配方面,AdaLoRA 引入基于奇异值分解的重要性评估机制,在训练过程中动态分配各权重矩阵的秩,使模型自动为重要层级分配更高秩预算\cite{zhang2023adalora}。在参数规模进一步压缩方面,VeRA 通过在不同模块间共享冻结的随机矩阵,仅学习逐层的缩放向量,将微调参数量压缩至极致\cite{kopiczko2023vera};QLoRA 则通过4-bit量化底座权重并在其上训练 LoRA,使大模型在更低显存条件下可被高质量微调\cite{}。% 注:需补充到ref.bib: dettmers2023qlora (Dettmers et al., QLoRA, NeurIPS 2023)
|
||||
|
||||
然而,从时空建模需求出发审视上述方法,可以发现一个共性局限:这些方法多对模型的不同层或投影矩阵施加形式一致的适配操作,隐含假设模型内部各组成部分在适配中的角色近似。以LoRA为例,其标准实践通常在所有选定层的Query与Value投影矩阵上插入相同秩的低秩分解,不区分不同层在特征建模中的功能贡献。然而,已有研究表明模型浅层与深层在信息处理中承担不同角色\cite{belinkov2018evaluating}——浅层侧重局部模式提取,深层侧重全局语义整合——因而对适配的需求强度与方式可能存在差异。类似地,注意力投影矩阵与前馈网络权重在知识存储与信息路由方面的功能分工\cite{geva2021transformer,dong2025attention},也意味着对二者施加相同形式的更新策略未必是最优选择。
|
||||
低秩适配方法在参数效率方面表现优异,已成为当前最广泛使用的 PEFT 技术路径。然而,其标准实践通常在所有目标层的投影矩阵上施加相同秩约束,隐含假设模型不同层与不同模块在适配中的角色近似。即使 AdaLoRA 开始引入预算再分配,其建模对象也主要是矩阵重要性,而非更一般的结构角色异质性。因此,低秩适配在成本控制上极具优势,却仍保留了相对均匀的适配假设。
|
||||
|
||||
进一步地,在多任务场景下,这种均匀性假设的局限更加突出。不同任务对模型不同部分的更新需求可能指向不同方向,如果适配机制无法区分这些差异,则难以在有限参数预算下同时满足多个任务的需求。Compacter\cite{karimi2021compacter}、UniAdapter\cite{lu2023uniadapter}等工作已从参数共享与分解的角度对上述问题进行了初步探索,但尚未从时空数据的结构特征出发建立系统性的设计准则。
|
||||
%----------------------------------------------------------------------
|
||||
\subsection{附加式与提示类适配方法}
|
||||
\label{subsec:rw_additive_prompt}
|
||||
|
||||
附加式方法通过在模型内部插入轻量结构引入任务信息,而不修改原有权重。Adapter 在 Transformer 层间插入小型瓶颈网络,通过降维—非线性激活—升维结构实现表示调整\cite{houlsby2019parameter}。这种设计有效地阻断了误差梯度向预训练底座的传导,在多任务环境中按任务维护独立参数块。Compacter 进一步采用超复数乘法实现跨层参数共享,在降低参数量的同时保持表达能力\cite{karimi2021compacter}。
|
||||
|
||||
\subsection{多任务学习与知识路由机制}
|
||||
\label{subsec:rw_multitask}
|
||||
提示类方法则通过在输入或中间表示层引入额外可学习信号,引导模型调用已有知识结构。前缀微调(Prefix-tuning)在每层注意力计算的 Key 和 Value 前追加可学习的连续向量,使其充当"虚拟历史上下文",从而隐式地调制模型对后续序列的注意力分布\cite{li2021prefix};提示微调(Prompt-tuning)在嵌入层面引入可训练软提示向量\cite{lester2021power};P-Tuning v2 将可学习提示扩展到多层并系统改进优化策略,使提示类方法在更广泛的模型规模与任务类型上接近全参数微调效果\cite{}。% 注:需补充到ref.bib: liu2022ptuningv2 (Liu et al., P-Tuning v2, ACL 2022)
|
||||
|
||||
% 注:需补充到ref.bib: caruana1997multitask (Caruana, Multitask Learning, Machine Learning 1997)
|
||||
城市系统天然是一个多任务并行环境,不同时空任务之间既存在共享的底层物理规律,又存在互相冲突的特征需求。多任务学习通过在统一模型中同时优化多个相关目标,试图利用任务间的知识共享提升整体建模性能\cite{}。% 注:需补充到ref.bib: caruana1997multitask (Caruana, Multitask Learning, Machine Learning 1997)
|
||||
然而,多任务学习面临的核心困难在于梯度冲突与负迁移:不同任务的梯度在共享参数空间中可能指向相互对立的方向。PCGrad通过梯度投影缓解任务间冲突\cite{yu2020gradient};CAGrad则从最坏情况优化角度设计多任务梯度聚合策略\cite{liu2021conflict}。
|
||||
% TODO: 建议补充 PLE (Progressive Layered Extraction, Tang et al., RecSys 2020) —— 工业界多任务学习的代表性工作,提出渐进式分层提取机制缓解跨任务干扰
|
||||
此外,激活调制类方法提供了另一种视角。(IA)$^3$ 通过训练少量缩放向量对注意力与 FFN 内部的关键激活进行抑制或放大,以极低参数量实现多任务适配\cite{liu2022few}。这类方法在形式上已更接近"对表示流进行乘性调制"的思想,为后续结构角色驱动的调制式框架提供了研究线索。
|
||||
|
||||
在模型结构层面,混合专家模型(MoE)通过将前馈网络替换为多个并行专家子网络,并利用门控路由机制动态选择激活专家,实现了模块级的功能分化\cite{shazeer2017outrageously}。Switch Transformer通过简化路由策略将这一机制扩展到大规模模型\cite{fedus2022switch};DeepSeek-MoE等工作进一步优化了专家粒度与路由策略\cite{dai2024deepseekmoe,guo2025deepseek}。在参数高效适配框架下,MoE思想被引入LoRA结构,形成了MoELoRA\cite{liu2023moelora,luo2024moelora}与LoRAMoE\cite{dou2024loramoe}等方法,通过多组低秩适配模块与动态路由实现对多任务差异性的适应。
|
||||
无论是附加式模块、提示类方法还是激活调制,尽管在参数效率与任务适配上各有优势,但多数方法仍主要围绕统一插入位置或统一提示空间展开,对内部结构差异的显式建模较弱。
|
||||
|
||||
从时空建模需求来看,多任务城市系统中的功能异质性——不同模块对不同任务的功能贡献存在系统性差异——构成了模块级结构角色异质性($\mathcal{R}_{mod}$)的数据驱动来源。上述方法揭示了"动态路由"与"模块功能分化"在应对多任务异质性方面的有效性,但现有方法多从独立的路由策略出发进行设计,缺乏与时空数据结构特征的系统关联。
|
||||
%----------------------------------------------------------------------
|
||||
\subsection{选择式与稀疏微调方法}
|
||||
\label{subsec:rw_selective_sparse}
|
||||
|
||||
相较于向模型注入新参数,选择式与稀疏微调方法遵循更直接的原则:在原有参数中寻找并仅更新对下游任务最敏感的参数子集。这类方法开始触及模型内部容量分配的本质。
|
||||
|
||||
\subsection{表示各向异性与结构感知学习}
|
||||
\label{subsec:rw_anisotropy}
|
||||
选择式方法通过限定可更新参数的范围实现参数高效适配。BitFit 仅更新网络中的偏置项参数,证明在大模型中仅解除偏置冻结就能在诸多任务上达到竞争性能\cite{zaken2021bitfit}。LISA 根据层间权重范数的偏斜分布,在不同训练迭代中选择性地解除部分层的冻结状态,表明并非所有层都需要持续参与更新\cite{pan2024lisa}。
|
||||
|
||||
% 注:需补充到ref.bib: godey2024anisotropy (Godey et al., Anisotropy Is Inherent to Self-Attention, EACL 2024)
|
||||
随着对深度模型内部表示机制认识的深入,研究者发现基于Transformer的大语言模型普遍存在表示各向异性(Anisotropy)现象——模型隐藏层的激活值分布呈现显著的非均匀性,少数维度占据压倒性的方差比例,而大部分维度处于低方差状态\cite{jin2025massive}。进一步的研究表明,这种各向异性并非训练过程中的偶发伪影,而是自注意力机制的内生特性\cite{}。% 注:需补充到ref.bib: godey2024anisotropy (Godey et al., Anisotropy Is Inherent to Self-Attention in Transformers, EACL 2024)
|
||||
稀疏微调方法从更细粒度出发,在训练过程中学习参数更新的稀疏结构。运动剪枝(Movement Pruning)利用权重变化趋势而非静态幅值来决定参数保留方向——相较于传统按权重绝对值排序的幅度剪枝(magnitude pruning),运动剪枝更适应微调动力学,在迁移学习场景中表现更优\cite{sanh2020movement}。SHiRA 提出以高秩稀疏更新替代低秩稠密更新,指出在相同参数预算下,稀疏更新模式可能比低秩假设更好地匹配权重更新的真实结构\cite{shiracite}。稀疏缩放微调进一步将稀疏性与缩放策略相结合,实现面向特定任务的结构化稀疏\cite{ansell2024scaling}。
|
||||
|
||||
在位置编码层面,RoPE的频率结构为表示空间引入了额外的维度级异质性。不同维度对被赋予不同频率的旋转角度:低频维度旋转缓慢,其激活模式受位置变化的扰动较小,倾向于编码全局语义与长程依赖关系;高频维度旋转迅速,对位置偏移高度敏感,更适于刻画局部结构细节\cite{su2024roformer,barbero2024round}。Barbero等人的系统分析进一步揭示,RoPE对不同维度的影响呈现出明确的层次结构:在注意力计算中,低频维度对对应的键值对在长距离上仍保持较高的注意力得分,而高频维度的注意力则迅速随距离衰减\cite{barbero2024round}。这种由位置编码诱导的维度级功能分化,使得同一表示向量中的不同分量在信息编码功能上存在质的差异。
|
||||
选择式与稀疏微调方法已经明显触及"哪些参数值得更新"的问题,但多数方法仍将选择依据建立在局部重要性评分或简单统计指标之上,对更高层次的结构角色、跨任务共享关系以及全局预算如何在共享与专用子空间间联合分配,尚缺乏系统化刻画。
|
||||
|
||||
与此相关的另一个重要发现是,大语言模型中普遍存在"极端激活值"(Massive Activations)现象\cite{jin2025massive}。少数特定维度在模型前向计算过程中产生远超其他维度的激活幅值,这些维度在表示空间中占据主导地位。研究表明,这些极端激活维度并非简单的数值异常,而是承担着上下文信息编码的关键功能。在多头注意力结构中,不同头在激活分布上亦呈现出系统性差异,部分头表现出更为集中的激活模式,部分头则呈现更均匀的分布特征\cite{voita2019bottom}。
|
||||
%----------------------------------------------------------------------
|
||||
\subsection{现有方法的均匀适配假设与局限}
|
||||
\label{subsec:rw_uniform_limitation}
|
||||
|
||||
从时空适配的角度来看,上述发现具有重要启示。当时空任务要求模型准确处理空间相对位置关系与时间周期结构时,不同维度在建模中的功能贡献并非均匀的。如果适配过程不加区分地统一更新所有维度,可能导致重要低频结构的破坏或高频噪声的放大。这一认识为维度级结构异质性($\mathcal{R}_{dim}$)的适配提供了机制层面的动机。
|
||||
综合上述三类方法,可以从适配机制、结构假设以及与后续章节的衔接关系等维度对现有适配方法进行系统比较,如表~\ref{tab:ch2_method_comparison}~所示。
|
||||
|
||||
|
||||
\subsection{多尺度学习与频谱建模方法}
|
||||
\label{subsec:rw_spectral}
|
||||
|
||||
% 注:需补充到ref.bib: zhou2022fedformer (Zhou et al., FEDformer, ICML 2022)
|
||||
城市时空数据的另一个核心结构特征是其动态模式的多尺度属性。全局趋势、周期性模式与局部突变分别对应信号的不同频率成分,这要求建模方法能够同时刻画多个尺度上的时空变化规律。
|
||||
|
||||
在时序预测领域,Autoformer引入的序列分解思想将信号分离为趋势与季节性分量\cite{};% 注:需补充到ref.bib: wu2021autoformer (Wu et al., Autoformer, NeurIPS 2021)
|
||||
FEDformer进一步将傅里叶变换与小波变换引入Transformer结构,通过频域稀疏表示实现多尺度特征的高效建模\cite{}。% 注:需补充到ref.bib: zhou2022fedformer (Zhou et al., FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting, ICML 2022)
|
||||
在时空图建模方面,STWave\cite{STWave}、DSTAGNN\cite{DSTAGNN}等工作将小波分析引入空间图信号处理,通过多尺度子带分解增强模型对不同频率成分的分辨能力。Fredformer\cite{Fredformer}等方法则探索了在频域空间进行注意力计算的替代策略。
|
||||
|
||||
从模型参数更新的角度来看,频谱视角同样具有重要意义。研究表明,深度网络在训练过程中存在频谱偏置——倾向于优先拟合低频分量,对高频细节的学习缓慢\cite{}。% 注:需补充到ref.bib: rahaman2019spectral (Rahaman et al., On the Spectral Bias of Neural Networks, ICML 2019)
|
||||
这意味着模型权重更新本身具有频谱级的结构特性:全局语义的对齐依赖低频更新,而特定局部行为的修正则需要高频更新。这一观察表明,参数更新的频谱结构与时空数据的多尺度特征之间存在内在对应关系,为频谱级结构异质性($\mathcal{R}_{spec}$)的建模提供了理论动机。
|
||||
|
||||
在参数高效微调领域,近年来开始出现将频域分析引入适配方法的探索。这一方向的核心动机在于:权重更新矩阵在频域中往往具有更为紧凑的表示,且不同频率分量承载的信息具有可分离的语义意义。SDCT方法通过选择性离散余弦变换对权重更新进行频域表示,在保持适配性能的同时进一步压缩参数开销\cite{shen2024parameter}。WaveletFT将离散小波变换应用于权重更新矩阵的分解,利用小波基的多分辨率特性同时捕获全局平滑结构与局部细节信息\cite{hu2025waveletft}。FourierFT等工作利用傅里叶基对适配参数进行紧凑表示\cite{gao2024parameter}。LoCA则通过逆离散余弦变换在频域谱图上动态定位信息密集的频率位置,实现选择性频段微调\cite{du2025loca}。此外,F-Adapter将频率自适应机制引入科学计算领域的模型微调\cite{zhang2025f}。
|
||||
|
||||
上述方法共同表明,频谱视角为参数高效适配提供了一种有效的结构化建模语言。然而,现有频域PEFT方法多采用单一类型的变换基(纯DCT或纯小波),较少同时利用不同频域基函数在全局与局部表示上的互补特性。此外,不同频率分量之间的依赖关系在现有方法中通常被忽略——各频段的更新独立进行,缺乏跨频段的信息传递机制。这些不足为设计更为精细的频谱级适配方法留下了空间。
|
||||
|
||||
|
||||
\subsection{模型结构优化与容量分配方法}
|
||||
\label{subsec:rw_structure_opt}
|
||||
|
||||
% 注:需补充到ref.bib: liu2019darts (Liu et al., DARTS, ICLR 2019)
|
||||
% 注:需补充到ref.bib: frankle2019lottery (Frankle & Carlin, Lottery Ticket Hypothesis, ICLR 2019)
|
||||
在更高层面上,当模型需要在多个异构任务间分配有限的可训练参数时,如何在容量约束下实现高效适配,本质上转化为一个结构学习问题。
|
||||
|
||||
神经架构搜索(NAS)技术提供了一种自动化的结构设计路径。DARTS通过将离散的架构选择松弛为连续优化问题,实现了可微分的架构搜索\cite{}。% 注:需补充到ref.bib: liu2019darts (Liu et al., DARTS: Differentiable Architecture Search, ICLR 2019)
|
||||
在时空领域,AutoSTF\cite{AutoSTF}等工作将NAS引入时空预测模型的设计,通过搜索最优的时空操作组合以适配不同数据集的特性。这些工作表明,针对特定时空任务分布,不存在普适的静态最优结构,结构本身应当是任务相关且可学习的。
|
||||
|
||||
在模型压缩方面,结构化剪枝与稀疏化学习旨在通过移除冗余参数或限制激活模式来提升计算效率。彩票假说指出,在密集网络中存在稀疏子网络能够达到甚至超越完整网络的性能\cite{},% 注:需补充到ref.bib: frankle2019lottery (Frankle \& Carlin, The Lottery Ticket Hypothesis, ICLR 2019)
|
||||
这为参数结构的可选择性提供了理论支持。在大语言模型场景下,运动剪枝(Movement Pruning)\cite{sanh2020movement}等方法通过训练过程中的参数重要性评估实现结构化稀疏。
|
||||
|
||||
从多任务适配的角度来看,容量分配问题的核心在于:哪些参数结构应当跨任务共享,哪些应当任务特有,以及如何在有限预算约束下实现这种共享—特有划分的自动发现。这一问题直接对应参数级结构异质性($\mathcal{R}_{param}$)的建模需求。在参数高效适配框架下,稀疏微调与结构学习的结合尤为重要。SHiRA通过高秩稀疏更新替代低秩稠密更新,在相同参数预算下获得更强的表达能力\cite{shiracite}。MTLoRA等工作将多任务学习与LoRA结构相结合,在任务间共享低秩基础并学习任务特定的路由策略\cite{agiza2024mtlora}。运动剪枝\cite{sanh2020movement}与稀疏缩放微调\cite{ansell2024scaling}等方法则通过在训练过程中动态评估参数重要性,实现面向特定任务的结构化稀疏。
|
||||
|
||||
然而,现有方法在多任务场景下的容量分配多依赖预先设定的共享规则或简单的任务标识路由,缺乏能够在统一预算约束下同时学习共享结构与特有结构的系统化机制。如何将结构发现从"给定结构下的参数学习"提升为"结构与参数的联合优化",仍是当前多任务适配研究中的开放问题。
|
||||
|
||||
|
||||
\subsection{现有适配方法的对比分析与不足}
|
||||
\label{subsec:rw_peft_discussion}
|
||||
|
||||
综合上述五个方面的文献梳理,可以从"调制对象"与"结构层级"两个维度对现有适配方法进行系统比较,如表~\ref{tab:ch2_method_comparison}~所示。
|
||||
\begin{figure}[htbp]
|
||||
\centering
|
||||
% 占位:待替换为外部绘制的 2_peft_taxonomy.pdf
|
||||
% \includegraphics[width=0.88\textwidth]{assets/2_peft_taxonomy.pdf}
|
||||
\caption{参数高效适配方法的谱系结构与本文方法定位。该图采用树形或层级分类布局:
|
||||
\textbf{第一层}按适配对象分为三大类——"参数更新结构"(低秩、稀疏)、"附加模块"(Adapter、前缀/提示)、"表示调制"(激活缩放、门控调制)。
|
||||
\textbf{第二层}在每个大类下列出代表性方法:低秩类(LoRA、DoRA、AdaLoRA)、稀疏类(BitFit、SHiRA、运动剪枝)、附加类(Adapter、Prefix-Tuning、Prompt Tuning)、调制类((IA)$^3$)。
|
||||
\textbf{第三层}用虚线框或高亮标注本文五个方法(HyCAM、RoSA、DyPAM、CASCADE、MESSA)的定位,并用箭头标注其相对于现有方法的创新方向——从"均匀适配"指向"结构感知适配"。
|
||||
右侧用渐变色条标注"结构感知程度"从弱到强的演进趋势。}
|
||||
\label{fig:ch2_peft_taxonomy}
|
||||
\end{figure}
|
||||
|
||||
\begin{table}[htbp]
|
||||
\centering
|
||||
\caption{现有适配方法的调制对象与结构层级对比分析}
|
||||
\caption{现有参数高效适配方法的谱系比较与后续章节衔接}
|
||||
\label{tab:ch2_method_comparison}
|
||||
\renewcommand{\arraystretch}{1.15}
|
||||
\small
|
||||
\begin{tabular}{llccc}
|
||||
\resizebox{\linewidth}{!}{
|
||||
\begin{tabular}{llcll}
|
||||
\toprule
|
||||
\textbf{方法类别} & \textbf{代表方法} & \textbf{调制对象} & \textbf{结构层级} & \textbf{结构感知} \\
|
||||
\textbf{方法谱系} & \textbf{代表方法} & \textbf{适配对象} & \textbf{均匀适配特征} & \textbf{后续衔接} \\
|
||||
\midrule
|
||||
附加式PEFT & Adapter, Prefix & 层内瓶颈/前缀向量 & 参数级(弱结构) & 无 \\
|
||||
低秩分解 & LoRA, DoRA & 权重增量$\Delta\mathbf{W}$ & 参数级 & 无(均匀秩) \\
|
||||
动态秩分配 & AdaLoRA & 权重增量$\Delta\mathbf{W}$ & 参数级 & 层级差异 \\
|
||||
多任务路由 & MoELoRA, LoRAMoE & 专家选择与门控 & 模块级 & 任务级 \\
|
||||
梯度冲突处理 & PCGrad, CAGrad & 梯度方向 & 优化级 & 任务级 \\
|
||||
频域分解 & FourierFT, WaveletFT & 频域系数 & 频谱级 & 频段级 \\
|
||||
结构稀疏 & SHiRA, 运动剪枝 & 稀疏掩码 & 参数结构级 & 元素级 \\
|
||||
低秩重参数化 & LoRA, DoRA, AdaLoRA & $\Delta\mathbf{W}$(低秩流形) & 跨层/模块采用一致插入与秩配置 & 对照基线 \\
|
||||
附加式模块 & Adapter, LLaMA-Adapter & 层间瓶颈模块 & 插入位置与模块大小固定 & 模块级角色感知 \\
|
||||
提示学习 & Prefix, Prompt, P-Tuning & 输入侧或层内软提示 & 统一提示空间假设 & 表示流调制 \\
|
||||
激活调制 & (IA)$^3$ & 注意力/FFN关键激活 & 按层统一注入缩放向量 & 乘性调制扩展 \\
|
||||
选择式/稀疏 & BitFit, LISA, SHiRA & 参数子集/稀疏掩码 & 经验性重要性准则 & 容量分配问题 \\
|
||||
\bottomrule
|
||||
\end{tabular}
|
||||
}
|
||||
\end{table}
|
||||
|
||||
从表~\ref{tab:ch2_method_comparison}~可以看出,现有方法在适配机制上已覆盖了参数级、模块级、频谱级等不同层面,但存在以下三个方面的共性不足。
|
||||
从表~\ref{tab:ch2_method_comparison}~可以看出,现有方法虽然从不同角度降低了适配成本,但普遍隐含了一种均匀适配假设(uniform adaptation assumption):无论是将低秩矩阵无差别地挂载到所有子模块的线性层上,还是为所有层分配等长的前缀向量,抑或是基于全局统一阈值进行稀疏筛选,现有框架大多将大语言模型简化为层级平齐、模块功能同质的系统。
|
||||
|
||||
\textbf{第一,结构感知的粒度与深度有限。}多数方法仅在单一层级上引入结构差异化处理——例如AdaLoRA在层间分配不同秩、MoE方法在任务间路由不同专家——但缺乏在多个结构层级上同时进行协调的统一机制。从城市时空数据的结构复杂性来看,多任务功能异质性、位置结构依赖、多尺度动态模式以及多源容量差异可能同时存在且相互影响,单一层级的结构感知难以覆盖这种多维结构异质性。
|
||||
|
||||
\textbf{第二,方法之间缺乏统一的理论视角。}上述方法分别从参数分解、梯度优化、路由选择、频域分析等不同角度出发,各自解决某一类结构问题。然而,这些方法之间缺乏共同的形式化框架,使得不同策略难以在统一视角下进行比较、组合或递进。从表征学习的角度来看,不同层级的适配方法实际上可以被理解为对模型表示流施加不同形式的条件化调制,但这一认识在现有文献中尚未得到系统阐述。
|
||||
|
||||
\textbf{第三,与时空数据结构特征的关联不足。}现有适配方法多从通用的自然语言处理或多模态学习场景出发进行设计,其结构假设与城市时空数据的特殊结构特征之间缺乏直接关联。例如,LoRA的均匀低秩假设未考虑时空任务中不同维度承担不同频率信息编码功能的事实;MoE的路由策略未利用时空数据中多任务功能异质性的领域先验。这种"方法设计"与"数据结构"之间的脱节,限制了适配方法在复杂时空场景中的表现。
|
||||
|
||||
上述分析表明,要有效解决时空建模中的适配问题,需要建立一个能够统一刻画不同结构层级适配机制的分析框架,并据此设计与时空数据结构特征系统关联的适配方法。这正是第~\ref{sec:unified_framework}~节所建立的结构感知调制统一框架的出发点。
|
||||
这种缺乏结构感知的均匀设计带来三类根本性局限。\textbf{第一,对模块功能差异关注不足。}如第~\ref{subsec:rw_functional_differentiation}~节所述,MHSA 和 FFN 在知识调用与上下文路由中扮演截然不同的角色,均匀分配适配预算容易导致冗余参数堆积于任务不敏感的模块,而关键瓶颈区域面临容量匮乏。\textbf{第二,对位置结构与维度异质性利用不足。}现有更新主要作用于表示变换的全局通道维度,忽视了由 RoPE 等频率结构引入的维度级异质性,在处理依赖位置关系的任务时难以实现精细化调控。\textbf{第三,对多尺度参数结构与容量分配建模不足。}面对复杂的异构任务集合,现有 PEFT 方法缺乏在全局频谱空间和多任务约束下的系统建模能力,无法区分哪些参数成分应当被提炼为跨任务共享知识,哪些必须被隔离以服务于任务特化。
|
||||
|
||||
|
||||
%======================================================================
|
||||
\section{时空智能数据集与评测基础设施研究}
|
||||
\label{sec:rw_benchmark}
|
||||
\section{多任务学习与模块级功能适配}
|
||||
\label{sec:rw_multitask}
|
||||
|
||||
数据资源与实验评测体系是推动时空智能建模方法持续发展的重要基础。随着技术范式向基础模型转移,评测对象从传统的数值预测精度扩展到推理一致性、工具可执行性与跨源泛化能力。本节从数据集构建、评测范式及基础设施发展趋势等方面,对当前研究进展进行系统梳理。
|
||||
在实际应用中,大语言模型通常需要同时服务于多种类型的下游任务。多任务场景中的知识共享与任务干扰问题,以及模块级功能分化在适配中的作用,为理解和改进大语言模型适配方法提供了重要视角。
|
||||
|
||||
\subsection{时空预测与分析数据集}
|
||||
\label{subsec:rw_st_datasets}
|
||||
%----------------------------------------------------------------------
|
||||
\subsection{多任务学习与梯度冲突问题}
|
||||
\label{subsec:rw_multitask_gradient}
|
||||
|
||||
当前时空智能研究中,应用最为广泛的数据资源主要集中于交通预测领域。METR-LA与PEMS-BAY\cite{METR_LA/PEMS_BAY}提供了洛杉矶与旧金山湾区高速公路传感器网络的速度观测数据,已成为时空图神经网络研究的标准基准。PEMS系列数据集\cite{PEMSD3/7,PEMSD4/8}覆盖了加利福尼亚州不同区域与不同时段的交通流量数据。LargeST\cite{LargeST}进一步将数据规模扩展至覆盖数千个传感器的大规模场景。在轨迹与出行数据方面,纽约出租车与共享单车数据集\cite{NYCTaxi/Bike}、Foursquare签到数据\cite{Foursquare-NYC/TKY}以及Porto出租车GPS轨迹\cite{Porto}等被广泛用于出行需求预测与轨迹建模研究。
|
||||
多任务学习通过在统一模型中同时优化多个相关目标,利用任务间的知识共享提升整体建模性能\cite{caruana1997multitask}。% 注:需补充到ref.bib: caruana1997multitask (Caruana, Multitask Learning, Machine Learning 1997)
|
||||
然而,多任务学习面临的核心困难在于梯度冲突与负迁移:不同任务的梯度在共享参数空间中可能指向相互对立的方向,导致优化过程中一个任务的改进以另一个任务的退化为代价,形成所谓的"跷跷板"(seesaw)现象。
|
||||
|
||||
这些数据集的重要贡献在于为时空模型提供了标准化的实验协议与可比较的评测基准。在实验设计上,相关研究通常采用固定时间窗口划分训练集与测试集,通过均方误差(MAE)、均方根误差(RMSE)等指标评估预测性能。以交通预测为例,标准实验设置通常以过去12个时间步(1小时)的历史观测预测未来12个时间步的状态变化,模型之间的比较在统一的数据划分与评价指标下进行。这种规范化的评测协议极大地促进了时空图神经网络领域的快速发展,使研究者能够在公平条件下对比不同方法的性能。
|
||||
针对梯度冲突问题,文献中涌现了一系列梯度干预方法。PCGrad 在检测到两个任务梯度向量夹角大于 $90^\circ$ 时,将冲突梯度投影到对方法平面上以消除破坏性分量\cite{yu2020gradient};CAGrad 将多任务冲突消解转化为带约束的极小极大优化问题,在邻域搜索空间内寻找使所有任务平均损失严格下降的更新方向\cite{liu2021conflict};GradNorm 通过动态调节各任务损失权重以平衡梯度幅度与训练速度\cite{}。% 注:需补充到ref.bib: chen2018gradnorm (Chen et al., GradNorm, ICML 2018)
|
||||
这些方法从优化层面缓解了任务间冲突,但并未从模型架构层面解决"哪些模块应当共享、哪些应当专用"的问题。
|
||||
|
||||
在轨迹与移动性建模方面,研究者构建了包含多种任务目标的数据资源。例如,出行轨迹数据被用于轨迹恢复\cite{RNTrajRec}、下一兴趣点推荐\cite{GETNEXT}、行程时间估计\cite{TTPNet}以及地图匹配\cite{FMM}等多种任务。这些任务虽基于相似的底层数据,但在建模目标、评价方式与应用场景上存在显著差异,体现了城市时空数据"一数据多任务"的特点。
|
||||
从模型内部结构来看,不同任务在模型中的激活模式往往存在系统性差异。注意力模块更多承担跨位置的上下文关联建模,而前馈网络更多负责知识表达与非线性映射\cite{standley2020tasks}。这种模块级的功能分工在均匀的参数共享策略下难以被有效利用,容易导致负迁移与知识干扰。因此,多任务场景的关键矛盾并非简单的"共享越多越好"或"隔离越多越好",而是在共享知识与任务特化之间需要结构层面的平衡机制。
|
||||
|
||||
然而,由于任务目标集中于数值回归或序列预测,此类数据资源在评估模型的结构推理能力与复杂情境理解方面存在局限。具体而言:预测任务的评价仅关注输出数值与真实值之间的误差,无法反映模型是否真正理解了时空关系的内在逻辑;不同任务的数据集在格式规范、评价指标与实验设置上缺乏统一标准,导致跨任务的模型能力比较困难。随着大语言模型在时空领域的应用探索不断深入,需要构建能够覆盖推理、决策与工具调用等更广泛能力维度的评测资源。
|
||||
%----------------------------------------------------------------------
|
||||
\subsection{混合专家模型与动态路由机制}
|
||||
\label{subsec:rw_moe}
|
||||
|
||||
混合专家模型(Mixture of Experts, MoE)通过将前馈网络替换为多个并行专家子网络,并利用门控路由机制动态选择激活专家,在模型结构层面实现了功能分化\cite{shazeer2017outrageously}。对于给定输入 $\mathbf{x}$,MoE 层的输出可表示为:
|
||||
\begin{equation}
|
||||
\mathbf{y} = \sum_{e=1}^{E} g_e(\mathbf{x}) \cdot \mathrm{Expert}_e(\mathbf{x}),
|
||||
\end{equation}
|
||||
其中 $g_e(\mathbf{x})$ 为门控网络对第 $e$ 个专家的路由权重,通常由 top-$k$ 稀疏选择机制生成(实际部署中 $k$ 常设为 $1$ 或 $2$)。这种稀疏激活机制使模型在成倍扩大参数容量的同时维持单个样本的计算量相对恒定。
|
||||
|
||||
Switch Transformer 通过简化路由策略(每个输入仅激活一个专家)将 MoE 扩展到大规模模型,并改进了训练稳定性\cite{fedus2022switch};DeepSeek-MoE 进一步强调专家细粒度分段与共享专家/路由专家的协同,以促进专家专门化并减少冗余\cite{dai2024deepseekmoe,guo2025deepseek}。为防止路由退化,MoE 训练中通常引入负载均衡辅助损失,约束各专家的使用频率保持均匀。
|
||||
|
||||
MoE 架构揭示了"动态路由"与"模块功能分化"在应对输入异质性方面的有效性:不同输入可以激活不同的功能路径,不同专家网络在物理参数上的隔离也天然降低了处理不同分布数据时的特征污染。然而,现有 MoE 工作更多关注专家选择、负载均衡与训练效率,较少将路由机制与 Transformer 内部既有模块的功能角色差异显式关联。
|
||||
|
||||
%----------------------------------------------------------------------
|
||||
\subsection{多任务参数高效适配方法}
|
||||
\label{subsec:rw_multitask_peft}
|
||||
|
||||
在参数高效适配框架下,MoE 思想被引入 LoRA 结构,形成了多种多任务适配方法。MoELoRA 将多组 LoRA 适配模块作为专家,并引入对比学习鼓励专家分化,通过门控路由实现对多任务差异性的适应\cite{liu2023moelora,luo2024moelora};LoRAMoE 在多个 LoRA 模块之间引入路由机制,旨在同时提升下游能力并缓解世界知识遗忘\cite{dou2024loramoe}。MTLoRA 引入任务无关(task-agnostic)与任务特定(task-specific)低秩模块,在共享与专用之间做结构化分解\cite{agiza2024mtlora};MOELoRA 将混合专家路由与 LoRA 结构相结合以处理多任务适配\cite{liu2024moe}。
|
||||
|
||||
从参数共享与分解角度,Compacter 通过超复数乘法实现跨任务的参数共享\cite{karimi2021compacter};UniAdapter 在统一适配框架下设计了面向多任务与多模态的共享结构\cite{lu2023uniadapter}。AdapterFusion 通过注意力机制动态融合多个独立训练的 Adapter 模块\cite{pfeiffer2020adapterfusion};UniPELT 联合训练多种轻量适配模块以实现更好的多任务泛化\cite{mao2022unipelt}。
|
||||
|
||||
值得注意的是,部分研究已开始反思细粒度组件级适配在多任务中的潜在问题。例如,有研究指出如果将 LoRA 独立且无关联地分别应用于 $\mathbf{W}_Q$、$\mathbf{W}_K$、$\mathbf{W}_V$ 等细粒度组件,反而可能因缺乏更高层级的表征协同而加剧任务间梯度冲突,转而提倡在整个 Transformer 块或完整的 MHSA / FFN 宏观级别上设计统一的适配模块\cite{agiza2024mtlora}。这一发现从侧面说明,多任务适配需要将共享与专用结构的划分与模型内部的功能角色差异结合考量。
|
||||
|
||||
上述方法在多任务适配效率方面取得了进展,但仍存在共性不足:现有方法的建模粒度主要停留在任务级或专家级,较少进一步区分适配应当优先作用于哪些模块、哪些层、哪些表示流节点。如何在利用模块级功能分化的基础上系统设计多任务适配机制,仍是值得进一步探索的问题。
|
||||
|
||||
|
||||
\subsection{面向推理与决策的时空任务数据}
|
||||
\label{subsec:rw_reasoning_data}
|
||||
%======================================================================
|
||||
\section{结构异质性感知与多层级适配方法}
|
||||
\label{sec:rw_structure_aware}
|
||||
|
||||
% 注:需补充到ref.bib: han2025poiqa (Han et al., POI-QA, arXiv 2025)
|
||||
% 注:需补充到ref.bib: dihan2025mapeval (Dihan et al., MapEval, arXiv 2025)
|
||||
随着时空智能研究向推理与决策支持方向拓展,一批面向结构推理能力评估的数据集相继出现。从推理要素与输入模态的角度,可将这些工作归纳为以下几类。
|
||||
前述三节分别梳理了大语言模型的表示机制、参数高效适配方法以及多任务学习的相关工作。本节将进一步关注已有研究中对模型内部结构异质性的显式感知与利用,从维度级位置结构、频谱级多尺度分析与参数容量分配三个方面展开综述。
|
||||
|
||||
\textbf{兴趣点与轨迹推理。}
|
||||
POI-QA通过清洗真实车辆轨迹与地理POI数据,构建了需要同时理解空间位置与时间上下文的双语问答任务,系统评估模型对时空条件敏感问题的回答能力\cite{}。% 注:需补充到ref.bib: han2025poiqa (Han et al., A Dataset for Spatiotemporal-Sensitive POI Question Answering, arXiv:2505.10928)
|
||||
% TODO: 可补充POI-QA具体规模(418K POI、540万QA对、四级难度),为第六章铺垫
|
||||
STBench从空间理解、时间推理与时空联合推理三个维度对大语言模型进行评测\cite{STBench}。
|
||||
%----------------------------------------------------------------------
|
||||
\subsection{位置编码结构与维度级表示异质性}
|
||||
\label{subsec:rw_dim_heterogeneity}
|
||||
|
||||
\textbf{地图与空间关系推理。}
|
||||
MapEval将地图推理分解为文本、API与视觉三种交互形态,评估基础模型在不同输入条件下的空间推理一致性\cite{}。% 注:需补充到ref.bib: dihan2025mapeval (Dihan et al., MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models, arXiv:2501.00316)
|
||||
% 注:需补充到ref.bib: bhat2026mapverse (Bhat et al., MapVerse, arXiv 2026)
|
||||
% 注:需补充到ref.bib: truong2026gpsbench (Truong et al., GPSBench, arXiv 2026)
|
||||
GPSBench将坐标推理能力拆分为几何计算与世界知识两个维度\cite{}。% 注:需补充到ref.bib: truong2026gpsbench (Truong et al., GPSBench: Do Large Language Models Understand GPS Coordinates?, arXiv:2602.16105)
|
||||
第~\ref{subsec:rw_rope}~节从机制角度介绍了 RoPE 的频率结构,本节进一步讨论其对模型表示特性的影响以及对适配方法的启示。
|
||||
|
||||
\textbf{时空推理与决策规划。}
|
||||
USTBench构建了交互式城市仿真环境,将时空推理能力分解为理解、预测、规划与反思四个维度进行诊断性评估\cite{USTBench}。
|
||||
% 注:需补充到ref.bib: song2025stark (Song et al., STARK, arXiv 2025)
|
||||
STARK基准结合空间代数与时间逻辑框架,评估模型在复杂时空约束推理中的能力\cite{}。% 注:需补充到ref.bib: song2025stark (Song et al., Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models, arXiv:2505.11618)
|
||||
基于 Transformer 的大语言模型普遍存在表示各向异性(anisotropy)现象——隐藏层的激活值分布呈现显著的非均匀性,少数维度占据压倒性的方差比例\cite{jin2025massive}。进一步研究表明,这种各向异性并非训练偶发伪影,而是自注意力机制的内生特性\cite{godey2024anisotropy}。% 注:需补充到ref.bib: godey2024anisotropy (Godey et al., Anisotropy Is Inherent to Self-Attention, EACL 2024)
|
||||
|
||||
上述推理型数据集的共同特点在于:输入包含隐式的几何、拓扑或时序约束,输出要求可解释的空间关系判断或可执行计划。这使得它们能够更充分地暴露模型在结构一致性方面的不足,为评估结构感知适配方法的有效性提供了更为严格的测试场景。
|
||||
RoPE 的频率结构为表示空间引入了额外的维度级异质性。由于不同维度对被赋予不同频率的旋转角度,系统中的低频(高索引)维度承担着跨越较大序列跨度的长程语义获取功能——这些维度旋转周期长、角度变化缓慢,在深层网络中往往产生更密集且幅值更高的激活;而高频(低索引)维度由于剧烈旋转,更敏感于局部近距离的词元交互\cite{su2024roformer,barbero2024round}。有研究通过干预实验发现,在推理阶段屏蔽部分极高频维度特征对模型困惑度几乎无负面影响,甚至在长序列外推上有所提升;但一旦破坏关键低频维度,则直接引发性能崩溃\cite{}。% 注:需补充到ref.bib: gu2025unpacking (Gu et al., Unpacking Positional Encoding in Transformers: A Spectral Perspective, arXiv 2025)
|
||||
这一不对称性有力地说明不同维度对在功能上的重要性存在质的差异。
|
||||
|
||||
值得注意的是,这种维度级异质性在 Query/Key 表示中表现显著,而在 Value 表示中则弱得多——这与 RoPE 仅对 Query 和 Key 施加位置旋转的设计一致。同时,不同注意力头和不同层在激活分布上也呈现出差异化模式\cite{voita2019bottom},且激活模式还表现出对输入内容的依赖性:同一频率的特征维度在面对不同类型指令、不同领域分布或不同语义角色的输入时,其激活波峰与频率响应会产生显著波动。
|
||||
|
||||
\subsection{城市仿真环境与智能体平台}
|
||||
\label{subsec:rw_simulation}
|
||||
上述发现对适配方法的设计具有直接启示。当不同维度在功能上并非等价时,对所有维度施加均匀更新可能导致关键维度信息的破坏或冗余维度的过度调整。现有研究实际上已给出两条清晰线索:一条是静态的、由位置编码机制本身诱导的维度级频率不均匀性;另一条是动态的、受具体输入与上下文条件影响的头级/维度级激活差异。但这些结构特征在现有 PEFT 方法中大多仍停留在分析层面,尚未被系统转化为参数高效适配机制。
|
||||
|
||||
% 注:需补充到ref.bib: krajzewicz2012sumo (Krajzewicz et al., SUMO, 2012)
|
||||
% 注:需补充到ref.bib: zhang2019cityflow (Zhang et al., CityFlow, WWW 2019)
|
||||
% 注:需补充到ref.bib: yan2024opencity (Yan et al., OpenCity, arXiv 2024)
|
||||
在真实城市运行环境中,系统状态持续演化并受多主体行为共同影响。仅依赖静态离线数据集难以全面评估模型在动态交互场景中的能力。
|
||||
%----------------------------------------------------------------------
|
||||
\subsection{多尺度频谱分析与频域适配方法}
|
||||
\label{subsec:rw_spectral_peft}
|
||||
|
||||
在传统仿真领域,SUMO作为开源交通微观仿真平台,长期为交通系统研究提供基础实验设施\cite{}。% 注:需补充到ref.bib: krajzewicz2012sumo (Krajzewicz et al., SUMO - Simulation of Urban MObility, 2012)
|
||||
CityFlow则面向大规模城市交通场景提供了支持强化学习接口的高性能仿真环境\cite{}。% 注:需补充到ref.bib: zhang2019cityflow (Zhang et al., CityFlow: A Multi-Agent Reinforcement Learning Environment for Large Scale City Traffic Scenario, WWW 2019)
|
||||
近年来,随着大语言模型智能体概念的兴起,面向城市场景的LLM智能体仿真平台开始出现。OpenCity通过系统优化与提示工程,实现了大规模LLM智能体的城市活动仿真\cite{}。% 注:需补充到ref.bib: yan2024opencity (Yan et al., OpenCity: A Scalable Platform to Simulate Urban Activities with Massive LLM Agents, arXiv:2410.21286)
|
||||
CityBench将交通预测、出行需求估计等多种城市任务纳入统一评测框架,支持对不同模型在多任务场景下的系统性能比较\cite{CityBench}。
|
||||
从参数更新的角度看,权重更新矩阵 $\Delta\mathbf{W}$ 可视为定义在参数索引上的二维信号,通过适当的线性变换(如傅里叶变换、小波变换)可将其分解为不同空间频率的成分。低频成分对应平滑缓变的全局模式,高频成分则捕获集中于特定区域的快速变化。
|
||||
|
||||
在面向模型开发的研究基础设施方面,LibCity\cite{Libcity}与DL-Traff\cite{Dl-traff}提供了标准化的数据处理流程与统一的模型评价接口,覆盖了包括交通速度预测、流量预测、轨迹恢复及行程时间估计在内的多类时空任务;TorchSpatial\cite{Torchspatial}则进一步将时空建模任务纳入模块化的实验框架,支持灵活的模型组合与实验配置。这些平台在促进实验可复现性与方法公平比较方面发挥了重要作用。然而,随着研究领域的快速发展,新模型与新数据集的持续涌现对平台的可扩展性提出了更高要求。现有平台在模型收录的持续性、评测流程的自动化程度以及跨平台实验结果的可比性方面仍存在提升空间。特别是,当评测对象从传统的预测模型扩展到大语言模型时,现有平台的任务组织方式与评测协议需要进行相应的适配与升级。
|
||||
在函数逼近论的框架下,深度网络在训练过程中存在频谱偏置(spectral bias),也被称为频率原则(F-Principle)——网络总是优先学习并快速逼近目标函数中频率较低的部分(对应全局拓扑与主导分类面),随后才逐渐且缓慢地适应高频部分(对应局部特异性与细粒度模式)\cite{rahaman2019spectral}。% 注:需补充到ref.bib: rahaman2019spectral (Rahaman et al., On the Spectral Bias of Neural Networks, ICML 2019)
|
||||
这意味着权重更新本身具有频谱级的结构特性。对全量微调下权重更新的频谱分析进一步揭示了一种能量与影响力的失配现象:高频成分在频谱能量上占主导地位但其影响范围局限于参数空间的有限子集;低频成分虽然能量较小,却影响着权重矩阵的大部分区域。这种从粗到细的适配模式表明,全局语义对齐依赖低频更新,而特定局部行为的修正则需要高频更新。
|
||||
|
||||
受此启发,近年来开始出现将频域分析引入参数高效适配的探索。FourierFT 将权重更新视为空间域信号,在离散傅里叶域学习稀疏频谱系数,以少量频域参数表达空间域中的权重更新\cite{gao2024parameter}。由于离散傅里叶变换的复数开销,后续工作转向离散余弦变换(DCT):SDCT 方法利用 DCT 的能量压缩特性进行选择性系数更新\cite{shen2024parameter};LoCA 进一步基于逆 DCT 建模频域适配,不仅学习系数还学习哪些频率位置最有信息量,并给出频域近似与低秩近似表达力差异的理论比较\cite{du2025loca}。在多尺度结构方面,小波变换提供天然的多分辨率分解:WaveletFT 将离散小波变换引入权重更新建模,利用小波基的多分辨率特性同时捕获全局结构与局部细节\cite{hu2025waveletft}。
|
||||
|
||||
\subsection{现有评测体系的局限性}
|
||||
\label{subsec:rw_benchmark_limits}
|
||||
上述方法共同表明,频谱视角为参数高效适配提供了有效的结构化建模语言。然而,现有频域 PEFT 方法多采用单一类型的变换基(纯 DCT、纯小波或纯傅里叶),较少同时利用不同频域基函数在全局与局部表示上的互补特性。此外,不同频率分量之间的依赖关系通常被忽略——各频段的更新独立进行,缺乏显式的跨频段信息传递与"从粗到细"的级联更新组织,这为面向多尺度频谱结构的参数级适配留下了空间。
|
||||
|
||||
综合来看,当前时空智能评测体系虽在快速发展中,但仍存在若干不足,主要体现在以下方面。
|
||||
%----------------------------------------------------------------------
|
||||
\subsection{参数容量分配与结构学习}
|
||||
\label{subsec:rw_capacity_allocation}
|
||||
|
||||
\textbf{(1)任务形态覆盖不足。}多数评测仍以离线数值预测为主要验证方式,对推理一致性、工具调用可执行性及多步决策能力的评估较少。CityBench\cite{CityBench}与MapEval等工作的出现表明社区已意识到这一缺口,但覆盖范围仍有限。
|
||||
当模型需要在多个异构任务间分配有限的可训练参数时,如何在容量约束下实现高效适配,本质上转化为一个结构学习问题。
|
||||
|
||||
\textbf{(2)评测协议缺乏统一标准。}不同数据集与评测平台在数据划分方式、评价指标选择以及实验设置方面差异较大,导致实验结果难以形成统一的比较基准。现有评测框架多依赖人工维护,在可扩展性与持续更新能力方面存在不足。
|
||||
在更广泛的神经网络结构学习文献中,神经架构搜索(NAS)提供了自动化的结构设计路径。DARTS 通过将离散的架构选择松弛为连续优化问题,实现了可微分的架构搜索\cite{liu2019darts},% 注:需补充到ref.bib: liu2019darts (Liu et al., DARTS, ICLR 2019)
|
||||
其核心思想——将离散结构决策转化为连续松弛后通过梯度优化求解——对后续参数高效适配中的结构学习具有方法论启示。
|
||||
|
||||
\textbf{(3)时空敏感的推理评测资源不足。}现有问答类数据集在空间与时间信息的联合建模方面仍较为有限,缺乏同时包含精确空间位置信息与时间上下文、且对时空条件变化敏感的大规模评测语料。
|
||||
在模型压缩方面,彩票假说(Lottery Ticket Hypothesis)指出,在密集网络中存在稀疏子网络能够达到甚至超越完整网络的性能\cite{frankle2019lottery}。% 注:需补充到ref.bib: frankle2019lottery (Frankle & Carlin, Lottery Ticket Hypothesis, ICLR 2019)
|
||||
这一发现表明模型参数空间中存在结构化的功能分布,有效容量可能集中在某些子结构上。在大语言模型场景下,运动剪枝通过训练过程中的参数重要性评估实现结构化稀疏\cite{sanh2020movement},SHiRA 则表明高秩稀疏更新在相同预算下可获得强于低秩稠密更新的表达能力\cite{shiracite}。
|
||||
|
||||
\textbf{(4)方法评测与系统评测尚未形成闭环。}在方法层面提出的适配策略,往往缺乏在统一且具有持续性的评测框架下进行系统验证的条件。从方法设计到实验验证再到工程应用之间的链路尚不完整。
|
||||
从更一般的视角看,参数高效适配本身也是一种"预算约束下的结构化容量分配"。AdaLoRA 通过在层/矩阵间非均匀分配低秩预算,已将"容量分配"显式化\cite{zhang2023adalora};LISA 通过层重要性采样与大量层冻结,在不增加额外模块的前提下实现"跨层容量重分布"\cite{pan2024lisa}。在多任务共享方面,任务向量(task vectors)与任务算术(task arithmetic)提出在权重空间用"微调差分向量"表征任务能力,并通过向量加减实现能力组合与编辑,为"共享—特有"的参数分解提供了另一类视角\cite{}。% 注:需补充到ref.bib: ilharco2023editing (Ilharco et al., Editing Models with Task Arithmetic, ICLR 2023)
|
||||
|
||||
上述局限表明,构建能够支持多任务、多阶段验证以及持续更新的评测基础设施,对于推动时空智能建模方法的系统化研究具有重要意义。这也为本文第六章构建面向时空智能的评测体系提供了直接动机。
|
||||
然而,当问题推进到多任务条件下,复杂度进一步提升。此时不仅要回答"哪些参数值得更新",还要回答"哪些更新应由所有任务共享,哪些应保留为任务特有"。现有方法多依赖预先设定的共享规则或简单的任务标识路由,缺乏能够在统一预算约束下同时学习共享结构与特有结构的系统化机制。如何将结构发现从"给定结构下的参数学习"提升为"结构与参数的联合优化",仍是当前多任务适配研究中的开放问题。
|
||||
|
||||
\begin{figure}[htbp]
|
||||
\centering
|
||||
% 占位:待替换为外部绘制的 2_heterogeneity_levels.pdf
|
||||
% \includegraphics[width=0.9\textwidth]{assets/2_heterogeneity_levels.pdf}
|
||||
\caption{大语言模型内部多层级结构异质性的表现与适配对应关系。该图采用左右两栏布局:
|
||||
\textbf{左栏}(结构异质性层级)自上而下展示四个层级的异质性现象,每层配一个小型示意:
|
||||
(1)模块级($\mathcal{R}_{mod}$):MHSA与FFN功能分工示意(上下文路由 vs 知识存储),用不同色块标注;
|
||||
(2)维度级($\mathcal{R}_{dim}$):RoPE不同维度对的激活强度热图(高频维度弱激活、低频维度强激活);
|
||||
(3)频谱级($\mathcal{R}_{spec}$):权重更新矩阵的频谱分解示意(低频全局平滑 + 高频局部修正);
|
||||
(4)参数级($\mathcal{R}_{param}$):多任务参数分配示意(冻结/共享/专用三种状态的参数组)。
|
||||
\textbf{右栏}(对应适配方法)与左栏四个层级一一对齐,标注本文对应的方法名、调制形式与章节:
|
||||
HyCAM(乘性,Ch3)、RoSA$\to$DyPAM(乘性,Ch4$\to$Ch5)、CASCADE(组合式,Ch6)、MESSA(结构分解,Ch6)。
|
||||
左右栏之间用虚线箭头连接,表示"结构异质性$\to$结构感知适配"的映射关系。}
|
||||
\label{fig:ch2_heterogeneity_levels}
|
||||
\end{figure}
|
||||
|
||||
|
||||
%======================================================================
|
||||
\section{本章小结}
|
||||
\label{sec:rw_summary}
|
||||
|
||||
本章围绕城市时空数据建模与基础模型适配问题,对相关领域的研究现状进行了系统梳理。
|
||||
本章围绕大语言模型表征适配的相关理论与研究进展,从架构基础、参数高效微调方法、多任务学习机制以及结构异质性感知方法四个方面进行了系统综述。
|
||||
|
||||
在时空建模方面,方法演进由传统统计建模经历深度时空表征学习,逐步走向以基础模型为代表的通用表示构建路径。传统时空统计方法在可解释性与不确定性建模方面具有学理优势,其建立的空间依赖、时间非平稳性与层次化不确定性等概念,为后续深度表征学习中归纳偏置的设计提供了理论先导。以图神经网络与Transformer为代表的深度方法通过端到端学习显著提升了复杂模式建模能力,形成了覆盖栅格建模、图结构建模与长序列建模的完整方法体系。然而,这些方法多围绕单一任务进行设计,在多任务协同与跨场景迁移方面仍面临泛化能力不足的问题。大语言模型的引入为统一建模提供了新路径,但现有探索多停留在输入对齐与格式转换层面,对模型内部表示结构与时空数据特征之间的协调关注不足。
|
||||
在架构基础方面,Transformer 内部不同组件在信息处理中承担差异化功能角色:自注意力模块负责上下文路由与依赖建模,前馈网络作为键值记忆结构承担知识存储与非线性映射。RoPE 位置编码通过维度对相关的旋转变换引入了系统性的频率分解结构,使不同维度对在位置信息编码中承担不同功能。此外,层间角色梯度、头间功能分工(包括具有明确算法功能的 induction heads 等可解释结构)、维度级极端激活现象以及参数更新的频谱偏置,共同揭示了模型内部多层次的结构异质性。
|
||||
|
||||
在适配方法方面,参数高效微调技术在降低适配成本的同时保持了较好的任务性能,已成为主流技术路径。然而,如第~\ref{subsec:rw_peft_discussion}~节的对比分析所示,现有方法在结构感知的粒度与深度、理论统一性以及与时空数据结构的关联等方面仍存在系统性不足。具体而言:LoRA等方法默认在模型各层与各投影矩阵上施加均匀的低秩约束,未能利用模型内部的结构角色差异;多任务路由机制揭示了模块级功能分化的必要性,但缺乏与时空任务结构特征的系统关联;表示各向异性与位置编码分析揭示了维度级功能差异的存在,但尚未被有效转化为适配机制的设计依据;频谱偏置与多尺度建模方法表明参数更新本身具有频谱级结构特性,但现有频域PEFT方法多采用单一变换基,缺乏跨频段的信息传递机制。上述研究从不同角度为结构感知的非均匀适配提供了理论与实证基础,但各方法之间缺乏统一的形式化框架加以整合。
|
||||
在参数高效适配方面,低秩适配、附加式与提示类适配、选择式与稀疏微调三类方法从不同角度降低了适配成本,已成为主流技术路径。然而,多数方法在模型不同层和模块上施加形式一致的更新策略,对模型内部结构特征的利用仍然有限。即使 AdaLoRA 等改进工作已开始引入非均匀预算分配,其建模对象也主要是局部重要性而非系统性的结构角色差异。
|
||||
|
||||
在评测体系方面,现有研究虽积累了丰富的数据资源与实验经验,但在任务形态覆盖、评测协议统一性以及方法-系统闭环等方面仍存在改进空间。特别是缺乏面向时空敏感推理的大规模评测资源,以及支持持续更新与多阶段评估的基础设施。这些不足限制了适配方法在接近实际应用环境的条件下得到系统验证。
|
||||
在多任务学习方面,梯度冲突处理与混合专家路由机制为应对多任务异质性提供了有效工具,多任务 PEFT 方法在此基础上引入共享与专用结构以及动态路由思想。但现有方法的建模粒度多停留在任务级或专家级,较少与模型内部的模块功能角色差异建立系统关联。
|
||||
|
||||
综上所述,当前研究在以下三个方面存在进一步探索空间:(1)如何在统一框架下刻画并利用模型内部的结构角色差异;(2)如何从模块级、维度级、频谱级与参数级等多个层面设计结构感知的适配机制;(3)如何构建支撑复杂时空任务验证的评测基础设施,形成方法-数据-系统闭环。后续各章将分别从模块级(第三章)、维度级(第四章)、频谱级与参数级(第五章)以及评测基础设施(第六章)等层面,对第~\ref{sec:unified_framework}~节提出的统一分析框架进行逐层实例化与实验验证。
|
||||
在结构感知方面,维度级激活异质性研究揭示了静态的频率不均匀性与动态的输入依赖激活差异两条线索;频域适配方法初步证明了频谱视角对参数更新建模的价值,但在跨频段依赖与多尺度异构更新的联合建模上仍有不足;参数容量分配研究则从结构学习角度提出了问题,但在多任务条件下的"共享—特有"联合分配仍缺乏系统框架。
|
||||
|
||||
综合以上分析,当前研究在三个方面仍有进一步探索空间:(1)如何在统一框架下刻画并利用模型内部多层级的结构角色差异;(2)如何从模块级、维度级到参数级系统设计结构感知的适配机制;(3)如何在多任务场景下实现共享能力与任务特化能力的有效协调。围绕上述问题,后续各章将分别对应模块级方法HyCAM、维度级静态方法RoSA、维度级动态方法DyPAM,以及参数空间中的CASCADE和MESSA,在第~\ref{sec:unified_framework}~节提出的统一分析框架下逐层展开方法设计与实验验证。
|
||||
|
||||
Reference in New Issue
Block a user