Graduate/chap02.tex

% !TeX root = ../main.tex
% 第二章 国内外研究现状
\chapter{国内外研究现状}
\label{chap:related_work}

本章围绕时空数据建模、基础模型表征机制及参数高效适配方法三个维度，对相关领域的研究现状进行系统梳理。在此基础上，对现有评测体系与数据资源进行分析，揭示当前研究在结构异质性建模、适配机制设计及评测支撑方面的不足，从而为后续章节提出的结构角色感知适配方法提供文献基础与问题定位。


\section{时空数据建模与表征学习研究}
\label{sec:rw_st_modeling}

城市时空数据是刻画现实物理世界动态演化过程的基础信息载体。随着城市物联传感网络、移动互联终端以及地球观测基础设施的持续发展，时空数据呈现出多源异构、高维动态与流式持续等特征，其建模方法也经历了由显式统计建模向数据驱动表征学习的范式演进。本节围绕时空建模问题的任务类型、方法发展路径及数据结构特征等方面，对相关研究进行系统梳理，并从表征学习视角分析当前研究范式的演进趋势与面临的结构挑战。

\subsection{时空数据建模问题类型与应用场景}
\label{subsec:rw_st_problems}

% 注：需补充到ref.bib: zheng2014urban (Yu Zheng, Urban Computing, ACM TIST 2014)
城市时空数据建模通常面向多种实际应用需求，其核心目标在于通过对时间与空间维度上动态变化过程的建模，实现对复杂系统状态的理解、预测与优化。从城市计算的视角来看，时空数据来源涵盖交通传感器网络、移动终端定位数据、车辆轨迹数据、遥感卫星影像、兴趣点（POI）信息以及社交媒体地理标签等多种类型\cite{}。% 注：需补充到ref.bib: zheng2014urban (Zheng et al., Urban Computing: Concepts, Methodologies, and Applications, ACM TIST 2014)
根据建模目标与任务形式的不同，相关研究可划分为若干典型问题类型。

首先，\textbf{时空预测类任务}是当前研究最为广泛的方向。该类任务通常关注在给定历史观测数据的条件下，对未来某一时间范围内的系统状态进行估计，例如交通速度与流量预测\cite{METR_LA/PEMS_BAY,PEMSD4/8}、出行需求预测\cite{NYCTaxi/Bike}以及环境质量变化趋势分析等。此类任务对模型在捕获空间传播模式与时间依赖关系方面提出了较高要求。

其次，\textbf{行为建模与轨迹分析类任务}逐渐成为研究热点。随着位置感知技术的普及，城市个体活动轨迹及群体行为模式能够被更为精细地刻画。通过对出行路径、停留行为及兴趣点访问模式等信息进行建模，可以为城市规划与服务优化提供重要参考\cite{DeepMove,START}。这类任务通常涉及离散空间事件序列的语义理解与多主体交互分析，对模型在空间语义推理方面的能力提出更高要求。

此外，\textbf{决策支持与推理分析类任务}在近年来受到越来越多关注。例如，面向应急响应的路径规划、城市运行风险评估及公共设施选址优化等问题，往往需要在不确定环境中进行多阶段推理与策略评估。相比传统预测任务，这类问题不仅依赖对历史数据的建模，还要求模型具备一定的情境理解与逻辑推理能力\cite{CityBench}。

总体而言，不同类型的时空建模任务在目标形式与评价方式上存在差异，但其共同特征在于：均需要在统一建模框架下刻画复杂系统在时间与空间维度上的动态演化规律。更为重要的是，上述任务类型在城市系统中往往并行存在，表现为多目标共存与多任务耦合的特征。这种多任务并存关系为模型适配提出了差异化的结构要求——不同任务可能共享部分底层结构信息，同时又在建模目标与侧重点上具有各自的特殊需求。


\subsection{传统时空建模方法}
\label{subsec:rw_traditional_st}

% 注：需补充到ref.bib: cressie2011statistics (Cressie & Wikle, Statistics for Spatio-Temporal Data, Wiley 2011)
% 注：需补充到ref.bib: tobler1970computer (Tobler, A Computer Movie Simulating Urban Growth, Economic Geography 1970)
在深度学习技术广泛应用之前，时空数据建模主要依赖统计分析与数学建模方法。在时间维度上，自回归移动平均模型（ARIMA）及其扩展形式被广泛用于刻画时间序列中的线性趋势与周期性变化规律\cite{}。% 注：需补充到ref.bib: box2015time (Box et al., Time Series Analysis, 2015)
在空间维度上，地理学第一定律——"一切事物都与其他事物相关联，但近处的事物比远处的事物更为相关"——为空间依赖关系的建模提供了基本出发点\cite{}。% 注：需补充到ref.bib: tobler1970computer (Tobler, A Computer Movie Simulating Urban Growth in the Detroit Region, Economic Geography 1970)
基于此，空间自相关分析与地统计学方法被广泛用于描述不同区域之间的关联结构，例如克里金插值方法通过空间协方差模型对未采样位置进行最优预测\cite{}。% 注：需补充到ref.bib: cressie2011statistics (Cressie \& Wikle, Statistics for Spatio-Temporal Data, Wiley 2011)

在时空联合建模方面，Cressie与Wikle提出的层次动态时空模型（Hierarchical Dynamic Spatio-Temporal Models）通过将不确定性分解为数据层、过程层与参数层三个层级，为时空数据的概率建模提供了系统化的理论框架\cite{}。% 注：需补充到ref.bib: cressie2011statistics (Cressie \& Wikle, Statistics for Spatio-Temporal Data, Wiley 2011)
此外，卡尔曼滤波及其非线性扩展在动态系统状态估计中发挥了重要作用，通过状态方程与观测方程的递推更新实现对系统状态的连续跟踪\cite{}。% 注：需补充到ref.bib: kalman1960new (Kalman, A New Approach to Linear Filtering and Prediction Problems, ASME J. Basic Eng. 1960)

上述传统方法的重要价值在于其可解释性与不确定性建模能力。层次化建模框架能够显式表征不同来源的不确定性，空间统计方法则为理解空间异质性提供了严谨的概念工具。然而，当城市系统规模不断扩大且运行模式愈发复杂时，传统方法在表达非线性关系与高维交互模式方面的能力逐渐受到限制。特别是在多任务耦合或多源数据融合场景中，依赖人工特征设计与显式概率假设的建模策略难以充分挖掘数据中的潜在结构信息。

值得注意的是，传统时空统计方法所建立的核心概念——空间依赖、时间非平稳性、多尺度过程以及层次化不确定性——为后续深度表征学习中"结构归纳偏置"的设计提供了重要的理论先导。
% TODO: 补充中文文献。建议添加：王劲峰等, 地理学时空数据分析方法, 地理学报 2014；或李德仁, 空间数据挖掘理论与应用(第3版), 科学出版社 2019


\subsection{深度学习驱动的时空表征学习方法}
\label{subsec:rw_dl_st}

% 注：需补充到ref.bib: shi2015convolutional (Shi et al., ConvLSTM, NeurIPS 2015)
% 注：需补充到ref.bib: li2018dcrnn (Li et al., DCRNN, ICLR 2018)
% 注：需补充到ref.bib: yu2018stgcn (Yu et al., STGCN, IJCAI 2018)
% 注：需补充到ref.bib: wu2019graph (Wu et al., Graph WaveNet, IJCAI 2019)
% 注：需补充到ref.bib: zhou2021informer (Zhou et al., Informer, AAAI 2021)
% 注：需补充到ref.bib: wu2021autoformer (Wu et al., Autoformer, NeurIPS 2021)
% TODO: 补充中文文献。建议添加：贾兴利等, 交通预测中的时空图神经网络研究综述, 交通运输工程学报 2026, DOI:10.19818/j.cnki.1671-1637.2026.01.003
随着深度学习技术的发展，基于神经网络的时空建模方法在过去十余年间取得了显著进展，其核心贡献在于将时空依赖关系转化为可学习的结构归纳偏置（inductive bias），从而实现了从人工特征设计向端到端表征学习的范式转变。按照所采用的空间结构假设，深度时空建模方法可大致沿三条主线加以梳理。

\textbf{第一条主线}是基于栅格与场的时空建模方法。早期工作将城市空间划分为规则网格，通过卷积结构提取空间邻域特征，并结合循环网络捕获时间依赖关系。ConvLSTM等工作将卷积操作嵌入LSTM的门控结构中，实现了空间感知能力与时间记忆能力的算子级融合\cite{}。% 注：需补充到ref.bib: shi2015convolutional (Shi et al., Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting, NeurIPS 2015)
然而，城市路网与传感器分布通常呈现不规则的非欧几里得结构，将其强制映射为网格会丢失真实的拓扑关系信息。

\textbf{第二条主线}是基于图结构的时空表征学习方法，这一方向在2018年至2023年间逐渐成为交通预测等任务的主流范式。时空图神经网络（Spatio-Temporal Graph Neural Networks, STGNNs）将传感器或地理区域建模为图的节点，将物理连接或属性相似性建模为图的边，从而在非欧几里得空间中进行信息传播与表征聚合。DCRNN将交通流动态建模为有向图上的扩散过程，并与序列编解码结构相结合\cite{DGCRN}；% 注：li2018dcrnn
STGCN则在频域上定义图卷积算子，通过全卷积结构取代循环计算\cite{}；% 注：需补充到ref.bib: yu2018stgcn (Yu et al., Spatio-Temporal Graph Convolutional Networks, IJCAI 2018)
Graph WaveNet引入自适应邻接矩阵学习机制，允许模型在训练过程中通过节点嵌入自动发现潜在的空间依赖关系\cite{}。% 注：需补充到ref.bib: wu2019graph (Wu et al., Graph WaveNet for Deep Spatial-Temporal Graph Modeling, IJCAI 2019)
后续工作进一步在动态图建模\cite{DSTAGNN}、多图融合\cite{DGCRN}以及多尺度时空表示\cite{STWave}等方面进行了深入探索。在注意力机制的引入方面，部分研究通过空间注意力与时间注意力的联合设计，实现了对不同节点和不同时间步特征的动态权重分配\cite{STAEformer}。此外，STID等工作从简洁建模的角度出发，指出在附加适当的时空嵌入信息后，简单的多层感知机即可取得与复杂图模型相当的预测性能，这一发现促使研究者重新审视时空表征学习中归纳偏置的作用方式\cite{STID}。在模型规模与效率方面，BigST针对大规模传感器网络提出了高效的时空建模方案\cite{BigST}；LightST则通过轻量化设计探索精度与效率之间的平衡\cite{LightST}。

在上述监督学习范式之外，时空预训练方法的探索代表了该领域的另一重要方向。UniST通过统一的掩码预训练策略在多种时空数据集上构建通用时空表示\cite{UniST}；FlashST利用提示学习机制实现跨数据集的快速适配\cite{FlashST}；EasyST则通过教师-学生蒸馏框架降低时空预训练的计算成本\cite{EasyST}。这些工作标志着时空表征学习正在由"任务特定模型"向"通用预训练—下游适配"的范式过渡。然而，现有时空预训练方法在跨城市迁移与多任务联合建模方面仍面临挑战，其学习到的通用表示能否有效支撑结构复杂的城市智能任务，仍有待进一步验证。

\textbf{第三条主线}是面向长序列预测的Transformer类方法。随着预测时间跨度与序列长度的增加，传统循环结构面临效率瓶颈与长程依赖建模困难。Informer通过稀疏注意力机制与蒸馏策略提升长序列预测效率\cite{}；% 注：需补充到ref.bib: zhou2021informer (Zhou et al., Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting, AAAI 2021)
Autoformer则引入序列分解机制与自相关注意力，将趋势与季节性成分分离建模\cite{}。% 注：需补充到ref.bib: wu2021autoformer (Wu et al., Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting, NeurIPS 2021)
此外，PatchTST\cite{PatchTST}、TimeMixer++\cite{TimeMixer++}等工作进一步探索了多粒度与多通道时序建模策略。

上述三条主线虽然在空间结构载体与建模机制上存在差异，但在问题层面共享同一核心目标：如何在统一表示框架下有效刻画空间依赖、时间动态与尺度变化之间的交互关系。深度时空表征学习的演进可被理解为对结构归纳偏置的逐步显式化——从局部时空卷积到图结构传播，再到长上下文注意力建模。然而，现有方法大多围绕特定任务进行设计，所学习的表示与任务目标紧密耦合，在多任务协同与跨场景迁移方面仍面临泛化能力不足的问题。


\subsection{时空建模中的结构复杂性问题}
\label{subsec:rw_st_complexity}

尽管深度时空表征学习方法在各类基准测试中取得了显著进展，但真实的城市时空系统所呈现的结构复杂性仍对现有方法构成根本性挑战。城市时空数据并非均匀分布的数值流，而是在多个维度上呈现出系统性的结构分化。具体而言，可从以下四个层面加以概括。

\textbf{（1）多任务功能异质性。}
城市系统中往往存在多任务高度共存的场景。例如，交通流量预测、出行需求估计与事件风险评估等任务虽然共享底层空间结构信息，但在建模目标与特征需求上存在差异\cite{standley2020tasks}。传统多任务建模方法通常采用硬共享底层网络的方式，容易导致任务间的负迁移与知识干扰\cite{yu2020gradient,liu2021conflict}。在城市多目标预测场景中，同时预测交通速度与流量两个密切相关的指标时，模型内部不同功能模块（如注意力层与前馈网络层）对两个任务的贡献可能存在显著差异——注意力模块更多承担跨区域空间关联的建模，而前馈网络则更多负责数值量程的映射。这种模块级的功能分工在均匀的参数共享策略下难以被有效利用。

\textbf{（2）位置结构依赖与表示非均匀性。}
城市活动在空间分布上具有显著的非均匀性，不同区域在功能属性与交互模式上存在差异。时空事件的发生位置赋予了输入序列中不同元素截然不同的语义权重。例如，城市中心商业区与郊区居住区在出行模式、客流密度及时间分布上呈现出截然不同的规律，而位于交通枢纽的传感器节点往往比普通路段节点承载更为丰富的空间传播信息。然而，现有模型在表征聚合过程中往往缺乏对这种位置结构的显式感知，使得关键的空间位置信息在层层传递中被过度平滑\cite{DSTAGNN}。在大语言模型的位置编码机制下，这种非均匀性进一步体现为不同表示维度对空间位置信息的差异化编码能力。

\textbf{（3）多尺度动态模式。}
城市运行过程通常同时包含稳定的周期性变化与随机扰动事件。例如，日常出行模式体现为相对平稳的时间周期结构（早晚高峰、周末效应），而突发事件（如交通事故、极端天气、大型活动）又会在短时间尺度内引发显著波动\cite{STWave}。从频谱分析的角度来看，低频分量对应全局趋势与周期结构，高频分量对应局部扰动与事件驱动变化。单一时间感受野的建模方式难以兼顾跨尺度的频谱特征，而深度网络在训练中普遍存在的频谱偏置——优先拟合低频分量、对高频细节学习缓慢——进一步加剧了这一问题。

\textbf{（4）多源差异与容量分配冲突。}
跨模态的时空数据在信息密度与噪声分布上存在差异。例如，交通传感器提供的高频数值流与社交媒体地理标签提供的稀疏事件信号在数据特性上截然不同，而深度模型在参数容量分配上通常是静态的，无法根据数据源的异质性进行自适应调控。在多任务适配场景下，有限的可训练参数需要在不同任务间进行分配，如何确定哪些参数应当跨任务共享、哪些应当任务特有，成为影响适配效果的关键问题。

上述结构复杂性表明，试图用均匀的网络结构同等对待所有时空输入特征的做法，不可避免地会导致关键结构信号的淹没或模型容量的低效利用。
% TODO: 补充中文文献。建议添加：朱庆、傅晓, 多模态时空大数据可视分析方法综述, 测绘学报 2017；或 自然资源时空大数据挖掘与知识服务研究进展, 地球信息科学学报 2025, DOI:10.12082/dqxxkx.2025.240625
这一问题不仅是传统深度时空模型的瓶颈，也为后续将大语言模型引入时空建模后，设计结构感知的适配机制提供了直接动机。从第~\ref{sec:unified_framework}~节所建立的分析框架来看，上述四类结构复杂性分别对应了模块级（$\mathcal{R}_{mod}$）、维度级（$\mathcal{R}_{dim}$）、频谱级（$\mathcal{R}_{spec}$）与参数级（$\mathcal{R}_{param}$）四个层面的结构异质性。


%======================================================================
\section{基础模型与大语言模型表征机制研究}
\label{sec:rw_foundation_model}

近年来，以Transformer为代表的基础模型在自然语言处理与多模态学习领域取得了显著进展。其强大的表示能力与跨任务泛化性能为复杂系统建模提供了新的技术路径。本节从表示学习机制、预训练范式及复杂任务建模能力等方面，对基础模型与大语言模型的相关研究进行系统梳理，并探讨其在时空智能领域的初步应用与面临的适配挑战。

\subsection{Transformer表示学习机制}
\label{subsec:rw_transformer}

Transformer架构通过引入自注意力机制，摒弃了循环神经网络的序列递归计算范式，实现了对序列内部全局依赖关系的高效并行建模\cite{vaswani2017attention}。给定第$\ell$层的输入隐藏表示$\mathbf{H}^{(\ell-1)} \in \mathbb{R}^{T \times d}$，自注意力模块首先通过线性投影生成Query、Key和Value矩阵$\mathbf{Q}^{(\ell,h)}, \mathbf{K}^{(\ell,h)}, \mathbf{V}^{(\ell,h)}$（其中$h$为多头索引），随后通过缩放点积计算注意力权重，实现对上下文信息的加权聚合。

从模型内部的功能分工来看，近年来的机制可解释性研究揭示了Transformer架构中注意力模块与前馈网络之间存在系统性的角色分化。Geva等人的研究表明，前馈网络可被视为键值记忆存储结构，其参数矩阵中编码了训练语料中的知识模式\cite{geva2021transformer}。Dong等人进一步指出，注意力模块更侧重于执行上下文信息的检索与路由功能，而前馈网络则承担知识存储与模式匹配的作用\cite{dong2025attention}。此外，对多头注意力的分析表明，不同注意力头在功能上存在差异化分工，部分头侧重局部位置模式，部分头侧重全局语义依赖\cite{voita2019bottom,michel2019sixteen}。层级维度上，浅层表示更侧重局部模式建模，深层表示更倾向于捕获全局语义关系\cite{belinkov2018evaluating}。

在位置信息编码方面，旋转位置编码（RoPE）通过将绝对位置映射为复平面上的旋转角度，使模型在注意力计算中能够内在地感知相对位置偏移\cite{su2024roformer}。不同维度对被赋予不同频率的旋转角度，这一机制导致表示在维度空间中呈现出系统性的频率结构。ALiBi则采用注意力偏移方式引入位置信息\cite{press2021train}。这些位置编码机制不仅影响模型的长序列外推能力，更在表示空间中引入了与频率结构相关的非均匀特性——不同维度承担不同频率范围的信息编码功能。

从时空建模需求来看，Transformer的上述机制特征——模块功能分化、头与层的角色差异以及位置编码引入的维度级结构——构成了理解模型内部结构角色异质性的重要基础，也为后续设计结构感知的适配方法提供了机制层面的支撑。


\subsection{预训练基础模型与表示迁移学习}
\label{subsec:rw_pretrain}

% 注：需补充到ref.bib: devlin2019bert (Devlin et al., BERT, NAACL 2019)
预训练—微调范式是基础模型取得成功的重要技术路径。通过在大规模通用数据上进行自监督学习，模型能够构建具有较强表达能力的通用表示空间。BERT通过掩码语言建模构建双向语境表示\cite{}，% 注：需补充到ref.bib: devlin2019bert (Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, NAACL 2019)
GPT系列模型则通过自回归预训练获取生成式语言建模能力\cite{brown2020language}。这种大规模预训练策略使模型能够在下游任务中实现高效迁移，降低了任务特定模型设计的复杂度\cite{bommasani2021opportunities}。

随着这一范式的成功向其他数据模态扩展，时间序列与时空领域亦开始探索基础模型的构建路径。时间序列基础模型试图通过在海量时序数据上进行预训练，学习跨数据集可共享的通用时序表示\cite{hu2023llm}。% 注：需补充到ref.bib: liang2024foundation (Liang et al., Foundation Models for Time Series Analysis, KDD Tutorial 2024)
% 注：需补充到ref.bib: ansari2024chronos (Ansari et al., Chronos, arXiv 2024)
从技术路线来看，时序基础模型可分为两类：一类是从零开始在大规模时序数据上训练的专用模型，通过掩码重构或对比学习等自监督策略提取通用时序分布特征；另一类则是将已有的大语言模型"重编程"为时序预测器，通过输入对齐或嵌入映射使语言模型的表示空间适应数值时序数据。前者在领域适应性方面具有优势，后者则利用了语言模型已有的推理能力与世界知识。

在时空领域，UniST等工作尝试构建统一的时空预训练框架，通过掩码预训练策略在多种城市数据集上学习通用时空表示\cite{UniST}；FlashST通过提示学习机制实现跨数据集的快速适配\cite{FlashST}。这些工作标志着时空基础模型的研究正在从"任务特定建模"向"通用表示构建"的方向发展。

然而，预训练迁移学习的核心假设——存在跨任务可共享的中间表征——在时空任务中面临特殊挑战。一方面，时空数据的结构性输入（坐标、拓扑关系、多模态属性等）与通用语料存在显著差异，简单的格式对齐难以保证结构信息的有效传递；另一方面，时空任务在评测目标上从数值预测扩展到推理一致性与决策可执行性，使得"迁移什么、如何迁移"成为需要重新审视的问题。因此，时空场景下的表示迁移不仅需要参数层面的适配，更需要考虑模型内部表示结构与时空数据结构特征之间的协调。


\subsection{大语言模型在复杂任务建模中的潜力}
\label{subsec:rw_llm_potential}

随着模型规模与训练数据量的持续扩大，大语言模型在复杂任务环境中展现出显著能力。GPT-4\cite{achiam2023gpt}、LLaMA系列\cite{touvron2023llama,dubey2024llama}以及Qwen系列\cite{bai2023qwen,team2024qwen2}等模型不仅在语言理解与生成任务中表现出色，还在多步推理、上下文学习以及跨任务知识迁移方面展现出良好潜力。

对于时空智能领域而言，大语言模型的潜在价值可从三个维度加以分析。\textbf{第一}，地理知识可提取性。研究表明，大语言模型在其参数空间中隐式编码了关于空间位置、区域属性及地理关系的知识\cite{feng2024citygpt}。% 注：需补充到ref.bib: manvi2024geollm (Manvi et al., GeoLLM: Extracting Geospatial Knowledge from Large Language Models, ICLR 2024)
% TODO: 建议补充 Gurnee & Tegmark, Language Models Represent Space and Time, arXiv:2310.02207, 2023 —— 该工作实证表明LLM内部自发形成了空间与时间的线性表征结构，是LLM空间认知能力的重要实证支撑
通过适当的提示策略或微调，可以从模型中提取地理相关的语义信息。\textbf{第二}，长程依赖建模与推理能力。大语言模型在处理长上下文序列时所表现出的能力，使其在刻画跨区域关联与跨时间尺度动态关系方面具有潜在优势。\textbf{第三}，工具调用与工作流执行能力。结合代码生成与工具调用机制，大语言模型可用于构建面向空间分析任务的自动化工作流\cite{}。% 注：需补充到ref.bib: zhang2025geoanalystbench (Zhang et al., GeoAnalystBench: A GeoAI Benchmark for Assessing LLMs for Spatial Analysis Workflow and Code Generation, arXiv:2509.05881)

然而，大语言模型的上述潜力并不等同于对时空任务的有效建模能力。模型原本为处理一维离散语言符号设计，当面对具有强时空周期性、复杂图拓扑以及跨尺度波动的多任务时空数据时，简单地将时空信息转化为文本序列进行处理，难以保证结构信息的准确传递与利用。因此，如何在保持预训练知识的基础上，使模型内部表示与时空数据的结构特征相协调，成为将大语言模型有效引入时空建模的关键问题。


\subsection{大模型在时空智能领域的初步探索}
\label{subsec:rw_llm_st}

近年来，学术界已开始积极探索将大语言模型应用于城市计算与时空智能任务。从适配策略来看，现有工作可从以下几个方面加以归纳。

在\textbf{特征对齐与表示增强}方面，UrbanGPT将轻量级时空依赖编码器与大语言模型的指令微调范式相结合，通过构建时空指令集实现零样本跨城市预测\cite{}。% 注：需补充到ref.bib: li2024urbangpt (Li et al., UrbanGPT, KDD 2024)
该工作通过将时空编码器的输出对齐到语言模型的嵌入空间，使模型能够在不同城市与不同任务之间进行知识迁移。CityGPT将城市空间信息嵌入语言模型的认知框架中，增强模型对城市功能区的理解能力\cite{feng2024citygpt}。BigCity通过统一数据格式与提示设计，将多种时空任务纳入单一模型进行联合处理\cite{yu2025bigcity}。VecCity则从城市实体表示学习的角度出发，为不同粒度的空间单元构建统一的向量表示\cite{zhang2024veccity}。

在\textbf{提示工程与跨域适配}方面，部分研究尝试通过文本提示的设计将时空信息转化为语言模型可处理的格式。例如，STLLM等工作将时空图网络提取的结构特征转化为模型可处理的嵌入表示\cite{STLLM}。在轨迹与移动性建模方面，PLMTrajRec利用预训练语言模型的序列建模能力进行轨迹恢复\cite{PLMTrajRec}；POI-Enhancer等工作则探索将大语言模型的语义能力用于增强兴趣点表示学习\cite{cheng2025poi}。这些工作在不同程度上验证了语言模型所蕴含的世界知识对时空任务的潜在支撑作用。

在\textbf{评测与基准构建}方面，CityBench通过覆盖多城市、多任务的评测框架，系统评估大语言模型在城市任务中的能力边界\cite{CityBench}。USTBench将时空推理能力分解为理解、预测、规划与反思四个维度进行细粒度评估\cite{USTBench}。STBench则侧重于空间与时间信息的联合理解能力测试\cite{STBench}。这些评测工作揭示出当前大语言模型在空间拓扑推理与时间周期性建模方面仍存在明显不足。

上述工作的一个共同特征值得关注：无论是特征对齐、提示工程还是指令微调，现有方法在将时空信息输入大语言模型时，主要关注输入端的格式转换与表示对齐，而较少涉及模型内部表示结构在处理时空信息时的功能组织方式。具体而言，注意力模块与前馈网络在时空推理中是否承担不同角色、不同维度是否对空间位置与时间周期信息具有差异化的敏感性、参数更新在不同频谱成分上是否需要差异化策略——这些问题在现有文献中尚未得到系统研究。这一观察表明，从模型内部结构出发设计适配机制，构成了将大语言模型有效应用于时空建模的重要研究空间。


%======================================================================
\section{参数高效适配与结构建模方法研究}
\label{sec:rw_peft}

基于第~\ref{sec:rw_st_modeling}~节的分析，城市时空数据具有多层级的结构异质性特征；而大语言模型在设计上通常假设输入信息具有相对均匀的结构，其适配方法亦多采用形式一致的更新策略。数据端的"结构异质"与模型端的"均匀适配"之间存在的张力，构成了将大语言模型有效应用于复杂时空任务的核心挑战。本节围绕参数高效微调方法、多任务学习机制、表示结构分析、多尺度频谱建模以及模型结构优化等方面，对相关研究进展进行系统梳理。

\subsection{参数高效微调方法}
\label{subsec:rw_peft_methods}

当模型参数规模从数亿膨胀至千亿级别时，全参数微调在计算成本与存储开销方面变得不可接受，且在数据量有限时容易引发灾难性遗忘\cite{ding2023parameter}。参数高效微调（PEFT）方法的核心思想是：冻结预训练主干网络参数$\Theta_0$，仅引入少量可训练参数$\Theta_a$，使得最终模型参数可表示为$\Theta = \Theta_0 + \Delta\Theta$\cite{lialin2023scaling,han2024parameter}。

目前主流的PEFT方法可划分为以下几类。\textbf{（1）附加式方法}：Adapter通过在Transformer层间插入小型瓶颈网络进行表示调整\cite{houlsby2019parameter}；前缀调制通过在输入序列前追加可学习的连续向量引导模型生成\cite{li2021prefix}；提示调制则通过嵌入层面的可训练向量激活模型能力\cite{lester2021power}。这些方法保持主干权重不变，通过附加结构引入任务信息。\textbf{（2）选择式方法}：BitFit仅更新网络中的偏置项参数\cite{zaken2021bitfit}；LISA则根据层重要性进行选择性更新\cite{pan2024lisa}。\textbf{（3）低秩分解方法}：LoRA基于权重更新矩阵具有低内在秩的假设，将$\Delta\mathbf{W}$分解为两个低秩矩阵的乘积$\Delta\mathbf{W} = \mathbf{B}\mathbf{A}$（其中$\mathbf{A} \in \mathbb{R}^{r \times d_{in}}, \mathbf{B} \in \mathbb{R}^{d_{out} \times r}, r \ll \min(d_{in}, d_{out})$），从而成百倍地减少可训练参数规模\cite{hu2021lora}。DoRA进一步将权重更新分解为方向与幅度两个分量\cite{liu2024dora}；AdaLoRA通过重要性评估实现动态秩分配\cite{zhang2023adalora}；VeRA利用共享随机矩阵进一步压缩参数开销\cite{kopiczko2023vera}。

然而，从时空建模需求出发审视上述方法，可以发现一个共性局限：这些方法多对模型的不同层或投影矩阵施加形式一致的适配操作，隐含假设模型内部各组成部分在适配中的角色近似。以LoRA为例，其标准实践通常在所有选定层的Query与Value投影矩阵上插入相同秩的低秩分解，不区分不同层在特征建模中的功能贡献。然而，已有研究表明模型浅层与深层在信息处理中承担不同角色\cite{belinkov2018evaluating}——浅层侧重局部模式提取，深层侧重全局语义整合——因而对适配的需求强度与方式可能存在差异。类似地，注意力投影矩阵与前馈网络权重在知识存储与信息路由方面的功能分工\cite{geva2021transformer,dong2025attention}，也意味着对二者施加相同形式的更新策略未必是最优选择。

进一步地，在多任务场景下，这种均匀性假设的局限更加突出。不同任务对模型不同部分的更新需求可能指向不同方向，如果适配机制无法区分这些差异，则难以在有限参数预算下同时满足多个任务的需求。Compacter\cite{karimi2021compacter}、UniAdapter\cite{lu2023uniadapter}等工作已从参数共享与分解的角度对上述问题进行了初步探索，但尚未从时空数据的结构特征出发建立系统性的设计准则。


\subsection{多任务学习与知识路由机制}
\label{subsec:rw_multitask}

% 注：需补充到ref.bib: caruana1997multitask (Caruana, Multitask Learning, Machine Learning 1997)
城市系统天然是一个多任务并行环境，不同时空任务之间既存在共享的底层物理规律，又存在互相冲突的特征需求。多任务学习通过在统一模型中同时优化多个相关目标，试图利用任务间的知识共享提升整体建模性能\cite{}。% 注：需补充到ref.bib: caruana1997multitask (Caruana, Multitask Learning, Machine Learning 1997)
然而，多任务学习面临的核心困难在于梯度冲突与负迁移：不同任务的梯度在共享参数空间中可能指向相互对立的方向。PCGrad通过梯度投影缓解任务间冲突\cite{yu2020gradient}；CAGrad则从最坏情况优化角度设计多任务梯度聚合策略\cite{liu2021conflict}。
% TODO: 建议补充 PLE (Progressive Layered Extraction, Tang et al., RecSys 2020) —— 工业界多任务学习的代表性工作，提出渐进式分层提取机制缓解跨任务干扰

在模型结构层面，混合专家模型（MoE）通过将前馈网络替换为多个并行专家子网络，并利用门控路由机制动态选择激活专家，实现了模块级的功能分化\cite{shazeer2017outrageously}。Switch Transformer通过简化路由策略将这一机制扩展到大规模模型\cite{fedus2022switch}；DeepSeek-MoE等工作进一步优化了专家粒度与路由策略\cite{dai2024deepseekmoe,guo2025deepseek}。在参数高效适配框架下，MoE思想被引入LoRA结构，形成了MoELoRA\cite{liu2023moelora,luo2024moelora}与LoRAMoE\cite{dou2024loramoe}等方法，通过多组低秩适配模块与动态路由实现对多任务差异性的适应。

从时空建模需求来看，多任务城市系统中的功能异质性——不同模块对不同任务的功能贡献存在系统性差异——构成了模块级结构角色异质性（$\mathcal{R}_{mod}$）的数据驱动来源。上述方法揭示了"动态路由"与"模块功能分化"在应对多任务异质性方面的有效性，但现有方法多从独立的路由策略出发进行设计，缺乏与时空数据结构特征的系统关联。


\subsection{表示各向异性与结构感知学习}
\label{subsec:rw_anisotropy}

% 注：需补充到ref.bib: godey2024anisotropy (Godey et al., Anisotropy Is Inherent to Self-Attention, EACL 2024)
随着对深度模型内部表示机制认识的深入，研究者发现基于Transformer的大语言模型普遍存在表示各向异性（Anisotropy）现象——模型隐藏层的激活值分布呈现显著的非均匀性，少数维度占据压倒性的方差比例，而大部分维度处于低方差状态\cite{jin2025massive}。进一步的研究表明，这种各向异性并非训练过程中的偶发伪影，而是自注意力机制的内生特性\cite{}。% 注：需补充到ref.bib: godey2024anisotropy (Godey et al., Anisotropy Is Inherent to Self-Attention in Transformers, EACL 2024)

在位置编码层面，RoPE的频率结构为表示空间引入了额外的维度级异质性。不同维度对被赋予不同频率的旋转角度：低频维度旋转缓慢，其激活模式受位置变化的扰动较小，倾向于编码全局语义与长程依赖关系；高频维度旋转迅速，对位置偏移高度敏感，更适于刻画局部结构细节\cite{su2024roformer,barbero2024round}。Barbero等人的系统分析进一步揭示，RoPE对不同维度的影响呈现出明确的层次结构：在注意力计算中，低频维度对对应的键值对在长距离上仍保持较高的注意力得分，而高频维度的注意力则迅速随距离衰减\cite{barbero2024round}。这种由位置编码诱导的维度级功能分化，使得同一表示向量中的不同分量在信息编码功能上存在质的差异。

与此相关的另一个重要发现是，大语言模型中普遍存在"极端激活值"（Massive Activations）现象\cite{jin2025massive}。少数特定维度在模型前向计算过程中产生远超其他维度的激活幅值，这些维度在表示空间中占据主导地位。研究表明，这些极端激活维度并非简单的数值异常，而是承担着上下文信息编码的关键功能。在多头注意力结构中，不同头在激活分布上亦呈现出系统性差异，部分头表现出更为集中的激活模式，部分头则呈现更均匀的分布特征\cite{voita2019bottom}。

从时空适配的角度来看，上述发现具有重要启示。当时空任务要求模型准确处理空间相对位置关系与时间周期结构时，不同维度在建模中的功能贡献并非均匀的。如果适配过程不加区分地统一更新所有维度，可能导致重要低频结构的破坏或高频噪声的放大。这一认识为维度级结构异质性（$\mathcal{R}_{dim}$）的适配提供了机制层面的动机。


\subsection{多尺度学习与频谱建模方法}
\label{subsec:rw_spectral}

% 注：需补充到ref.bib: zhou2022fedformer (Zhou et al., FEDformer, ICML 2022)
城市时空数据的另一个核心结构特征是其动态模式的多尺度属性。全局趋势、周期性模式与局部突变分别对应信号的不同频率成分，这要求建模方法能够同时刻画多个尺度上的时空变化规律。

在时序预测领域，Autoformer引入的序列分解思想将信号分离为趋势与季节性分量\cite{}；% 注：需补充到ref.bib: wu2021autoformer (Wu et al., Autoformer, NeurIPS 2021)
FEDformer进一步将傅里叶变换与小波变换引入Transformer结构，通过频域稀疏表示实现多尺度特征的高效建模\cite{}。% 注：需补充到ref.bib: zhou2022fedformer (Zhou et al., FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting, ICML 2022)
在时空图建模方面，STWave\cite{STWave}、DSTAGNN\cite{DSTAGNN}等工作将小波分析引入空间图信号处理，通过多尺度子带分解增强模型对不同频率成分的分辨能力。Fredformer\cite{Fredformer}等方法则探索了在频域空间进行注意力计算的替代策略。

从模型参数更新的角度来看，频谱视角同样具有重要意义。研究表明，深度网络在训练过程中存在频谱偏置——倾向于优先拟合低频分量，对高频细节的学习缓慢\cite{}。% 注：需补充到ref.bib: rahaman2019spectral (Rahaman et al., On the Spectral Bias of Neural Networks, ICML 2019)
这意味着模型权重更新本身具有频谱级的结构特性：全局语义的对齐依赖低频更新，而特定局部行为的修正则需要高频更新。这一观察表明，参数更新的频谱结构与时空数据的多尺度特征之间存在内在对应关系，为频谱级结构异质性（$\mathcal{R}_{spec}$）的建模提供了理论动机。

在参数高效微调领域，近年来开始出现将频域分析引入适配方法的探索。这一方向的核心动机在于：权重更新矩阵在频域中往往具有更为紧凑的表示，且不同频率分量承载的信息具有可分离的语义意义。SDCT方法通过选择性离散余弦变换对权重更新进行频域表示，在保持适配性能的同时进一步压缩参数开销\cite{shen2024parameter}。WaveletFT将离散小波变换应用于权重更新矩阵的分解，利用小波基的多分辨率特性同时捕获全局平滑结构与局部细节信息\cite{hu2025waveletft}。FourierFT等工作利用傅里叶基对适配参数进行紧凑表示\cite{gao2024parameter}。LoCA则通过逆离散余弦变换在频域谱图上动态定位信息密集的频率位置，实现选择性频段微调\cite{du2025loca}。此外，F-Adapter将频率自适应机制引入科学计算领域的模型微调\cite{zhang2025f}。

上述方法共同表明，频谱视角为参数高效适配提供了一种有效的结构化建模语言。然而，现有频域PEFT方法多采用单一类型的变换基（纯DCT或纯小波），较少同时利用不同频域基函数在全局与局部表示上的互补特性。此外，不同频率分量之间的依赖关系在现有方法中通常被忽略——各频段的更新独立进行，缺乏跨频段的信息传递机制。这些不足为设计更为精细的频谱级适配方法留下了空间。


\subsection{模型结构优化与容量分配方法}
\label{subsec:rw_structure_opt}

% 注：需补充到ref.bib: liu2019darts (Liu et al., DARTS, ICLR 2019)
% 注：需补充到ref.bib: frankle2019lottery (Frankle & Carlin, Lottery Ticket Hypothesis, ICLR 2019)
在更高层面上，当模型需要在多个异构任务间分配有限的可训练参数时，如何在容量约束下实现高效适配，本质上转化为一个结构学习问题。

神经架构搜索（NAS）技术提供了一种自动化的结构设计路径。DARTS通过将离散的架构选择松弛为连续优化问题，实现了可微分的架构搜索\cite{}。% 注：需补充到ref.bib: liu2019darts (Liu et al., DARTS: Differentiable Architecture Search, ICLR 2019)
在时空领域，AutoSTF\cite{AutoSTF}等工作将NAS引入时空预测模型的设计，通过搜索最优的时空操作组合以适配不同数据集的特性。这些工作表明，针对特定时空任务分布，不存在普适的静态最优结构，结构本身应当是任务相关且可学习的。

在模型压缩方面，结构化剪枝与稀疏化学习旨在通过移除冗余参数或限制激活模式来提升计算效率。彩票假说指出，在密集网络中存在稀疏子网络能够达到甚至超越完整网络的性能\cite{}，% 注：需补充到ref.bib: frankle2019lottery (Frankle \& Carlin, The Lottery Ticket Hypothesis, ICLR 2019)
这为参数结构的可选择性提供了理论支持。在大语言模型场景下，运动剪枝（Movement Pruning）\cite{sanh2020movement}等方法通过训练过程中的参数重要性评估实现结构化稀疏。

从多任务适配的角度来看，容量分配问题的核心在于：哪些参数结构应当跨任务共享，哪些应当任务特有，以及如何在有限预算约束下实现这种共享—特有划分的自动发现。这一问题直接对应参数级结构异质性（$\mathcal{R}_{param}$）的建模需求。在参数高效适配框架下，稀疏微调与结构学习的结合尤为重要。SHiRA通过高秩稀疏更新替代低秩稠密更新，在相同参数预算下获得更强的表达能力\cite{shiracite}。MTLoRA等工作将多任务学习与LoRA结构相结合，在任务间共享低秩基础并学习任务特定的路由策略\cite{agiza2024mtlora}。运动剪枝\cite{sanh2020movement}与稀疏缩放微调\cite{ansell2024scaling}等方法则通过在训练过程中动态评估参数重要性，实现面向特定任务的结构化稀疏。

然而，现有方法在多任务场景下的容量分配多依赖预先设定的共享规则或简单的任务标识路由，缺乏能够在统一预算约束下同时学习共享结构与特有结构的系统化机制。如何将结构发现从"给定结构下的参数学习"提升为"结构与参数的联合优化"，仍是当前多任务适配研究中的开放问题。


\subsection{现有适配方法的对比分析与不足}
\label{subsec:rw_peft_discussion}

综合上述五个方面的文献梳理，可以从"调制对象"与"结构层级"两个维度对现有适配方法进行系统比较，如表~\ref{tab:ch2_method_comparison}~所示。

\begin{table}[htbp]
\centering
\caption{现有适配方法的调制对象与结构层级对比分析}
\label{tab:ch2_method_comparison}
\renewcommand{\arraystretch}{1.15}
\small
\begin{tabular}{llccc}
\toprule
\textbf{方法类别} & \textbf{代表方法} & \textbf{调制对象} & \textbf{结构层级} & \textbf{结构感知} \\
\midrule
附加式PEFT & Adapter, Prefix & 层内瓶颈/前缀向量 & 参数级（弱结构） & 无 \\
低秩分解 & LoRA, DoRA & 权重增量$\Delta\mathbf{W}$ & 参数级 & 无（均匀秩） \\
动态秩分配 & AdaLoRA & 权重增量$\Delta\mathbf{W}$ & 参数级 & 层级差异 \\
多任务路由 & MoELoRA, LoRAMoE & 专家选择与门控 & 模块级 & 任务级 \\
梯度冲突处理 & PCGrad, CAGrad & 梯度方向 & 优化级 & 任务级 \\
频域分解 & FourierFT, WaveletFT & 频域系数 & 频谱级 & 频段级 \\
结构稀疏 & SHiRA, 运动剪枝 & 稀疏掩码 & 参数结构级 & 元素级 \\
\bottomrule
\end{tabular}
\end{table}

从表~\ref{tab:ch2_method_comparison}~可以看出，现有方法在适配机制上已覆盖了参数级、模块级、频谱级等不同层面，但存在以下三个方面的共性不足。

\textbf{第一，结构感知的粒度与深度有限。}多数方法仅在单一层级上引入结构差异化处理——例如AdaLoRA在层间分配不同秩、MoE方法在任务间路由不同专家——但缺乏在多个结构层级上同时进行协调的统一机制。从城市时空数据的结构复杂性来看，多任务功能异质性、位置结构依赖、多尺度动态模式以及多源容量差异可能同时存在且相互影响，单一层级的结构感知难以覆盖这种多维结构异质性。

\textbf{第二，方法之间缺乏统一的理论视角。}上述方法分别从参数分解、梯度优化、路由选择、频域分析等不同角度出发，各自解决某一类结构问题。然而，这些方法之间缺乏共同的形式化框架，使得不同策略难以在统一视角下进行比较、组合或递进。从表征学习的角度来看，不同层级的适配方法实际上可以被理解为对模型表示流施加不同形式的条件化调制，但这一认识在现有文献中尚未得到系统阐述。

\textbf{第三，与时空数据结构特征的关联不足。}现有适配方法多从通用的自然语言处理或多模态学习场景出发进行设计，其结构假设与城市时空数据的特殊结构特征之间缺乏直接关联。例如，LoRA的均匀低秩假设未考虑时空任务中不同维度承担不同频率信息编码功能的事实；MoE的路由策略未利用时空数据中多任务功能异质性的领域先验。这种"方法设计"与"数据结构"之间的脱节，限制了适配方法在复杂时空场景中的表现。

上述分析表明，要有效解决时空建模中的适配问题，需要建立一个能够统一刻画不同结构层级适配机制的分析框架，并据此设计与时空数据结构特征系统关联的适配方法。这正是第~\ref{sec:unified_framework}~节所建立的结构感知调制统一框架的出发点。


%======================================================================
\section{时空智能数据集与评测基础设施研究}
\label{sec:rw_benchmark}

数据资源与实验评测体系是推动时空智能建模方法持续发展的重要基础。随着技术范式向基础模型转移，评测对象从传统的数值预测精度扩展到推理一致性、工具可执行性与跨源泛化能力。本节从数据集构建、评测范式及基础设施发展趋势等方面，对当前研究进展进行系统梳理。

\subsection{时空预测与分析数据集}
\label{subsec:rw_st_datasets}

当前时空智能研究中，应用最为广泛的数据资源主要集中于交通预测领域。METR-LA与PEMS-BAY\cite{METR_LA/PEMS_BAY}提供了洛杉矶与旧金山湾区高速公路传感器网络的速度观测数据，已成为时空图神经网络研究的标准基准。PEMS系列数据集\cite{PEMSD3/7,PEMSD4/8}覆盖了加利福尼亚州不同区域与不同时段的交通流量数据。LargeST\cite{LargeST}进一步将数据规模扩展至覆盖数千个传感器的大规模场景。在轨迹与出行数据方面，纽约出租车与共享单车数据集\cite{NYCTaxi/Bike}、Foursquare签到数据\cite{Foursquare-NYC/TKY}以及Porto出租车GPS轨迹\cite{Porto}等被广泛用于出行需求预测与轨迹建模研究。

这些数据集的重要贡献在于为时空模型提供了标准化的实验协议与可比较的评测基准。在实验设计上，相关研究通常采用固定时间窗口划分训练集与测试集，通过均方误差（MAE）、均方根误差（RMSE）等指标评估预测性能。以交通预测为例，标准实验设置通常以过去12个时间步（1小时）的历史观测预测未来12个时间步的状态变化，模型之间的比较在统一的数据划分与评价指标下进行。这种规范化的评测协议极大地促进了时空图神经网络领域的快速发展，使研究者能够在公平条件下对比不同方法的性能。

在轨迹与移动性建模方面，研究者构建了包含多种任务目标的数据资源。例如，出行轨迹数据被用于轨迹恢复\cite{RNTrajRec}、下一兴趣点推荐\cite{GETNEXT}、行程时间估计\cite{TTPNet}以及地图匹配\cite{FMM}等多种任务。这些任务虽基于相似的底层数据，但在建模目标、评价方式与应用场景上存在显著差异，体现了城市时空数据"一数据多任务"的特点。

然而，由于任务目标集中于数值回归或序列预测，此类数据资源在评估模型的结构推理能力与复杂情境理解方面存在局限。具体而言：预测任务的评价仅关注输出数值与真实值之间的误差，无法反映模型是否真正理解了时空关系的内在逻辑；不同任务的数据集在格式规范、评价指标与实验设置上缺乏统一标准，导致跨任务的模型能力比较困难。随着大语言模型在时空领域的应用探索不断深入，需要构建能够覆盖推理、决策与工具调用等更广泛能力维度的评测资源。


\subsection{面向推理与决策的时空任务数据}
\label{subsec:rw_reasoning_data}

% 注：需补充到ref.bib: han2025poiqa (Han et al., POI-QA, arXiv 2025)
% 注：需补充到ref.bib: dihan2025mapeval (Dihan et al., MapEval, arXiv 2025)
随着时空智能研究向推理与决策支持方向拓展，一批面向结构推理能力评估的数据集相继出现。从推理要素与输入模态的角度，可将这些工作归纳为以下几类。

\textbf{兴趣点与轨迹推理。}
POI-QA通过清洗真实车辆轨迹与地理POI数据，构建了需要同时理解空间位置与时间上下文的双语问答任务，系统评估模型对时空条件敏感问题的回答能力\cite{}。% 注：需补充到ref.bib: han2025poiqa (Han et al., A Dataset for Spatiotemporal-Sensitive POI Question Answering, arXiv:2505.10928)
% TODO: 可补充POI-QA具体规模（418K POI、540万QA对、四级难度），为第六章铺垫
STBench从空间理解、时间推理与时空联合推理三个维度对大语言模型进行评测\cite{STBench}。

\textbf{地图与空间关系推理。}
MapEval将地图推理分解为文本、API与视觉三种交互形态，评估基础模型在不同输入条件下的空间推理一致性\cite{}。% 注：需补充到ref.bib: dihan2025mapeval (Dihan et al., MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models, arXiv:2501.00316)
% 注：需补充到ref.bib: bhat2026mapverse (Bhat et al., MapVerse, arXiv 2026)
% 注：需补充到ref.bib: truong2026gpsbench (Truong et al., GPSBench, arXiv 2026)
GPSBench将坐标推理能力拆分为几何计算与世界知识两个维度\cite{}。% 注：需补充到ref.bib: truong2026gpsbench (Truong et al., GPSBench: Do Large Language Models Understand GPS Coordinates?, arXiv:2602.16105)

\textbf{时空推理与决策规划。}
USTBench构建了交互式城市仿真环境，将时空推理能力分解为理解、预测、规划与反思四个维度进行诊断性评估\cite{USTBench}。
% 注：需补充到ref.bib: song2025stark (Song et al., STARK, arXiv 2025)
STARK基准结合空间代数与时间逻辑框架，评估模型在复杂时空约束推理中的能力\cite{}。% 注：需补充到ref.bib: song2025stark (Song et al., Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models, arXiv:2505.11618)

上述推理型数据集的共同特点在于：输入包含隐式的几何、拓扑或时序约束，输出要求可解释的空间关系判断或可执行计划。这使得它们能够更充分地暴露模型在结构一致性方面的不足，为评估结构感知适配方法的有效性提供了更为严格的测试场景。


\subsection{城市仿真环境与智能体平台}
\label{subsec:rw_simulation}

% 注：需补充到ref.bib: krajzewicz2012sumo (Krajzewicz et al., SUMO, 2012)
% 注：需补充到ref.bib: zhang2019cityflow (Zhang et al., CityFlow, WWW 2019)
% 注：需补充到ref.bib: yan2024opencity (Yan et al., OpenCity, arXiv 2024)
在真实城市运行环境中，系统状态持续演化并受多主体行为共同影响。仅依赖静态离线数据集难以全面评估模型在动态交互场景中的能力。

在传统仿真领域，SUMO作为开源交通微观仿真平台，长期为交通系统研究提供基础实验设施\cite{}。% 注：需补充到ref.bib: krajzewicz2012sumo (Krajzewicz et al., SUMO - Simulation of Urban MObility, 2012)
CityFlow则面向大规模城市交通场景提供了支持强化学习接口的高性能仿真环境\cite{}。% 注：需补充到ref.bib: zhang2019cityflow (Zhang et al., CityFlow: A Multi-Agent Reinforcement Learning Environment for Large Scale City Traffic Scenario, WWW 2019)
近年来，随着大语言模型智能体概念的兴起，面向城市场景的LLM智能体仿真平台开始出现。OpenCity通过系统优化与提示工程，实现了大规模LLM智能体的城市活动仿真\cite{}。% 注：需补充到ref.bib: yan2024opencity (Yan et al., OpenCity: A Scalable Platform to Simulate Urban Activities with Massive LLM Agents, arXiv:2410.21286)
CityBench将交通预测、出行需求估计等多种城市任务纳入统一评测框架，支持对不同模型在多任务场景下的系统性能比较\cite{CityBench}。

在面向模型开发的研究基础设施方面，LibCity\cite{Libcity}与DL-Traff\cite{Dl-traff}提供了标准化的数据处理流程与统一的模型评价接口，覆盖了包括交通速度预测、流量预测、轨迹恢复及行程时间估计在内的多类时空任务；TorchSpatial\cite{Torchspatial}则进一步将时空建模任务纳入模块化的实验框架，支持灵活的模型组合与实验配置。这些平台在促进实验可复现性与方法公平比较方面发挥了重要作用。然而，随着研究领域的快速发展，新模型与新数据集的持续涌现对平台的可扩展性提出了更高要求。现有平台在模型收录的持续性、评测流程的自动化程度以及跨平台实验结果的可比性方面仍存在提升空间。特别是，当评测对象从传统的预测模型扩展到大语言模型时，现有平台的任务组织方式与评测协议需要进行相应的适配与升级。


\subsection{现有评测体系的局限性}
\label{subsec:rw_benchmark_limits}

综合来看，当前时空智能评测体系虽在快速发展中，但仍存在若干不足，主要体现在以下方面。

\textbf{（1）任务形态覆盖不足。}多数评测仍以离线数值预测为主要验证方式，对推理一致性、工具调用可执行性及多步决策能力的评估较少。CityBench\cite{CityBench}与MapEval等工作的出现表明社区已意识到这一缺口，但覆盖范围仍有限。

\textbf{（2）评测协议缺乏统一标准。}不同数据集与评测平台在数据划分方式、评价指标选择以及实验设置方面差异较大，导致实验结果难以形成统一的比较基准。现有评测框架多依赖人工维护，在可扩展性与持续更新能力方面存在不足。

\textbf{（3）时空敏感的推理评测资源不足。}现有问答类数据集在空间与时间信息的联合建模方面仍较为有限，缺乏同时包含精确空间位置信息与时间上下文、且对时空条件变化敏感的大规模评测语料。

\textbf{（4）方法评测与系统评测尚未形成闭环。}在方法层面提出的适配策略，往往缺乏在统一且具有持续性的评测框架下进行系统验证的条件。从方法设计到实验验证再到工程应用之间的链路尚不完整。

上述局限表明，构建能够支持多任务、多阶段验证以及持续更新的评测基础设施，对于推动时空智能建模方法的系统化研究具有重要意义。这也为本文第六章构建面向时空智能的评测体系提供了直接动机。


%======================================================================
\section{本章小结}
\label{sec:rw_summary}

本章围绕城市时空数据建模与基础模型适配问题，对相关领域的研究现状进行了系统梳理。

在时空建模方面，方法演进由传统统计建模经历深度时空表征学习，逐步走向以基础模型为代表的通用表示构建路径。传统时空统计方法在可解释性与不确定性建模方面具有学理优势，其建立的空间依赖、时间非平稳性与层次化不确定性等概念，为后续深度表征学习中归纳偏置的设计提供了理论先导。以图神经网络与Transformer为代表的深度方法通过端到端学习显著提升了复杂模式建模能力，形成了覆盖栅格建模、图结构建模与长序列建模的完整方法体系。然而，这些方法多围绕单一任务进行设计，在多任务协同与跨场景迁移方面仍面临泛化能力不足的问题。大语言模型的引入为统一建模提供了新路径，但现有探索多停留在输入对齐与格式转换层面，对模型内部表示结构与时空数据特征之间的协调关注不足。

在适配方法方面，参数高效微调技术在降低适配成本的同时保持了较好的任务性能，已成为主流技术路径。然而，如第~\ref{subsec:rw_peft_discussion}~节的对比分析所示，现有方法在结构感知的粒度与深度、理论统一性以及与时空数据结构的关联等方面仍存在系统性不足。具体而言：LoRA等方法默认在模型各层与各投影矩阵上施加均匀的低秩约束，未能利用模型内部的结构角色差异；多任务路由机制揭示了模块级功能分化的必要性，但缺乏与时空任务结构特征的系统关联；表示各向异性与位置编码分析揭示了维度级功能差异的存在，但尚未被有效转化为适配机制的设计依据；频谱偏置与多尺度建模方法表明参数更新本身具有频谱级结构特性，但现有频域PEFT方法多采用单一变换基，缺乏跨频段的信息传递机制。上述研究从不同角度为结构感知的非均匀适配提供了理论与实证基础，但各方法之间缺乏统一的形式化框架加以整合。

在评测体系方面，现有研究虽积累了丰富的数据资源与实验经验，但在任务形态覆盖、评测协议统一性以及方法-系统闭环等方面仍存在改进空间。特别是缺乏面向时空敏感推理的大规模评测资源，以及支持持续更新与多阶段评估的基础设施。这些不足限制了适配方法在接近实际应用环境的条件下得到系统验证。

综上所述，当前研究在以下三个方面存在进一步探索空间：（1）如何在统一框架下刻画并利用模型内部的结构角色差异；（2）如何从模块级、维度级、频谱级与参数级等多个层面设计结构感知的适配机制；（3）如何构建支撑复杂时空任务验证的评测基础设施，形成方法-数据-系统闭环。后续各章将分别从模块级（第三章）、维度级（第四章）、频谱级与参数级（第五章）以及评测基础设施（第六章）等层面，对第~\ref{sec:unified_framework}~节提出的统一分析框架进行逐层实例化与实验验证。