Files
Graduate/deepresearch/Gemini-deep-research-1.txt
2026-03-19 02:28:50 +08:00

204 lines
52 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
第二章 时空表征学习与大模型建模方法研究现状
2.1 时空数据建模与表征学习研究
2.1.1 时空数据建模问题类型与应用场景
城市时空数据是刻画现实物理世界动态演化过程的基础信息载体其本质是人类活动、自然物理环境以及人造基础设施在时间和空间维度上的映射。随着城市物联传感网络IoT、移动互联网终端以及地球观测卫星的普及时空数据呈现出多源异构、高维动态以及海量流式的特征。在应用场景层面时空数据建模问题主要涵盖交通流量与需求预测、城市气象与环境监测、人类活动轨迹追踪、公共安全与流行病预警以及城市资源调度等核心领域 1。这些问题在底层逻辑上均要求模型能够敏锐捕捉地理空间拓扑如路网连接、区域邻接、功能区分布与时间序列动态如周期性、趋势性、突发性之间的复杂耦合关系。
不同场景下的时空数据可以进一步抽象为若干类核心的表征对象。第一类是具有显式图结构的传感网时空序列,例如交通传感器采集的速度、流量和占有率数据,或是气象站点记录的温度与降水序列 4。这类数据的物理意义明确时空结构表现为固定传感器节点在时间轴上的连续观测。第二类则是蕴含丰富语义信息的离散时空事件序列或语义轨迹例如用户的兴趣点POI访问记录、共享单车的起讫点OD流、以及带有地理标签的社交媒体签到数据 1。第三类为连续的栅格或视觉图像数据如遥感卫星影像和街景图像主要用于宏观的土地利用分类与微观的城市形态识别 6。
在这些复杂的城市计算场景中,时空系统的演化呈现出高度的非线性与不确定性。一个区域的状态不仅受到其局部历史状态的自回归影响,还受到全局空间拓扑的约束、跨区域空间溢出效应的波及,以及外部环境因素(如天气、节假日、大型活动)的共同驱动。这种复杂的时空依赖关系,对时空智能建模的表征提取能力、多源信息融合能力以及泛化推演能力提出了极高的要求。
2.1.2 传统时空建模方法
早期的时空建模研究主要依赖于经典的统计学理论与传统机器学习方法。在时间维度的时间序列分析中自回归移动平均模型ARIMA及其变体如包含季节性因素的 SARIMAX被广泛应用于捕获时间序列的线性依赖与周期性演变规律 7。这类模型基于平稳性假设通过差分操作提取数据的固有趋势在短期交通流预测或简单的气象指标外推中取得了初步成效。
在空间维度的建模中考虑到地理学第一定律所揭示的“空间自相关性”以及地理学第二定律所强调的“空间异质性”地理加权回归Geographically Weighted Regression, GWR作为一种经典的局部回归技术被广泛采用。GWR 通过在回归方程中引入空间坐标位置作为权重函数放宽了传统普通最小二乘法OLS全局回归对空间平稳性的严苛假设从而能够有效建模空间变异关系 8。为了进一步融合时空维度的动态特征研究者提出了时空地理神经网络加权回归GTNNWR模型利用人工神经网络ANN来非线性地估计时空非平稳性有效提升了复杂地理过程如空气质量分布、海洋硅酸盐浓度变化的拟合精度与解释性 10。
此外在涉及动态系统状态追踪的应用中卡尔曼滤波Kalman Filter及其非线性扩展算法如无迹卡尔曼滤波 Unscented Kalman Filter、集合卡尔曼滤波 Ensemble Kalman Filter在时空动力学系统的状态估计与数据同化中发挥了不可替代的作用 11。这类状态空间方法能够通过观测方程与状态转移方程在存在不确定性噪声的环境下持续更新系统的最优估计。
尽管上述传统方法在特定的平稳或弱非平稳假设下具备严谨的数学可解释性,但它们在面对高维、非线性且包含海量噪声的现代城市时空大数据时,逐渐暴露出表征能力不足、特征工程极其繁琐、难以自动提取深层抽象特征,以及难以向超大规模路网规模化扩展的严重瓶颈。
2.1.3 深度学习驱动的时空表征学习方法
为克服传统统计模型的局限性深度表示学习Deep Representation Learning逐渐取代手工特征工程成为时空计算领域的核心范式。早期的深度学习探索多采用卷积神经网络CNN与循环神经网络RNN/LSTM/GRU的串联或并联组合。研究者通常将城市空间划分为均匀的欧几里得网格如图像像素利用 CNN 提取空间邻域特征,随后送入 RNN 捕获时间依赖 13。然而城市路网及传感器分布通常呈现不规则的非欧几里得图结构强行将其映射为网格会破坏真实的地理拓扑关系。
近年来时空图神经网络STGNN的兴起为非欧时空数据的表征学习带来了突破性进展。STGNN 将传感器或地理区域建模为图的节点,将物理连接或属性相似性建模为图的边。代表性工作 DCRNNDiffusion Convolutional Recurrent Neural Network创造性地将交通流的动态传播建模为有向图上的随机游走扩散过程并与序列到序列Seq2Seq的编码器-解码器架构结合,有效捕获了复杂的非对称时空相关性 4。与此同时STGCNSpatio-Temporal Graph Convolutional Networks则在频域上定义了图卷积算子通过完全的卷积结构1D Temporal CNN + Graph GCN替代了耗时的 RNN 循环计算,大幅提升了训练效率与长序列建模能力,有效缓解了梯度消失问题 16。
随着研究的深入如何处理动态变化的图拓扑结构成为新的挑战。Graph WaveNet 针对传统模型高度依赖预定义邻接矩阵的缺陷引入了自适应图学习机制Adaptive Graph Learning能够在未提供显式空间拓扑图的情况下通过节点嵌入向量的双向内积自发学习潜在的空间依赖关系同时该模型采用扩张因果卷积Dilated Causal Convolutions在不显著增加网络深度的前提下以指数级扩大了时间感受野极大地增强了长程时间依赖的建模能力 17。此外多变量时间序列预测模型如 StemGNN将图傅里叶变换GFT与离散傅里叶变换DFT结合在联合的谱域空间中同时捕获变量间的空间交互与时间演变规律无需预设任何拓扑先验 18。这些深度表征模型的繁荣标志着时空数据建模正式迈入了特征自动学习的新阶段。
2.1.4 时空建模中的结构复杂性问题
尽管 STGNN 及其变体在各类基准测试中取得了显著成功,但在面对极端复杂且高度异质的城市巨系统时,现有深度学习范式依然受制于时空数据内在的结构复杂性与异质性。真实的城市时空数据并不是均匀分布的数值流,而是在多个维度上呈现出显著的结构角色分化,具体表现为以下四个层级:
1. 多任务功能异质性:城市系统中往往存在多任务高度共存的场景(如同时预测交通流、空气质量、能耗与事件风险)。这些任务间既存在共享的底层物理因果规律,又存在相互冲突的特定特征表示与容量需求 10。传统 STGNN 通常采用硬共享Hard-parameter Sharing的底层网络容易导致严重的任务间负迁移Negative Transfer与知识干扰。
2. 位置结构依赖与表示各向异性时空事件发生的时间周期性与空间相对位置赋予了输入序列中不同元素完全不同的语义权重。然而多数现存的图注意力机制GAT或标准自注意力网络在特征聚合时未能有效区分维度空间内的频率属性导致关键的位置结构信息在层层传递中被过度平滑Over-smoothing丧失了表示的各向异性分辨力。
3. 多尺度动态模式:城市时空规律同时包含高频的局部突变(如交通事故引起的瞬时拥堵)与低频的全局演变(如城市级早晚高峰周期、长期气象演变) 5。单一感受野的卷积或同质化的注意力窗口难以兼顾跨尺度的频谱特征导致模型极易陷入优先拟合低频信息的“频谱偏置”Spectral Bias陷阱 20。
4. 多源差异与容量分配冲突:跨模态的时空数据(如文本语义、遥感栅格、轨迹向量)在信息密度与信噪比上存在天壤之别 6。深度模型在内部参数矩阵的容量分配上通常是静态的、人工指定的无法根据数据源的异质性自适应地进行参数拓扑发现与资源调度。
上述结构异质性深刻地揭示了一个科学问题:任何试图用均匀的、同质化的网络结构(无论是深度图卷积还是标准 Transformer去“同等地”对待所有时空输入特征的尝试都会不可避免地导致模型容量的浪费或关键结构信号的淹没。这一问题不仅是传统 STGNN 的瓶颈也为后续引入具有更强表示能力的大语言模型LLM并对其进行结构化感知适配提供了直接且根本的动机。
________________
2.2 基础模型与大语言模型表征机制研究
2.2.1 Transformer 表示学习机制
大语言模型之所以能够引发人工智能领域的范式革命,其底层架构 Transformer 功不可没。Transformer 彻底摒弃了 RNN 的序列递归计算范式利用自注意力Self-Attention机制和前馈神经网络Feed-Forward Network, FFN建立了全局的长程依赖关系。在统一的表示符号体系下给定第 $\ell$ 层 Transformer 的输入隐藏表示 $\mathbf{H}^{(\ell-1)} \in \mathbb{R}^{T \times d}$(其中 $T$ 为序列长度,$d$ 为表示维度),自注意力模块首先通过线性投影生成 Query、Key 和 Value 矩阵:$\mathbf{Q}^{(\ell,h)}$、$\mathbf{K}^{(\ell,h)}$、$\mathbf{V}^{(\ell,h)}$$h$ 为多头注意力的头索引)。随后,通过点积缩放计算注意力权重矩阵,并施加 Softmax 操作,实现当前 Token 对上下文全局信息的加权聚合。
从模型内部的模块功能角色分化来看近年来的机制可解释性研究表明自注意力模块更偏向于执行上下文信息的路由与整合Contextual Integration负责在序列中不同元素之间建立动态的信息通道而前馈网络模块FFN则更像是一个海量的局部知识存储器Knowledge Repository其庞大的参数矩阵编码了训练语料中蕴含的事实性知识与模式规律。这种模型内部模块级Module-level的角色分化为后续针对不同时空任务实施差异化的表征流调制提供了坚实的微观理论基础 21。
2.2.2 预训练基础模型与表示迁移学习
随着底层计算算力的指数级增长与海量无标注互联网数据的积累,基于 Transformer 构建的预训练基础模型Foundation Models展现出了空前强大的表示迁移能力 23。在自然语言处理NLP领域以 BERT双向编码器表示、GPT-3 及 ChatGPT生成式预训练 Transformer为代表的模型通过大规模自监督预训练如掩码语言建模 MLM、下一词预测 NTP学习到了高度泛化的通用语法、语义乃至常识世界模型 24。这种“预训练-微调”Pretrain-Finetuning范式叠加指令微调Instruction Tuning与基于人类反馈的强化学习RLHF使得模型具备了卓越的零样本泛化与少样本学习能力。
这种范式的成功迅速向其他数据模态扩散催生了时空基础模型STFM的初步探索 26。时空基础模型试图通过掩码重构如随机掩盖部分传感器读数并要求模型预测或对比学习方法在海量无标注的城市交通传感流、多源气象观测以及全城人类移动轨迹数据上提取通用的时空分布不变性特征。这类自监督预训练极大地降低了下游专门化时空任务对昂贵标注样本的依赖。然而单纯从零开始训练Train-from-scratch一个千亿参数级别的时空大模型面临着数据模态不一、算力成本极高的问题。因此直接利用已具备强大认知能力的通用 NLP 大语言模型,并将其泛化至时空域,成为了一条更具前景的技术路径。
2.2.3 大语言模型在复杂任务建模中的潜力
大语言模型在参数规模跨越百亿甚至千亿级别后涌现Emergence出了上下文学习In-context Learning、思维链Chain of Thought, CoT推理以及零样本逻辑推演等革命性能力 24。更深刻的是最近的表征探针Representation Probing研究发现LLM 并不单纯是概率性的“随机鹦鹉”;其庞大的高维参数空间内部,实际上自发形成并潜藏了对真实物理世界的时间、空间、甚至地理坐标系统的同态映射表征 27。
在涉及复杂系统演算、长程关联反思以及跨域知识融合的场景中大语言模型展现出了远超传统专用时空神经网络的潜力。认知科学与神经科学研究表明空间认知Spatial Cognition是智能体进行高级逻辑与数学推理的关键底层能力支撑而自然语言处理能力反而是构建在此之上的表层功能 28。因此LLM 内部展现出的时空记忆Spatial Memory、几何拓扑抽象归纳以及导航推理能力为其在跨领域的城市系统规划、长期交通态势演化以及复杂公共安全因果推理中提供了一个极具通用性的认知基座。这表明LLM 不仅能“读懂”文本,更能通过适当的对齐策略“理解”蕴含物理规律的时空数字序列。
2.2.4 大模型在时空智能领域的初步探索
在上述潜力的驱动下,学术界已开始积极探索将大语言模型直接应用于时空智能任务。代表性的探索工作包括 UrbanGPT该框架首次尝试将轻量级的时空依赖编码器与大语言模型的指令微调范式无缝结合。通过构建时空指令集UrbanGPT 在极端数据稀缺的零样本场景下,实现了对跨城市、跨模态现象的准确预测 30。类似地TransLLM 提出了一个统一的基础框架通过强化学习训练基于实例级别的提示路由机制Prompt Routing将时空图网络提取的复杂拓扑特征转化为结构化嵌入并作为上下文引导 LLM 在交通预测与调度任务中进行数值推理 19。此外CityGPT、UrbanLLaVA 等多模态工作则进一步拓展了时空数据的边界,实现了宏观城市视觉、微观街景图像与时空轨迹数值的联合认知建模 34。
然而,现阶段的探索仍主要呈现出一种“外部拼接”与“浅层对齐”的特征。大多数方法仅仅将 LLM 视为静态的黑盒知识引擎或采用全局一致的指令微调Instruction Tuning机制。这类方法未能在微观层面触及大模型内部注意力机制与权重更新机制同“时空数据高度结构化特征”之间的深刻矛盾。大模型原本为处理一维的、相对同质的自然语言而设计当其面临具有强时空周期性、复杂图拓扑以及跨尺度波动的多任务时空流时如果不对其内部参数表示进行深度的结构角色干预极易导致时空拓扑信息的丢失、表示维度的坍塌以及多任务间的知识干扰。
________________
2.3 参数高效适配与结构建模方法研究(核心分析框架)
基于 2.1.4 节的分析,城市时空数据具有极强的多层次结构角色异质性。而传统的基础模型或大语言模型,在结构设计上往往假定各层、各注意力头以及各表示维度具有高度的均匀分布。这种数据端的“结构异质”与模型端的“均匀同质”之间产生了严重的供需错配。这一矛盾对 LLM 在时空领域的深入应用提出了特殊要求。
针对上述挑战,本文提出结构角色感知的表征适配统一分析框架,将时空数据的结构特征与大语言模型内部的功能层级进行深度映射与对齐。在统一的理论视角下,结构感知的表示调制可以形式化为如下母式算子:
$$\tilde{\mathbf{Z}} = \mathcal{M}_\theta(\mathbf{Z} \mid \mathbf{X}, \mathcal{R})$$
其中:
* $\mathbf{Z}$ 表示模型内部待调制的目标对象,根据结构层级的不同,它可以是注意力层的隐藏表示 $\mathbf{H}^{(\ell)}$、注意力投影子空间 $\mathbf{Q}^{(\ell)} / \mathbf{K}^{(\ell)}$,或是权重矩阵的参数更新量 $\Delta\mathbf{W}$。
* $\mathcal{M}_\theta$ 表示结构感知调制算子Structure-aware Modulation Operator负责执行非均匀的变换。
* $\mathbf{X}$ 表示输入的时空上下文信息序列。
* $\mathcal{R} = \{\mathcal{R}_{mod}, \mathcal{R}_{dim}, \mathcal{R}_{freq}, \mathcal{R}_{param}\}$ 表示四类多层级的结构角色信息,分别对应模型模块级、表示维度级、信号频谱级与参数结构级的异质性先验。
下文将围绕这一统一理论框架,系统综述大语言模型的参数高效适配技术,并深度剖析其向结构化建模演进的研究脉络。
2.3.1 参数高效微调方法
当基础预训练模型的参数规模从数亿膨胀至千亿级别时针对各类细分时空下游任务进行全参数微调Full Fine-Tuning的计算开销与显存成本是工程上不可接受的并且在数据量不足的情况下极易引发灾难性遗忘Catastrophic Forgetting23。因此参数高效微调Parameter-Efficient Fine-Tuning, PEFT应运而生并迅速成为大模型适配的主流范式 36。PEFT 的核心哲学是:冻结庞大的预训练骨干网络参数 $\Theta_0$,仅在模型架构中插入、拼接或修改极少量的可训练适配参数 $\Theta_a$,使得最终应用于目标任务的模型参数可统一表示为 $\Theta = \Theta_0 + \Delta \Theta$ 38。
目前主流的 PEFT 技术可大致划分为三类:
1. 附加型微调Additive PEFT如 Adapter 技术,在 Transformer 层的自注意力模块或 FFN 模块之后插入小型的多层感知机MLP瓶颈网络以及前缀微调Prefix Tuning或提示微调Prompt Tuning通过在序列输入前端追加可学习的连续向量引导模型生成特定响应。
2. 选择型微调Selective PEFT例如 BitFit仅微调网络中所有的偏置项Bias冻结所有权重矩阵。
3. 重参数化微调Reparameterized PEFT其中最具代表性且应用最广的即为低秩自适应Low-Rank Adaptation, LoRA 24。LoRA 建立在一个核心假设之上:即模型在适应下游任务时,其权重更新矩阵 $\Delta \mathbf{W}$ 具有极低的内在秩Intrinsic Rank。因此LoRA 将高维权重增量分解为两个低秩矩阵的乘积 $\Delta \mathbf{W} = \mathbf{B}\mathbf{A}$(其中 $\mathbf{A} \in \mathbb{R}^{r \times d_{in}}$$\mathbf{B} \in \mathbb{R}^{d_{out} \times r}$$r \ll \min(d_{in}, d_{out})$),从而成百上千倍地减少了训练参数的规模。后续衍生出的 DoRA权重分解低秩适配和 AdaLoRA自适应低秩适配进一步提升了表达能力并实现了基于重要性得分的动态秩分配 39。
然而,必须指出的是,包括 LoRA 在内的经典 PEFT 方法在本质上属于均匀适配策略。在应用于时空计算时,它们机械地对所有选定的 Transformer 层或投影矩阵(如 $W_q, W_v$)施加全局均等的低秩约束。这种同质化的参数更新完全无视了时空多任务场景下,模型不同模块、不同频域需要吸收的知识类型及其密度存在天壤之别这一关键事实。均匀适配严重限制了模型在复杂城市多任务协同中的表征能力上限,迫切需要引入更加细粒度的结构感知机制。
2.3.2 多任务学习与知识路由机制(模块级异质性 $\mathcal{R}_{mod}$
城市时空系统天然是一个多任务并行环境。在这一环境中交通流预测、事件发生概率估计、POI推荐等任务不仅需要在有限的参数空间内共享底层物理表征还要应对彼此之间存在的“负迁移”Negative Transfer与目标冲突。为了解决多任务知识的融合与抗干扰问题学术界开始探索将结构路由引入深度模型内部。
在预训练语言模型领域混合专家模型Mixture-of-Experts, MoE是实现网络结构稀疏化与模块级角色分化的经典架构范式 41。MoE 将 Transformer 中标准的前馈网络替换为多个并行的异构“专家”子网络并通过一个可学习的门控路由网络Router针对当前输入的特征或 Token 动态激活少数最匹配的专家 22。近期的神经元层面机理研究进一步证实了这种模块分化的存在在进行多任务微调时LLM 内部会分化出高度特化的“任务特异性神经元”Task-specific Neurons这些神经元在特定层内聚集主导了特定任务的泛化能力而且在推理更为复杂的多模态时空问题时高层与底层的模型模块会表现出明显不同的路由激活率RoE 21。同时诸如 Mixture-of-LoRAs (MoA) 的架构展示了利用显式路由策略,动态融合多个独立训练的领域适配低秩模块的可行性,有效缓解了多任务干扰 45。
从本文的统一分析框架看,上述方法揭示了 Transformer 架构在应对多任务时的模块功能角色差异Module-level Specialization。面对时空数据的多任务功能异质性应当构建以 $\mathcal{R}_{mod}$ 为导向的乘性调制机制Multiplicative Modulation
$$\mathcal{M}_\theta(\mathbf{Z}) = \mathbf{Z} \odot \mathbf{S}_\theta(\mathbf{X}, \mathcal{R}_{mod})$$
通过直接选定注意力层的输出隐藏表示作为调制对象 $\mathbf{Z} = \mathbf{H}_{att}^{(\ell)}$,并以输入上下文 $\mathbf{X}$ 结合任务模块标识 $\mathcal{R}_{mod}$ 为条件生成调制门控 $\mathbf{S}_\theta$可以直接对表示流进行细粒度的增强与抑制实现任务相关信号的路由放大与干扰信号的遮蔽。这一模块角色感知的表征适配思想构成了本文第三章HyCAM 多任务表征适配方法)的方法学基础与理论起点。
2.3.3 表示各向异性与结构感知学习(维度级异质性 $\mathcal{R}_{dim}$
随着对大语言模型内部表征几何空间结构的深入解析研究人员发现了一个普遍且严重削弱模型判别能力的现象——表示各向异性Representation Anisotropy46。大量研究表明无论是单语还是多语言 Transformer 模型,其输出的 Token 嵌入向量并没有均匀分布在整个隐向量空间中而是高度聚集在一个狭窄的锥形区域内。并且这种空间分布往往被极少数方差极大的“离群维度”Outlier Dimensions所主导 47。
这种各向异性的根本原因部分归咎于交叉熵损失函数Cross-entropy Loss中 Softmax 算子的优化偏置,以及 Adam 优化器二阶动量对高频词汇的推移作用 49。这就导致高频词和低频词在表征空间产生系统性的位移与漂移使得通过余弦相似度计算特征距离的机制失效极大削弱了模型对长尾现象例如非热门 POI、偏远区域路段的语义区分能力 50。为缓解此问题研究者提出了诸如余弦正则化、拉普拉斯正则化、频谱控制Spectrum Control以及句法平滑优先Syntactic Smoothing等在训练阶段消除频率偏差的各向同性修正方法 48。
然而,在时空计算域,频率偏差与维度分化未必完全是负面的。时空序列中的位置编码(例如目前大模型广泛采用的旋转位置编码 RoPE本身就蕴含了隐式的频率结构约束。最新的研究发现在注意力计算中不同的表示维度事实上承担着截然不同的时空结构建模功能低频维度往往受扰动较小倾向于捕获全局的长程语义依赖与时间周期规律如历史同期的流量模式而高频维度则极度敏感聚焦于刻画局部时空邻域的非平稳突变细节 40。
面对时空相对位置结构与时间周期的强依赖性,如果适配过程依然不加区分地统一更新所有维度,势必造成重要低频结构的破坏与高频噪声的放大。因此,基于维度角色 $\mathcal{R}_{dim}$ 的适配策略要求对注意力计算中的 Query 和 Key 投影子空间表示 $\mathbf{Z} = \{\mathbf{Q}_{low}^{(\ell)}, \mathbf{K}_{low}^{(\ell)}\}$(或针对具体 head 的表示 $\mathbf{Z} = \{\mathbf{Q}^{(\ell,h)}, \mathbf{K}^{(\ell,h)}\}$实施频率敏感的选择。不同的表示维度承担不同的结构建模功能适配过程必须具有非均匀的各向异性Anisotropic Adaptation。这一维度角色感知的高效位置调制与适配机制构成了本文第四章RoSA 与 DyPAM 方法)探索的内核。
2.3.4 多尺度学习与频谱建模方法(频谱级异质性 $\mathcal{R}_{freq}$
时空数据的另一个核心结构特征是其动态演化模式的多尺度属性Multi-scale Properties。一场交通事故可能仅在几分钟内影响局部的数个路口表现为极高频的时空剧烈分量而城市级的产业功能调整或宏观气象变化则呈现出跨度数月甚至数年的大范围平滑演变表现为超低频的时空缓变分量。深度神经网络DNN在拟合此类包含复杂高低频信息的真实物理映射时普遍受制于一个致命弱点——“频谱偏置”Spectral Bias20。理论分析指出采用梯度下降训练的深度网络总是优先且极快地拟合数据的低频平滑分量而对高频震荡突变特征的捕捉极其缓慢且困难 52。
为缓解这一难题基于变换域Transform Domain的多尺度频谱分析被广泛引入时空预测模型。基于离散傅里叶变换DFT和离散小波变换DWT的方法能够有效将时空信号在不同尺度上进行解耦分离。例如StemGNN 算法结合了图傅里叶变换(捕捉跨传感器空间交互频率)与一维离散傅里叶变换(捕捉时间依赖),在统一的谱域内进行多变量时间序列预测,取得了超越纯空域方法的卓越表现 18。此外近年来备受瞩目的傅里叶神经算子Fourier Neural Operator, FNO通过在频域内学习算子映射成功构建了高泛化性的非线性偏微分方程近似求解器在海面温度演变、降水预测等复杂的动态时空系统建模中展现了在不规则网格与多分辨率下的灵活性 54。
将视角转向大模型参数微调空间最新的特征值几何分析同样揭示出LLM 在预训练和微调过程中的权重演化Representation Collapse & Expansion存在着基于本征谱结构Eigenspectrum的多阶段非单调相变 57。这意味着模型内部的参数更新模式本身就具有频谱级异质性Spectrum-level Heterogeneity。全局平滑的任务语义对齐依赖于低频参数更新而特定的时空微观局部行为修正则强依赖高频参数更新。据此可以通过构建以 $\mathcal{R}_{freq}$ 为条件的组合调制算子Compositional Modulation
$$\mathcal{M}_\theta(\mathbf{Z}) = \sum_e \pi_e(\mathbf{X}, \mathcal{R}_{freq}) \cdot \phi_e(\mathbf{Z})$$
其中调制对象为权重更新矩阵 $\mathbf{Z} = \Delta \mathbf{W}$。$\phi_e$ 代表异构的频域更新专家(如模拟低频全局平滑更新的离散余弦变换 DCT 专家,与模拟高频局部细化的离散小波变换 Wavelet 专家),$\pi_e$ 为由输入特征驱动的自适应路由权重。这种由粗到细Coarse-to-fine、多尺度结构驱动的频谱级参数更新建模机制奠定了本文第五章前半部分CASCADE 级联适配方法)的理论基石。
2.3.5 模型结构优化与容量分配方法(参数级异质性 $\mathcal{R}_{param}$
在更高的系统与架构层级如何在异构的多个时空任务间合理分配模型内部有限的参数容量Capacity Allocation是一个极具挑战性的拓扑结构问题。传统的时空网络包括早期的 STGNN 与部分 ST-LLM往往依赖专家的直觉经验采用手动设定的静态网络连接图和硬共享模块。这种静态设计无法动态适应当今海量多源异构数据集在信息复杂度和特征冗余度上的差异。
为克服人工设计的局限神经网络架构搜索Neural Architecture Search, NAS技术被创新性地引入到时空图神经网络的设计中 5。诸如 AutoCTS 以及轻量级的 SearchLight 框架通过定义分层的宏观跨层拓扑连接与微观节点内部卷积、注意力算子组合搜索空间利用可微架构搜索DARTS或强化学习的方式自动寻找在预测精度与计算开销之间取得最优平衡的时空操作序列与拓扑架构 17。这些研究证明了针对特定的时空任务分布模型中并不存在普适的静态最优结构结构拓扑本身必须是任务相关且可微分学习的。
对于大语言模型的高效适配而言,参数空间内的稀疏性约束与容量分配尤为关键。多任务 LLM 适配的本质是在有限的显存微调预算下解决异质任务在共享参数空间中的冲突Capacity Bottleneck。因此我们需要在参数拓扑空间中实施结构分解调制Structural Decomposition
$$\mathcal{M}_\theta(\mathbf{Z}) = \mathbf{Z} + \sum_k \mathbf{G}_k \odot \Delta\mathbf{Z}_k$$
针对某一特定任务 $\tau$ 的总参数增量 $\mathbf{Z} = \Delta \mathbf{W}^{(\tau)}$我们将其解耦为跨任务的共享结构Shared Structure $\Delta \mathbf{W}_{sh}$ 与任务专属结构Task-specific Structure $\Delta \mathbf{W}_{sp}^{(\tau)}$。在此基础上,以 $\mathcal{R}_{param}$ 即预算阈值与任务标识为约束引入预算感知的结构门控机制Budget-aware Structural Gating $g_{g}^{sh}, g_{g}^{sp,\tau}$通过软门控到硬掩码的退火机制实现不同结构间参数拓扑的自动路由与分离。这种从参数级异质性出发的隐式神经架构搜索与结构自动发现机制构成了本文第五章后半部分MESSA 容量分配方法)探讨的核心议题。
表 2-1 总结了基于结构角色感知的表征适配统一分析框架中的四类异质性、挑战及其与本文提出方法的对应关系。
时空结构特征维度
面临的核心建模挑战
对应的 LLM 适配层级与结构角色
形式化的主要调制对象 (Z)
理论演进与关联本文方法
多任务功能异质性
跨任务负迁移、知识组织冲突、模块冗余
模块级结构适配 ($\mathcal{R}_{mod}$)
$\mathbf{H}_{att}^{(\ell)}$ (注意力隐藏输出)
知识动态路由 / 混合专家协同机制 (HyCAM)
位置结构依赖
时空频率偏差、关键长程语义平滑淹没
维度级结构适配 ($\mathcal{R}_{dim}$)
$\mathbf{Q}^{(\ell,h)}, \mathbf{K}^{(\ell,h)}$ (子空间表示)
频率敏感选择 / 输入条件各向异性调制 (RoSA/DyPAM)
多尺度动态模式
DNN 频谱偏置、高频局部突变难以捕捉
频谱级结构适配 ($\mathcal{R}_{freq}$)
$\Delta \mathbf{W}$ (全参数更新量)
频域基函数分解 / 粗细粒度级联更新 (CASCADE)
多源差异与容量冲突
参数利用率低、静态拓扑无法兼顾异质任务
参数级结构适配 ($\mathcal{R}_{param}$)
$\Delta \mathbf{W}_{sh}, \Delta \mathbf{W}_{sp}^{(\tau)}$ (参数增量分解)
隐式架构自动搜索 / 稀疏结构拓扑分配 (MESSA)
表 2-1基于结构角色感知的时空表征适配统一分析框架总结。
________________
2.4 时空智能数据集与评测基础设施研究
在理论层面不断提出更为先进的大模型结构适配方法之余,支撑大语言模型时空表征学习可持续演进的另一项关键议题,是建立客观、完备且自动化的实验与评测基础设施。随着技术范式的转移,现有的城市计算基准测试正在经历从传统的“判别式点对点数值评估”向具备复杂交互能力的“生成式智能体评估”范式的快速演进。
2.4.1 时空预测与分析数据集
过去十年中,传统的时空智能基准主要聚焦于网格结构或图结构的时间序列判别式任务,如交通流量预测、时空缺失插值与异常事件检测。这些数据集以高度规范化、结构化的数值矩阵格式为主。例如,广泛使用的交通流公开数据集 PEMS 系列、METR-LA 等极大推动了早期 STGNN 模型架构的繁荣 6。近期的 SustainDC 等数据集则提供了涵盖全球不同地理位置、数据中心架构以及气候条件的历史负载与能源分布,被用于评估多智能体强化学习算法在异构城市环境下的能源调度优化能力 61。
然而,随着跨模态与跨域城市智能应用需求的激增,这类孤立的、仅支持单一回归预测任务评估的数据集逐渐成为限制多模态基础模型向更高阶智能演进的瓶颈。不同领域(如气象、路网、经济活动)的数据在采集频率与空间对齐格式上千差万别,亟需建立如 UDL 等标准化的城市数据清洗流水线以促进统一数据结构下的多模态融合Multi-modal Fusion从而为训练城市多模态基础大模型如 UrbanLLaVA 等)提供大规模的多源语料支撑 35。
2.4.2 面向推理与决策的时空任务数据
与传统的数值回归任务不同大语言模型赋能的系统通过自然语言进行指令交互更为注重逻辑推理深度、长视距环境规划以及对多维约束的遵循。近期涌现的基准测试反映了这种需求上的本质变化。例如TravelPlanner 出行规划基准准则不再仅仅评估模型预测路线的重合度而是引入了更为立体的“约束通过率”Constraint Pass Rate评估计划是否违背用户特定的时间和预算约束以及“交付率”Delivery Rate等宏观决策评估维度 64。
在更为细粒度的逻辑判别上STARKSpatiotemporal Reasoning Framework基准测试深入探讨了模型如何将空间物理几何约束例如判断轨迹是否横穿某一多边形、相交、或被包含与复杂的艾伦区间时间逻辑关系如两个事件的时间段发生重叠、先后相遇等进行有机结合 65。研究结果表明无论是通用的大语言模型LLM还是专门强化逻辑推演的语言模型LRM如 OpenAI 的 o3 系列),虽然在基础的空间理解上取得了长足进步,但在处理跨时间点、涉及多维度约束的综合事件关联与空间定位任务时,仍然面临巨大的挑战 65。这些强调细粒度 Reasoning推理的评测场景对模型在隐向量空间内准确捕获基于低频维度的长程语义拓扑结构即应对前述 $\mathcal{R}_{dim}$ 级异质性)提出了最为严酷的现实检验。
2.4.3 城市仿真环境与智能体平台
随着 LLM Agent大语言模型智能体概念在人工智能界的全面爆发高阶的时空应用正在快速转变为知识密集型、流程多变的动态交互系统。时空智能体Spatial-Temporal Agents不再单纯被动地接受输入进行单次预测而是需要具备主动规划能力——动态编排复杂的 GIS 分析工具链、自主解析遥感图像、融合开放街景视觉输入并根据环境的实时反馈不断修正执行路径Reflection 6。
以 UAgentEnv 为代表的交互式城市仿真环境开始尝试将原本笼统的“城市推理能力”严格分解为时空理解Understanding、预测Forecasting、规划Planning与反思Reflection四个功能维度。这使得评测模式突破了单一结果的比拼深入到了基于中间过程的高细粒度诊断诊断Process-based Diagnostics中 68。此外像 FLAME面向城市视觉语言导航的智能体和 AutoHealth针对复杂健康轨迹不确定性建模的多智能体系统等平台架构进一步展示了在存在大量噪声的动态环境中协调多个具备不同专长的 Agent 处理异构模态数据并进行鲁棒决策的巨大应用价值 69。
2.4.4 现有评测体系的局限性
尽管相关基准数据集及模拟器生态正在快速扩张,但针对系统化评估“大语言模型内部结构适配算法是否有效”,现有的评估基础设施仍存在明显的短板与局限性:
首先绝大多数评测数据集依然是离线脱机Offline Static测试集在构建后便固定不变缺乏能够支持多步骤动态演化、支持模型持续交互并能够基于评测结果自动迭代生成新挑战的闭环自动化 Benchmark 平台。其次,主流 NLP 推理数据集鲜少涉及基于真实城市路网和兴趣点POI的微观拓扑推理专门用于验证高阶空间几何拓扑计算与长时序周期性关联的 QA问答语料库在规模、难度层级分化和标注质量上远落后于常识推理领域 66。
大语言模型在城市系统中诸如时空状态反思、长程行动编排等高阶能力上的普遍挣扎(如对空间错觉的妥协),表明仅依靠模型参数结构架构调优是远远不够的。为了形成“方法推演 - 数据验证 - 系统应用”的完整研究闭环,必须建立一套统一化且高度自动化的时空智能大模型评测平台与高质量 POI 空间推理语料库。这一数据系统建设层面的深刻迫切需求,直接确立了本论文第六章中构建 AgentCity 评测基础设施与 POI-QA 推理数据库的核心定位与贡献价值。
________________
2.5 本章小结
本章系统梳理了时空数据建模与大语言模型LLM在深度表征学习融合过程中的演进历程与核心痛点。通过追溯从传统统计学习ARIMA、GWR到早期深度时空图网络STGNN再到预训练基础模型Foundation Models与近期时空大语言模型ST-LLM的技术发展脉络本文明确指出现有方法在应对真实城市巨系统演化时面临的根本瓶颈模型内部均匀同质的参数设计范式与时空数据天然具备的“多尺度动态模式、高低频位置结构依赖、跨任务功能异质以及多源异构”等四类结构角色异质性之间存在不可调和的宏观供需错配。
在广泛综述参数高效微调PEFT、多任务动态知识路由、表示层各向异性分析、频谱偏置机理以及隐式神经架构搜索等前沿表征理论的基础上本章创新性地抽象并构建了结构角色感知的表征适配统一分析框架。该框架将大语言模型在复杂时空环境下的适配机制形式化为以输入与结构角色信息 $\mathcal{R}$ 为条件的非均匀调制算子 $\tilde{\mathbf{Z}} = \mathcal{M}_\theta(\mathbf{Z} \mid \mathbf{X}, \mathcal{R})$。这一统一理论视角,成功将零散的各类微调技术提炼至模型模块级($\mathcal{R}_{mod}$)、内部表示维度级($\mathcal{R}_{dim}$)、参数更新频谱级($\mathcal{R}_{freq}$)与网络容量拓扑级($\mathcal{R}_{param}$)四个层层递进的结构层次。最后,本章通过审视现有城市智能预测数据集与智能体仿真评测体系的局限性,论证了开发针对时空推理定制化数据集与支持闭环交互评测平台的紧迫性。
尽管本章构建的统一分析框架在理论层面严格界定了时空适配所面临的四级结构异质性维度,但在具体的计算微观层面,关于框架中的第一层级——即在多城市任务高度并发且发生剧烈知识组织冲突的场景下,如何具体捕捉大模型 Transformer 架构中注意力输出与前馈网络之间的模块级角色异质性( $\mathcal{R}_{mod}$ ),并设计出高效的动态表示流知识路由网络,这一核心机制问题尚未得到解答。针对这一模块级异质性建模挑战,本研究将在下一章(第三章:模块角色感知的多任务时空表征学习方法,基于 HyCAM 架构)中展开深入的技术剖析与系统化的实验验证。
引用的著作
1. Full article: Representation learning for geospatial data - Taylor & Francis, 访问时间为 三月 16, 2026 https://www.tandfonline.com/doi/full/10.1080/19475683.2025.2552157
2. Spatial-Temporal Graph Neural Networks - Emergent Mind, 访问时间为 三月 16, 2026 https://www.emergentmind.com/topics/spatial-temporal-graph-neural-networks-stgnns
3. [2504.02009] Urban Computing in the Era of Large Language Models - arXiv, 访问时间为 三月 16, 2026 https://arxiv.org/abs/2504.02009
4. Decoupled Dynamic Spatial-Temporal Graph Neural Network for Traffic Forecasting - VLDB Endowment, 访问时间为 三月 16, 2026 https://www.vldb.org/pvldb/vol15/p2733-shao.pdf
5. [2303.14483] Spatio-Temporal Graph Neural Networks for Predictive Learning in Urban Computing: A Survey - arXiv, 访问时间为 三月 16, 2026 https://arxiv.org/abs/2303.14483
6. A Comprehensive Survey of Agentic AI for Spatio-Temporal Data[v1 ..., 访问时间为 三月 16, 2026 https://www.preprints.org/manuscript/202601.2236
7. From Fourier to Koopman: Spectral Methods for Long-term Time Series Prediction - Journal of Machine Learning Research, 访问时间为 三月 16, 2026 https://jmlr.csail.mit.edu/papers/volume22/20-406/20-406.pdf
8. Spatiotemporal Characteristics and Influencing Factors of Urban Heat Island Based on Geographically Weighted Regression Model: A Case Study of Urumqi City - MDPI, 访问时间为 三月 16, 2026 https://www.mdpi.com/2073-445X/12/11/2012
9. Integration framework of the Kalman Filter with the GWR model - ResearchGate, 访问时间为 三月 16, 2026 https://www.researchgate.net/figure/ntegration-framework-of-the-Kalman-Filter-with-the-GWR-model_fig2_340561944
10. GNNWR: An Open-Source Package of Spatiotemporal Intelligent Regression Methods for Modeling Spatial and Temporal Non-Stationar - GMD, 访问时间为 三月 16, 2026 https://gmd.copernicus.org/preprints/gmd-2024-62/gmd-2024-62-manuscript-version2.pdf
11. Kalman filter control of a model of spatiotemporal cortical dynamics - PubMed, 访问时间为 三月 16, 2026 https://pubmed.ncbi.nlm.nih.gov/18310806/
12. Multivariate Kalman filtering for spatio-temporal processes - PMC - NIH, 访问时间为 三月 16, 2026 https://pmc.ncbi.nlm.nih.gov/articles/PMC9303052/
13. Full article: Advances in spatiotemporal graph neural network prediction research - Taylor & Francis, 访问时间为 三月 16, 2026 https://www.tandfonline.com/doi/full/10.1080/17538947.2023.2220610
14. Spatiotemporal Graph Convolutional Network for Multi-Scale Traffic Forecasting - MDPI, 访问时间为 三月 16, 2026 https://www.mdpi.com/2220-9964/11/2/102
15. Pre-training Enhanced Spatial-temporal Graph Neural Network for Multivariate Time Series Forecasting - ResearchGate, 访问时间为 三月 16, 2026 https://www.researchgate.net/publication/362690434_Pre-training_Enhanced_Spatial-temporal_Graph_Neural_Network_for_Multivariate_Time_Series_Forecasting
16. [1709.04875] Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecasting - arXiv, 访问时间为 三月 16, 2026 https://arxiv.org/abs/1709.04875
17. SearchLight: Neural Architecture Search for Lightweight Spatio-Temporal Graph Neural Networks - IEEE Xplore, 访问时间为 三月 16, 2026 https://ieeexplore.ieee.org/iel8/6287639/10820123/11173578.pdf
18. Spectral Temporal Graph Neural Network for Multivariate Time-series Forecasting - NIPS, 访问时间为 三月 16, 2026 https://proceedings.nips.cc/paper_files/paper/2020/file/cdf6581cb7aca4b7e19ef136c6e601a5-Paper.pdf
19. [2508.14782] TransLLM: A Unified Multi-Task Foundation Framework for Urban Transportation via Learnable Prompting - arXiv, 访问时间为 三月 16, 2026 https://arxiv.org/abs/2508.14782
20. Addressing Spectral Bias of Deep Neural Networks by Multi-Grade... - OpenReview, 访问时间为 三月 16, 2026 https://openreview.net/forum?id=IoRT7EhFap
21. Towards Understanding Multi-Task Learning (Generalization) of LLMs via Detecting and Exploring Task-Specific Neurons - ACL Anthology, 访问时间为 三月 16, 2026 https://aclanthology.org/2025.coling-main.200.pdf
22. Mixture of Experts Explained - Hugging Face, 访问时间为 三月 16, 2026 https://huggingface.co/blog/moe
23. Parameter-Efficient Continual Fine-Tuning: A Survey - arXiv, 访问时间为 三月 16, 2026 https://www.arxiv.org/pdf/2504.13822
24. [论文评述] Urban Computing in the Era of Large Language Models - Moonlight, 访问时间为 三月 16, 2026 https://www.themoonlight.io/zh/review/urban-computing-in-the-era-of-large-language-models
25. 大语言模型综述与展望, 访问时间为 三月 16, 2026 http://dianda.cqvip.com/Qikan/Article/Detail?id=7200506757
26. Foundation Models for Spatio-Temporal Data Science: A Tutorial and Survey - arXiv, 访问时间为 三月 16, 2026 https://arxiv.org/html/2503.13502v1
27. [2310.02207] Language Models Represent Space and Time - arXiv.org, 访问时间为 三月 16, 2026 https://arxiv.org/abs/2310.02207
28. Full article: Evaluating and enhancing spatial cognition abilities of large language models, 访问时间为 三月 16, 2026 https://www.tandfonline.com/doi/full/10.1080/13658816.2025.2490701
29. A Survey of Large Language Model-Powered Spatial Intelligence Across Scales: Advances in Embodied Agents, Smart Cities, and Earth Science - arXiv, 访问时间为 三月 16, 2026 https://arxiv.org/html/2504.09848v1
30. UrbanGPT: Spatio-Temporal Large Language Models - arXiv.org, 访问时间为 三月 16, 2026 https://arxiv.org/html/2403.00813v3
31. [2403.00813] UrbanGPT: Spatio-Temporal Large Language Models - arXiv, 访问时间为 三月 16, 2026 https://arxiv.org/abs/2403.00813
32. UrbanGPT, 访问时间为 三月 16, 2026 https://urban-gpt.github.io/
33. TransLLM: A Unified Multi-Task Foundation Framework for Urban Transportation via Learnable Prompting - arXiv.org, 访问时间为 三月 16, 2026 https://arxiv.org/html/2508.14782v1
34. CityGPT: Empowering Urban Spatial Cognition of Large Language Models - ResearchGate, 访问时间为 三月 16, 2026 https://www.researchgate.net/publication/394256647_CityGPT_Empowering_Urban_Spatial_Cognition_of_Large_Language_Models
35. UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding - arXiv, 访问时间为 三月 16, 2026 https://arxiv.org/html/2506.23219v1
36. Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies - arXiv, 访问时间为 三月 16, 2026 https://arxiv.org/html/2410.19878v3
37. [2410.19878] Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies, 访问时间为 三月 16, 2026 https://arxiv.org/abs/2410.19878
38. [2504.21099] A Survey on Parameter-Efficient Fine-Tuning for Foundation Models in Federated Learning - arXiv, 访问时间为 三月 16, 2026 https://arxiv.org/abs/2504.21099
39. A Survey on Parameter-Efficient Fine-Tuning for Foundation Models in Federated Learning - arXiv.org, 访问时间为 三月 16, 2026 https://arxiv.org/pdf/2504.21099
40. NeurIPS 2025 San Diego Spotlights, 访问时间为 三月 16, 2026 https://neurips.cc/virtual/2025/loc/san-diego/events/spotlights-2025
41. [2501.09636] LLM-Based Routing in Mixture of Experts: A Novel Framework for Trading, 访问时间为 三月 16, 2026 https://arxiv.org/abs/2501.09636
42. Mixture of Experts in Large Language Models †: Corresponding author - arXiv.org, 访问时间为 三月 16, 2026 https://arxiv.org/html/2507.11181v1
43. Towards Understanding Multi-Task Learning (Generalization) of LLMs via Detecting and Exploring Task-Specific Neurons - arXiv, 访问时间为 三月 16, 2026 https://arxiv.org/html/2407.06488v2
44. Learning to Route Dynamic Experts in Existing Multi-modal Large Language Models | OpenReview, 访问时间为 三月 16, 2026 https://openreview.net/forum?id=vtT09dYPGI
45. Mixture-of-LoRAs: An Efficient Multitask Tuning Method for Large Language Models - ACL Anthology, 访问时间为 三月 16, 2026 https://aclanthology.org/2024.lrec-main.994.pdf
46. When Text Embedding Meets Large Language Model: A Comprehensive Survey - arXiv.org, 访问时间为 三月 16, 2026 https://arxiv.org/html/2412.09165v4
47. [2306.00458] Exploring Anisotropy and Outliers in Multilingual Language Models for Cross-Lingual Semantic Sentence Similarity - arXiv, 访问时间为 三月 16, 2026 https://arxiv.org/abs/2306.00458
48. Anisotropy Is Inherent to Self-Attention in Transformers - ACL Anthology, 访问时间为 三月 16, 2026 https://aclanthology.org/2024.eacl-long.3.pdf
49. Output Embedding Centering for Stable LLM Pretraining - arXiv, 访问时间为 三月 16, 2026 https://arxiv.org/html/2601.02031v1
50. Is anisotropy really the cause of BERT embeddings not being semantic? - ResearchGate, 访问时间为 三月 16, 2026 https://www.researchgate.net/publication/372933806_Is_anisotropy_really_the_cause_of_BERT_embeddings_not_being_semantic
51. Mitigating Frequency Bias and Anisotropy in Language Models - Emergent Mind, 访问时间为 三月 16, 2026 https://www.emergentmind.com/papers/2410.11462
52. [2212.03416] On Spectral Bias Reduction of Multi-scale Neural Networks for Regression Problems - arXiv.org, 访问时间为 三月 16, 2026 https://arxiv.org/abs/2212.03416
53. When Spatio-Temporal Meet Wavelets: Disentangled Traffic Forecasting via Efficient Spectral Graph Attention Networks | Request PDF - ResearchGate, 访问时间为 三月 16, 2026 https://www.researchgate.net/publication/372666845_When_Spatio-Temporal_Meet_Wavelets_Disentangled_Traffic_Forecasting_via_Efficient_Spectral_Graph_Attention_Networks
54. [2601.01813] Spatio-temporal modeling and forecasting with Fourier neural operators, 访问时间为 三月 16, 2026 https://arxiv.org/abs/2601.01813
55. Spatio-temporal modeling and forecasting with Fourier neural operators - arXiv, 访问时间为 三月 16, 2026 https://arxiv.org/html/2601.01813
56. A wavelet method for the characterization of spatiotemporal patterns, 访问时间为 三月 16, 2026 https://faculty.ecnu.edu.cn/picture/article/421/35/30/8c8a961d4dd3a88761c298e618a0/b365481f-8014-4692-a2bb-1b6e1a1fb82f.pdf.x
57. Tracing the Representation Geometry of Language Models from Pretraining to Post-training - arXiv.org, 访问时间为 三月 16, 2026 https://arxiv.org/html/2509.23024v1
58. Graph Neural Architecture Search - IJCAI, 访问时间为 三月 16, 2026 https://www.ijcai.org/proceedings/2020/0195.pdf
59. (PDF) Graph Neural Architecture Search: A Survey - ResearchGate, 访问时间为 三月 16, 2026 https://www.researchgate.net/publication/363496961_Graph_Neural_Architecture_Search_A_Survey
60. Understanding and Simplifying Architecture Search in Spatio-Temporal Graph Neural Networks | OpenReview, 访问时间为 三月 16, 2026 https://openreview.net/forum?id=4jEuiMPKSF
61. Datasets Benchmarks 2024 - NeurIPS, 访问时间为 三月 16, 2026 https://neurips.cc/virtual/2024/events/datasets-benchmarks-2024
62. UrbanDataLayer: A Unified Data Pipeline for Urban Science - NeurIPS, 访问时间为 三月 16, 2026 https://proceedings.neurips.cc/paper_files/paper/2024/file/0db7f135f6991e8cec5e516ecc66bfba-Paper-Datasets_and_Benchmarks_Track.pdf
63. UrbanDataLayer: A Unified Data Pipeline for Urban Science - OpenReview, 访问时间为 三月 16, 2026 https://openreview.net/forum?id=6vFy6H4mTI
64. Urban Computing in the Era of Large Language Models - arXiv.org, 访问时间为 三月 16, 2026 https://arxiv.org/html/2504.02009v1
65. Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges - arXiv, 访问时间为 三月 16, 2026 https://arxiv.org/html/2505.11618v1
66. USTBench: Benchmarking and Dissecting Spatiotemporal Reasoning of LLMs as Urban Agents - arXiv.org, 访问时间为 三月 16, 2026 https://arxiv.org/html/2505.17572v1
67. Full article: An autonomous GIS agent framework for geospatial data retrieval - Taylor & Francis, 访问时间为 三月 16, 2026 https://www.tandfonline.com/doi/full/10.1080/17538947.2025.2458688
68. USTBench: Benchmarking and Dissecting Spatiotemporal Reasoning Capabilities of LLMs as Urban Agents | OpenReview, 访问时间为 三月 16, 2026 https://openreview.net/forum?id=ETzBStUFJy
69. FLAME: Learning to Navigate with Multimodal LLM in Urban Environments - AAAI.org, 访问时间为 三月 16, 2026 https://ojs.aaai.org/index.php/AAAI/article/download/32974/35129
70. Yong Li's research works | Tsinghua University and other places - ResearchGate, 访问时间为 三月 16, 2026 https://www.researchgate.net/scientific-contributions/Yong-Li-2164034175