Graduate/chap06.tex

% !TeX root = ../main.tex
% 第六章 面向时空智能的大模型评测体系与实验基础设施
\chapter{面向时空智能的大模型评测体系与实验基础设施}
\label{chap:benchmark}

\section{本章概述}
\label{sec:ch6_overview}

前述章节从模块级功能异质性（第三章）、维度级位置结构异质性（第四章）、频谱级多尺度异质性与参数级容量分配异质性（第五章）四个层面，系统性地提出了面向时空数据结构异质性的表征学习适配方法。这些方法的有效性验证依赖于标准化的评测体系与高质量的实验基础设施。然而，当前时空智能领域的评测生态面临两方面挑战。

\textbf{第一，交通预测基准评测的可持续性挑战}。时空预测领域的模型迭代速度远超基准评测框架的更新速度。现有评测框架（如LibCity~\cite{Libcity}、DL-Traff~\cite{Dl-traff}、TorchSpatial~\cite{Torchspatial}）依赖人工维护，在模型收录的可扩展性、评估流程的持续更新能力、以及评测设置的一致性等方面存在结构性瓶颈。这导致基准评测在横向覆盖度和纵向时效性上难以跟进快速发展的研究前沿。

\textbf{第二，大语言模型时空推理能力的评测空白}。随着大语言模型在时空数据分析中的应用日益增多，亟需评估其时空推理能力的专用数据集。现有问答数据集大多关注语义理解或地理信息的静态检索，缺乏同时包含空间位置与时间上下文、且答案对时空条件敏感的问答样本。这使得无法系统性地评测大语言模型在时空推理方面的实际能力与不足。

针对上述挑战，本章从评测基础设施的角度，构建支撑时空智能研究的两类核心工具：

\textbf{（1）AgentCity：AI驱动的交通预测持续评测框架}。AgentCity是首个基于多智能体系统的自动化基准评测框架，将传统的人工基准维护流程转化为AI驱动的持续工作流。该框架通过文献检索、模型与数据集成、标准化评估三个阶段的协调运行，实现了交通预测模型的自动发现、复现与统一评估。AgentCity目前涵盖4类交通预测任务、26个公开数据集和74个代表性模型，提供可复现的统一评测排行榜。

\textbf{（2）POI-QA：时空敏感的兴趣点问答数据集}。POI-QA是面向大语言模型时空推理能力评测的专用数据集，基于真实车辆轨迹数据与高精度地理兴趣点信息构建。该数据集包含超过540万条中英文双语问答对，覆盖约40万个兴趣点位置和30天的连续轨迹数据，提供从粗粒度类别分类到细粒度名称生成的四级难度评测体系。

从论文方法论体系的角度来看，本章的两项工作与前述章节的关系体现在：AgentCity提供了系统性评测时空预测模型的标准化平台，为第三至五章方法在交通预测任务上的性能对比提供公正、可复现的评估基础；POI-QA则构建了评测大语言模型时空推理能力的细粒度数据集，为本文提出的PEFT方法在时空问答场景下的适配效果提供评测基准。

本章后续安排如下：第~\ref{sec:ch6_background}~节介绍时空数据类型与交通预测任务的统一抽象；第~\ref{sec:agentcity}~节详述AgentCity框架；第~\ref{sec:poiqa}~节详述POI-QA数据集；第~\ref{sec:ch6_experiments}~节给出实验验证与分析；第~\ref{sec:ch6_summary}~节总结全章。


\section{时空数据与交通预测任务}
\label{sec:ch6_background}

本节介绍时空预测领域中数据类型与预测任务的统一抽象，为后续评测框架的设计提供任务定义基础。

\subsection{时空数据的分类体系}
\label{subsec:ch6_data_types}

交通预测数据不同于图像或文本等同质模态，其核心特征是将空间实体、关系结构与时间索引观测有机结合。根据数据的组织形式与语义层次，时空数据可以划分为三大类别：

\textbf{（1）静态空间结构}。静态空间结构描述交通系统的固定空间上下文，包括定义空间域的地理单元（如传感器、路段、区域）及其之间的结构化关系（如网络连通性、空间邻接性）。此类数据提供了交通观测的空间组织基础，典型表示形式为地理单元属性矩阵$\mathbf{X} \in \mathbb{R}^{N \times D}$和单元关系矩阵$\mathbf{A} \in \mathbb{R}^{N \times N}$。

\textbf{（2）群体级时空动态}。群体级时空动态捕获定义在空间单元或其关系上的时变属性，如传感器或区域上的交通速度、流量、密度等度量。此类数据通常表示为时间索引张量：节点级$\mathbf{X} \in \mathbb{R}^{T \times N \times D}$、网格级$\mathbf{X} \in \mathbb{R}^{T \times I \times J \times D}$或出发地-目的地对$\mathbf{X} \in \mathbb{R}^{T \times N \times N \times D}$。

\textbf{（3）个体轨迹动态}。个体轨迹动态描述单次出行的细粒度移动行为，表示为时空状态的有序序列$\{(x_i, t_i)\}_{i=1}^{L}$，其中$x_i$为空间位置，$t_i$为时间戳，$L$为轨迹长度。

\subsection{交通预测任务定义}
\label{subsec:ch6_tasks}

基于上述数据分类，本文考虑四类具有不同数据输入/输出结构的代表性交通预测任务：

\textbf{交通状态预测}在固定空间单元集合上预测未来交通动态。输入为历史群体级动态$\mathbf{X} \in \mathbb{R}^{T_{\text{in}} \times N \times D}$，输出为未来单元级动态$\mathbf{y} \in \mathbb{R}^{T_{\text{out}} \times N \times D}$。

\textbf{轨迹位置预测}针对个体轨迹进行下一步位置预测。给定历史轨迹$[\text{loc}_1, \ldots, \text{loc}_n]$，预测下一位置$\text{loc}_{n+1}$。

\textbf{到达时间预测（ETA）}旨在估计轨迹的行程时长。输入为时空点序列$\{(x_i, t_i)\}_{i=1}^{L}$，输出为预估行程时间$\Delta t$。

\textbf{地图匹配}旨在推断与观测轨迹最匹配的受路网约束的路径。给定带噪声或稀疏的轨迹观测，输出与底层路网拓扑一致的有序路段序列$\{r_j\}_{j=1}^{K}$。

这四类任务的数据输入输出关系为时空预测基准评测提供了统一的任务接口定义。


\section{AgentCity：AI驱动的交通预测持续评测框架}
\label{sec:agentcity}

\subsection{问题分析与设计动机}
\label{subsec:agentcity_motivation}

现有交通预测基准评测体系存在三个结构性局限。

\textbf{（1）有限的可扩展性}。交通预测文献持续快速增长，新模型采用多样化的框架、代码结构和数据接口。将这些异构实现人工集成到统一基准中是一项劳动密集型工作，使得基准覆盖范围往往滞后于研究进展。

\textbf{（2）静态的评估流程}。多数现有基准建立在固定数据集和评估流程之上，而真实交通系统随时间持续演化。将数据更新纳入现有基准通常需要额外人工操作，限制了长期持续评估能力。

\textbf{（3）不一致的评估设置}。原始论文中的报告结果通常基于针对特定数据集精心调优的配置，而基准实现往往使用默认或最小化调优的设置。这种差异导致复现结果偏离原始报告，降低了基准作为公平参考的可靠性。

上述分析表明，交通预测基准评测的核心瓶颈不再是标准化框架的缺失，而是缺乏一个\emph{持续}、\emph{可扩展}、\emph{评估设置一致}的自动化维护机制。

\subsection{框架总体设计}
\label{subsec:agentcity_overview}

AgentCity是一个面向交通预测基准评测的多智能体框架。给定用户指定的关键词和约束条件，系统增量式地识别相关研究、集成模型与数据集、并在统一的评测协议下进行评估。

\begin{figure}[htp]
  \centering
  \includegraphics[width=0.95\linewidth]{assets/6_agentcity_overview.pdf}
  \caption{AgentCity框架总览。基准评测构建分为三个阶段：文献检索、模型与数据集成、标准化评估。每个阶段由领导者智能体（Leader Agent）协调，调用专门化子智能体（Subagent）执行阶段特定操作。}
  \label{fig:ch6_agentcity}
\end{figure}

如图~\ref{fig:ch6_agentcity}所示，AgentCity将基准评测维护流程组织为三个顺序阶段：\emph{文献检索}（Literature Retrieval）、\emph{模型与数据集成}（Model and Data Integration）和\emph{标准化评估}（Standardized Evaluation）。每个阶段由一个专门的\emph{阶段领导者智能体}管理，负责规划阶段工作流、协调专门化\emph{子智能体}并验证中间结果。

为应对研究代码中常见的异构实现和不完整规格说明，AgentCity支持每个阶段内的迭代精化：当中间结果不满足预定义的验证标准时，相应的领导者智能体选择性地重新调用相关子智能体以改进结果。各阶段产生的结构化制品（包括元数据、配置文件和验证摘要）由全局协调器（Global Coordinator）记录并在阶段间传播。

\subsection{阶段一：文献检索}
\label{subsec:agentcity_stage1}

文献检索阶段收集与给定交通预测任务相关的研究工作，产生候选模型的结构化集合，供下游集成与评估使用。该阶段由\emph{检索领导者智能体}管理，协调三类子智能体执行具体操作：

\textbf{论文搜索器（Paper Searcher）}使用基于关键词的查询检索候选论文。查询关键词从用户输入或预定义的任务特定关键词集合中派生。可指定出版场所、时间范围等约束条件以界定搜索范围。

\textbf{论文评估器（Paper Evaluator）}检查每篇检索到的论文，判断其是否提供了后续模型与数据集成所需的信息。评估检查论文是否指定了预测任务、模型表述、输入输出定义、实验设置和评估指标。缺乏实现、数据准备或评估所需信息的论文在此阶段被排除。

\textbf{论文分析器（Paper Analyzer）}从保留的论文中提取后续阶段所需的信息，包括模型架构引用、代码仓库、数据集与预处理步骤描述、训练与评估设置以及报告的指标值。提取的信息被组织为结构化表示。

检索领导者智能体顺序执行搜索、评估和分析步骤。当结果集合不满足预定义标准时，领导者审查执行结果并重新执行相关步骤。

\subsection{阶段二：模型与数据集成}
\label{subsec:agentcity_stage2}

模型与数据集成阶段将外部交通预测模型及其关联数据集进行复现，并与统一的任务接口对齐。该阶段由\emph{集成领导者智能体}管理，协调四类子智能体：

\textbf{源代码收集器（Source Collector）}检索复现所需资源，包括模型实现、配置文件和数据集引用。分析代码库结构以识别模型定义、训练流水线、数据加载逻辑和外部依赖。

\textbf{模型与数据适配器（Model and Data Adapter）}执行核心集成工作。对于模型端，将架构定义、输入/输出格式和训练接口与基准的任务规格对齐；对于数据端，处理数据集获取、预处理对齐、特征构建和数据划分配置。

\textbf{配置组装器（Configuration Assembler）}构建统一配置文件，组合模型设置、数据集参数和训练选项。原始论文中的超参数和实验设置在可用时被纳入；当细节缺失时，应用基准定义的任务一致默认值。

\textbf{集成验证器（Integration Validator）}使用组装好的模型和数据集配置执行验证运行，验证模型初始化、数据加载和基本训练执行，并记录日志以评估集成完整性。

\subsection{阶段三：标准化评估}
\label{subsec:agentcity_stage3}

标准化评估阶段在统一的训练和评估协议下评估集成的交通预测模型。该阶段由\emph{评估领导者智能体}管理，协调以下子智能体：

\textbf{评估规划器（Evaluation Planner）}为每个模型-任务对指定评估配置，包括训练设置、评估指标和基准协议定义的超参数范围。

\textbf{评估执行器（Evaluation Executor）}使用指定配置运行模型训练与评估。记录性能指标、训练动态和运行时信息。

\textbf{结果收集器（Result Collector）}聚合多次运行的评估输出，根据任务特定指标识别最佳配置，并将结果组织为标准化记录。

评估领导者智能体协调规划、执行和结果收集，并在评估结果无效或不完整时重新调用相关步骤。

\subsection{实现与协调机制}
\label{subsec:agentcity_impl}

AgentCity的实现围绕\emph{全局协调器}展开。协调器维护共享执行上下文，并按顺序派发阶段领导者智能体执行三个基准阶段。

\textbf{智能体协调与控制}。领导者智能体遵循统一控制模式：将每个阶段分解为可执行步骤，调用子智能体执行具体操作，并收集结构化输出。子智能体封装任务特定功能，如文献查询、源代码获取、代码适配、数据集准备、模型执行和结果聚合。

\textbf{跨阶段上下文传播}。全局协调器维护的共享执行上下文记录每个阶段产生的结构化制品，并在阶段间传播以支持后续执行。

\textbf{模型后端配置}。不同语言模型后端可根据任务需求分配给不同智能体。代码相关和诊断任务使用更强的后端，常规操作使用轻量级后端。后端选择通过系统配置指定，独立于整体工作流结构。

\subsection{平台部署与公开访问}
\label{subsec:agentcity_platform}

AgentCity已部署为可公开访问的在线平台，提供交互式的基准评测查询与排行榜浏览功能。

\begin{figure}[htp]
  \centering
  \subcaptionbox{基准评测工作流界面\label{fig:ch6_platform_frontend}}{%
    \includegraphics[width=0.48\linewidth]{assets/6_agentcity_frontend.png}}
  \hfill
  \subcaptionbox{排行榜与统计总览\label{fig:ch6_platform_leaderboard}}{%
    \includegraphics[width=0.48\linewidth]{assets/6_agentcity_leaderboard.png}}
  \caption{AgentCity平台界面。（a）文献检索与模型迁移批处理界面，支持关键词、年份和会议筛选；（b）基准主页展示整体统计、核心特性与任务排行榜。}
  \label{fig:ch6_agentcity_platform}
\end{figure}

如图~\ref{fig:ch6_agentcity_platform}所示，平台前端提供两大核心功能：文献检索与模型迁移批处理界面支持用户通过关键词、年份和会议筛选目标论文，并一键启动自动化集成流程；排行榜主页展示整体基准统计（74+模型、26数据集、100\%自动化）及各任务上的模型性能排名。


\section{POI-QA：时空敏感的兴趣点问答数据集}
\label{sec:poiqa}

\subsection{时空敏感问答的定义与挑战}
\label{subsec:poiqa_definition}

时空推理在广泛的预测与决策任务中发挥着关键作用。在众多需要时空推理的领域中，兴趣点（Point of Interest, POI）推荐是一个典型且具有挑战性的任务。有效的POI预测要求模型具备分析历史行为模式、预测未来偏好、并在时间和位置约束下推荐合适POI的能力。

然而，现有问答数据集在时空敏感性方面存在明显不足。为明确评测标准，本文定义时空敏感问答需满足以下四项准则：

\textbf{（i）时空存在性（Spatiotemporal Presence）}。问题中同时包含时间戳（如"周二晚间"）和地理位置（如"某某路221号"）。

\textbf{（ii）时空上下文敏感性（Context Sensitivity）}。对相似问题的回答会因时间和/或位置的不同而变化——改变时间或地点可以导致不同的答案。

\textbf{（iii）时空知识推理（Knowledge Reasoning）}。此类问题需要广泛的POI数据覆盖和时空推理能力。

\textbf{（iv）人类可读答案（Human-Readable Answer）}。答案应提供POI名称和具体地址，而非原始的经纬度坐标。

现有相关数据集的局限性体现在：SubjQA~\cite{bjerva2020subjqa}关注基于评论的属性导向问题，缺乏空间或时间信息；MapQA~\cite{li2025mapqa}支持地理查询但忽略时间上下文；TourismQA~\cite{contractor2021answering}虽包含与时间或地点相关的旅游评论问题，但缺乏时空推理能力。这些数据集均未考虑上述准则（ii）中的时空敏感性问题。

\subsection{数据集构建流程}
\label{subsec:poiqa_construction}

POI-QA数据集的构建包含三个步骤：地理兴趣点标注、基于轨迹的POI映射和时空问答对生成。

\subsubsection{地理兴趣点标注}
\label{subsubsec:poiqa_poi}

数据集选择中国成都市作为标注区域——该城市人口达数千万，具有高人口密度和丰富的区域经济活动特征，产生了大量且类型丰富的POI分布。具体标注流程包括四个核心步骤：

\textbf{数据采集}。从百度地图和高德地图两大地图搜索引擎爬取POI数据。将成都划分为500$\times$500的网格系统，每个网格约300米见方，对每个网格中心点查询周边POI。

\textbf{数据清洗与标准化}。去除搜索引擎结果中的重复条目，将所有POI的地理坐标统一标准化为WGS84坐标系。

\textbf{坐标验证与误差控制}。计算同一POI在不同平台间的坐标偏差。偏差小于$10^{-4}$的直接保留；偏差在$10^{-4}$到$10^{-3}$之间的进行人工审核；偏差超过$10^{-3}$的因精度不足而排除。

\textbf{层级分类标注}。对所有收集的POI进行三级类别标注：19个大类、122个中类和959个小类。最终保留418,579个在数据时间范围内保持稳定的POI条目。

\subsubsection{基于轨迹的POI映射}
\label{subsubsec:poiqa_trajectory}

POI映射包含三个步骤：

\textbf{挖掘时空演化出行目标}。利用GAIA数据中的车辆位置记录，识别具有显著时空迁移模式的轨迹。通过筛选和过滤，成功提取超过600万条具有明确时空迁移模式的轨迹。

\textbf{对齐地理信息与POI}。对轨迹进行降采样，保留关键路口和拥堵点的定位信息；匹配起点和终点100米范围内的所有POI并按距离排序；使用最近POI对行程定位点进行路径模糊化处理；将时间戳简化为星期几和小时。

\textbf{人工验证}。雇用标注工作者对自动化程序产生的噪声数据进行人工验证。每条轨迹记录分配给至少5名不同的工作者评估，若超过60\%的评估者标记为问题记录则删除或修正。最终约20\%的记录被修正，获得5,417,335条高质量数据样本。

\subsubsection{时空问答对生成}
\label{subsubsec:poiqa_qa_gen}

基于精确的轨迹-POI匹配记录，生成具有时空相关性的问答对。数据集提供中文简体和英文两个版本以支持多语言模型训练。

\begin{figure}[htp]
  \centering
  \includegraphics[width=0.9\linewidth]{assets/6_poiqa_illustration.png}
  \caption{POI-QA数据集中的时空敏感问答示例。两条轨迹虽然出发时间相近，但出发点的空间差异导致不同的路线和目的地上下文，体现了数据集的强时空敏感性。}
  \label{fig:ch6_poiqa_example}
\end{figure}

\begin{figure}[htp]
  \centering
  \includegraphics[width=0.85\linewidth]{assets/6_poiqa_qa_synthesizing.png}
  \caption{POI-QA问答对合成流程示意图。基于轨迹-POI匹配记录，使用结构化模板生成问答对：用``\textless\textgreater''标记POI名称，``()''标记类别层级，同时提供自然语言地址和经纬度坐标，并按距离递增顺序列出周边POI信息。}
  \label{fig:ch6_poiqa_qa_synthesizing}
\end{figure}

数据集支持两大类任务，覆盖四个难度级别：

\begin{itemize}
  \item \textbf{分类任务}：确定目的地附近POI的分类类别，包括大类分类（简单，19个类别）、中类分类（中等，122个类别）和小类分类（困难，959个类别）。
  \item \textbf{生成任务}：直接输出目的地附近POI的名称（极困难，超过40万个不同POI位置）。
\end{itemize}

数据集在三个方面对模型构成挑战：（1）地理知识处理——准确识别和分类POI；（2）时间信息理解——理解时间因素如何影响POI的可用性或相关性；（3）时空推理——结合地理和时间信息提供准确预测。

\subsection{评测模型与方法}
\label{subsec:poiqa_models}

为全面评估POI-QA数据集的挑战性，选取两个最先进的开源大语言模型作为基座模型：Llama3.1-8B和Qwen2.5-7B。在此基础上，评估四种实验配置：

\textbf{零样本（Zero-shot）}。直接使用基座模型在未见过的问答对上进行推理，评估模型的内在时空推理能力。

\textbf{LoRA微调}。采用低秩适配（LoRA）对基座模型进行参数高效微调，秩设置为16，使用AdamW优化器和余弦学习率调度器。

\textbf{检索增强生成（RAG）}。通过检索外部时空知识来增强模型输入，提供相关的POI信息作为推理上下文。

\textbf{RAG+LoRA}。将检索增强生成与LoRA微调相结合，同时利用外部知识检索和参数适配。

\begin{figure}[htp]
  \centering
  \includegraphics[width=0.9\linewidth]{assets/6_poiqa_rag_pipeline.png}
  \caption{基于Dify平台的RAG检索增强生成工作流。系统首先使用DeepSeek-R1-32B将用户查询分解为POI检索关键词，随后在成都POI知识库中进行混合检索，经结果汇总后生成最终提示并调用目标LLM完成推理。}
  \label{fig:ch6_poiqa_rag_pipeline}
\end{figure}

评估指标包括命中率（HR@$k$）和归一化折损累计增益（NDCG@$k$），$k \in \{5, 10, 20\}$。对于生成任务，额外计算BLEU分数以评估词汇相似度。


\section{实验验证与结果分析}
\label{sec:ch6_experiments}

\subsection{AgentCity基准评测结果}
\label{subsec:ch6_agentcity_exp}

\subsubsection{基准覆盖范围}

AgentCity目前覆盖四类代表性交通预测任务。表~\ref{tab:ch6_benchmark_scope}总结了基准包含的数据集统计信息。整体上，AgentCity涵盖26个公开数据集，包含在传感器网络、区域划分、路网图和个体轨迹上定义的异构空间表示。

\begin{figure}[htp]
  \centering
  \includegraphics[width=0.85\linewidth]{assets/6_benchmark_dist.png}
  \caption{AgentCity基准收录论文的分布分析。从左到右分别展示收录论文的发表会议分布、发表年份分布和交通预测任务类型分布，体现了基准在来源多样性、时效性和任务覆盖均衡性方面的特点。}
  \label{fig:ch6_benchmark_dist}
\end{figure}

图~\ref{fig:ch6_benchmark_dist}展示了AgentCity收录的74篇论文在三个维度上的分布特征。在会议分布上，收录论文涵盖KDD、NeurIPS、AAAI、IJCAI等多个顶级会议，体现了基准的权威性；在年份分布上，收录论文集中于2022--2025年，反映了基准对最新研究进展的及时跟进能力；在任务分布上，四类交通预测任务均有充分覆盖，其中交通状态预测类论文最多，与该领域的研究热度一致。

\begin{table}[htp]
\centering
\caption{AgentCity基准评测中的任务、数据集与评估指标。}
\label{tab:ch6_benchmark_scope}
\small
\resizebox{\linewidth}{!}{
\begin{tabular}{l l l l}
\toprule
\textbf{任务} & \textbf{代表性数据集} & \textbf{时间跨度} & \textbf{评估指标} \\
\midrule
交通状态预测 & METR-LA, PEMSD7, PEMS-BAY & 2012--2017 & MAE$\downarrow$, RMSE$\downarrow$ \\
轨迹位置预测 & Foursquare\_NYC/TKY, Singapore & 2012--2017 & Acc@1$\uparrow$, Acc@5$\uparrow$ \\
到达时间预测 & Beijing, Chengdu & 2013--2014 & MAE$\downarrow$, MAPE$\downarrow$, RMSE$\downarrow$ \\
地图匹配 & Neftekamsk, Spaichingen等 & 2015 & RMF$\downarrow$, AL$\uparrow$ \\
\bottomrule
\end{tabular}}
\end{table}

\subsubsection{交通状态预测排行榜}

表~\ref{tab:ch6_traffic_leader}展示了在METR-LA、PEMSD7和PEMS-BAY三个数据集上的交通状态预测排行榜结果。所有模型在统一评估协议下进行训练和评估，使用早停策略基于验证损失选择最佳检查点。

\begin{table}[htp]
\centering
\caption{交通状态预测排行榜（统一评估协议下）。}
\label{tab:ch6_traffic_leader}
\small
\resizebox{\linewidth}{!}{
\begin{tabular}{l cc cc cc}
\toprule
\multirow{2}{*}{\textbf{模型}} &
\multicolumn{2}{c}{\textbf{METR-LA}} &
\multicolumn{2}{c}{\textbf{PEMSD7}} &
\multicolumn{2}{c}{\textbf{PEMS-BAY}} \\
\cmidrule(lr){2-3} \cmidrule(lr){4-5} \cmidrule(lr){6-7}
& MAE$\downarrow$ & RMSE$\downarrow$
& MAE$\downarrow$ & RMSE$\downarrow$
& MAE$\downarrow$ & RMSE$\downarrow$ \\
\midrule
STAEformer & 2.962 & 5.984 & 18.96 & 32.28 & 1.532 & 3.446 \\
DCST       & 3.090 & 6.334 & 19.39 & 32.72 & 1.561 & 3.483 \\
DST2former & 3.095 & 6.240 & 19.67 & 32.61 & 1.639 & 3.587 \\
STDMAE     & 3.096 & 6.230 & 20.19 & 32.99 & 1.579 & 3.502 \\
EasyST     & 3.115 & 6.419 & 19.49 & 32.48 & 1.565 & 3.509 \\
PatchSTG   & 3.127 & 6.316 & 19.99 & 32.90 & 1.589 & 3.580 \\
HiMSNet    & 3.143 & 6.221 & 23.34 & 36.04 & 1.670 & 3.613 \\
BigST      & 3.218 & 6.359 & 21.11 & 34.18 & 1.622 & 3.538 \\
DSTAGNN    & 3.331 & 6.599 & 22.73 & 36.04 & 1.745 & 3.800 \\
\bottomrule
\end{tabular}}
\end{table}

\subsubsection{轨迹位置预测排行榜}

表~\ref{tab:ch6_traj_leader}展示了在Foursquare\_NYC、Foursquare\_TKY和Singapore数据集上的轨迹位置预测结果。

\begin{table}[htp]
\centering
\caption{轨迹位置预测排行榜（统一评估协议下）。}
\label{tab:ch6_traj_leader}
\small
\resizebox{\linewidth}{!}{
\begin{tabular}{l cc cc cc}
\toprule
\multirow{2}{*}{\textbf{模型}} &
\multicolumn{2}{c}{\textbf{Foursquare\_NYC}} &
\multicolumn{2}{c}{\textbf{Foursquare\_TKY}} &
\multicolumn{2}{c}{\textbf{Singapore}} \\
\cmidrule(lr){2-3} \cmidrule(lr){4-5} \cmidrule(lr){6-7}
& Acc@1$\uparrow$ & Acc@5$\uparrow$
& Acc@1$\uparrow$ & Acc@5$\uparrow$
& Acc@1$\uparrow$ & Acc@5$\uparrow$ \\
\midrule
ROTAN   & 0.1302 & 0.2805 & 0.1897 & 0.3653 & 0.1631 & 0.3331 \\
GNPRSID & 0.1591 & 0.3419 & 0.1658 & 0.3746 & 0.1539 & 0.3471 \\
RNTrajRec & 0.1605 & 0.3231 & 0.1539 & 0.3305 & 0.1378 & 0.2978 \\
DeepMove & 0.1572 & 0.3739 & 0.1800 & 0.3869 & 0.1298 & 0.3096 \\
PLSPL   & 0.1034 & 0.3211 & 0.1732 & 0.3596 & 0.1527 & 0.3294 \\
CANOE   & 0.1147 & 0.2883 & 0.1535 & 0.3485 & 0.1366 & 0.3089 \\
LoTNext & 0.0856 & 0.2402 & 0.1322 & 0.3890 & 0.1365 & 0.3576 \\
DCHL    & 0.1009 & 0.3141 & 0.0706 & 0.2507 & 0.0889 & 0.2678 \\
\bottomrule
\end{tabular}}
\end{table}

\subsubsection{到达时间预测与地图匹配排行榜}

表~\ref{tab:ch6_eta_leader}和表~\ref{tab:ch6_mm_leader}分别展示了到达时间预测和地图匹配任务的排行榜结果。

\begin{table}[htp]
\centering
\caption{到达时间预测排行榜。}
\label{tab:ch6_eta_leader}
\small
\resizebox{\linewidth}{!}{
\begin{tabular}{l ccc ccc}
\toprule
\multirow{2}{*}{\textbf{模型}} &
\multicolumn{3}{c}{\textbf{Beijing}} &
\multicolumn{3}{c}{\textbf{Chengdu}} \\
\cmidrule(lr){2-4} \cmidrule(lr){5-7}
& MAE$\downarrow$ & MAPE$\downarrow$ & RMSE$\downarrow$
& MAE$\downarrow$ & MAPE$\downarrow$ & RMSE$\downarrow$ \\
\midrule
HetETA  & 125.67 & 0.105 & 222.91 & 190.56 & 0.113 & 308.56 \\
DeepTTE & 224.46 & 0.208 & 351.74 & 317.38 & 0.220 & 429.09 \\
MVSTM   & 279.08 & 0.270 & 430.98 & 255.18 & 0.189 & 343.43 \\
MulT-TTE & 280.36 & 0.274 & 432.43 & 465.59 & 0.381 & 580.25 \\
DOT     & 364.85 & 0.382 & 547.62 & 209.74 & 0.163 & 286.02 \\
MetaTTE & 372.15 & 0.347 & 562.24 & 394.52 & 0.300 & 511.63 \\
DutyTTE & 431.59 & 0.460 & 572.96 & 243.13 & 0.171 & 443.44 \\
\bottomrule
\end{tabular}}
\end{table}

\begin{table}[htp]
\centering
\caption{地图匹配排行榜。}
\label{tab:ch6_mm_leader}
\small
\resizebox{\linewidth}{!}{
\begin{tabular}{l cc cc cc cc}
\toprule
\multirow{2}{*}{\textbf{模型}} &
\multicolumn{2}{c}{\textbf{Santander}} &
\multicolumn{2}{c}{\textbf{Spaichingen}} &
\multicolumn{2}{c}{\textbf{Neftekamsk}} &
\multicolumn{2}{c}{\textbf{Valky}} \\
\cmidrule(lr){2-3} \cmidrule(lr){4-5} \cmidrule(lr){6-7} \cmidrule(lr){8-9}
& RMF$\downarrow$ & AL$\uparrow$
& RMF$\downarrow$ & AL$\uparrow$
& RMF$\downarrow$ & AL$\uparrow$
& RMF$\downarrow$ & AL$\uparrow$ \\
\midrule
FMM        & 0.018 & 1.000 & 0.000 & 1.000 & 0.852 & 0.193 & 0.329 & 0.671 \\
HMMM       & 0.021 & 0.997 & 0.035 & 1.000 & 0.391 & 0.999 & 0.433 & 1.000 \\
STMatching & 0.674 & 0.998 & 0.088 & 1.000 & 0.457 & 1.000 & 0.436 & 1.000 \\
DeepMM     & 0.981 & 0.019 & 0.947 & 0.053 & 0.889 & 0.111 & 0.909 & 0.091 \\
L2MM       & 1.132 & 0.057 & 1.632 & 0.158 & 0.778 & 0.222 & 2.455 & 0.182 \\
\bottomrule
\end{tabular}}
\end{table}

\subsubsection{复现保真度验证}

为验证AgentCity的复现质量，将复现结果与原始论文报告的指标进行比较。表~\ref{tab:ch6_fidelity}展示了七个代表性模型的比较结果。复现结果与报告值之间的偏差普遍较小，表明AgentCity在无人工干预的情况下能够以合理的保真度复现已发表的交通预测模型。

\begin{table}[htp]
\centering
\caption{报告结果与AgentCity复现结果的比较。}
\label{tab:ch6_fidelity}
\small
\resizebox{\linewidth}{!}{
\begin{tabular}{l l cc cc c}
\toprule
\multirow{2}{*}{\textbf{模型}} & \multirow{2}{*}{\textbf{数据集}} &
\multicolumn{2}{c}{\textbf{论文报告}} &
\multicolumn{2}{c}{\textbf{AgentCity复现}} &
\multirow{2}{*}{\textbf{偏差(\%)}} \\
\cmidrule(lr){3-4} \cmidrule(lr){5-6}
& & MAE & RMSE & MAE & RMSE & \\
\midrule
DSTAGNN & PEMSD4   & 19.30 & 31.46 & 19.90 & 31.29 & 0.85 \\
LightST & PEMSD7   & 20.78 & 33.95 & 21.99 & 34.59 & 3.38 \\
RSTIB   & PEMSD7   & 19.84 & 33.90 & 20.37 & 33.40 & 0.06 \\
STDMAE  & METR-LA  & 3.00  & 5.98  & 3.09  & 6.23  & 3.79 \\
LSTTN   & METR-LA  & 2.96  & 5.92  & 3.08  & 6.12  & 3.60 \\
AutoSTF & PEMS-BAY & 1.55  & 3.51  & 1.54  & 3.44  & -1.58 \\
DCST    & PEMS-BAY & 1.55  & 3.50  & 1.56  & 3.48  & -0.20 \\
\bottomrule
\end{tabular}}
\end{table}

\subsubsection{与通用代码智能体的比较}

将AgentCity的复现结果与两个通用代码智能体SWE-agent和OpenHands进行对比。所有智能体使用相同的复现设置、相同的代码仓库和数据集、以及相同的语言模型后端。表~\ref{tab:ch6_agent_compare}展示了比较结果。在所有评估的模型-数据集对上，AgentCity的复现结果与原始报告值的偏差最小，表明面向交通预测领域的专门化工作流设计优于通用代码智能体的复现效果。

\begin{table}[htp]
\centering
\caption{不同代码智能体的复现一致性比较。Gap\%为复现结果与原始报告的综合偏差百分比。}
\label{tab:ch6_agent_compare}
\small
\resizebox{\linewidth}{!}{
\begin{tabular}{l ccc ccc}
\toprule
\multirow{2}{*}{\textbf{来源}} &
\multicolumn{3}{c}{\textbf{STDMAE (PEMSD7)}} &
\multicolumn{3}{c}{\textbf{LSTTN (METR-LA)}} \\
\cmidrule(lr){2-4} \cmidrule(lr){5-7}
& MAE$\downarrow$ & RMSE$\downarrow$ & Gap\%$\downarrow$
& MAE$\downarrow$ & RMSE$\downarrow$ & Gap\%$\downarrow$ \\
\midrule
论文报告     & 18.65 & 31.44 & 0.00  & 2.96 & 5.92 & 0.00 \\
SWE-agent   & 31.96 & 45.87 & 55.38 & 4.50 & 9.84 & 61.49 \\
OpenHands   & 21.79 & 34.55 & 12.48 & 6.55 & 11.80 & 106.64 \\
\textbf{AgentCity} & \textbf{20.19} & \textbf{32.99} & \textbf{6.17} & \textbf{3.08} & \textbf{6.12} & \textbf{3.60} \\
\bottomrule
\end{tabular}}
\end{table}


\subsection{POI-QA基准评测结果}
\label{subsec:ch6_poiqa_exp}

\subsubsection{分类任务结果}

表~\ref{tab:ch6_cls_hr}展示了分类任务在三个粒度级别上的HR@$k$结果。

\begin{table}[htp]
\centering
\caption{分类任务的HR@\{5,10,20\}结果。\textbf{加粗}和\underline{下划线}分别表示最优和次优结果。}
\label{tab:ch6_cls_hr}
\small
\resizebox{\linewidth}{!}{
\begin{tabular}{l|ccc|ccc|ccc}
\toprule
\multirow{2}{*}{\textbf{模型}}
& \multicolumn{3}{c|}{\textbf{大类}} & \multicolumn{3}{c|}{\textbf{中类}} & \multicolumn{3}{c}{\textbf{小类}} \\
\cmidrule(lr){2-4} \cmidrule(lr){5-7} \cmidrule(lr){8-10}
& HR@5 & HR@10 & HR@20
& HR@5 & HR@10 & HR@20
& HR@5 & HR@10 & HR@20 \\
\midrule
Llama3.1-8B (zero-shot)
& 0.0664 & 0.1001 & 0.0917
& 0.0281 & 0.0481 & 0.0695
& 0.0222 & 0.0350 & 0.0372 \\
Qwen2.5-7B (zero-shot)
& 0.1017 & 0.1775 & 0.1650
& 0.0451 & 0.0784 & 0.0814
& 0.0263 & 0.0467 & 0.0673 \\
\midrule
Llama3.1-8B (LoRA)
& 0.1239 & 0.1880 & 0.2067
& 0.0590 & 0.1041 & 0.1241
& 0.0445 & 0.0687 & 0.0797 \\
Qwen2.5-7B (LoRA)
& 0.1950 & 0.3222 & 0.3509
& 0.1004 & 0.1627 & 0.1871
& 0.0611 & 0.1062 & 0.1250 \\
\midrule
Llama3.1-8B (RAG)
& 0.1237 & 0.1770 & 0.2089
& 0.0593 & 0.1155 & 0.1328
& 0.0461 & 0.0721 & 0.0848 \\
Qwen2.5-7B (RAG)
& 0.2099 & \underline{0.3821} & 0.3815
& 0.0967 & 0.1876 & 0.2008
& 0.0650 & 0.1107 & 0.1218 \\
\midrule
Llama3.1-8B (RAG+LoRA)
& \underline{0.2189} & 0.3784 & \underline{0.4356}
& \underline{0.1736} & \underline{0.2966} & \underline{0.3379}
& \underline{0.1092} & \underline{0.2009} & \underline{0.2324} \\
Qwen2.5-7B (RAG+LoRA)
& \textbf{0.2339} & \textbf{0.4062} & \textbf{0.4698}
& \textbf{0.1812} & \textbf{0.2987} & \textbf{0.3577}
& \textbf{0.1288} & \textbf{0.2185} & \textbf{0.2586} \\
\bottomrule
\end{tabular}}
\end{table}

实验结果表明：（1）零样本性能一致较低，确认了时空推理对于开箱即用的大语言模型仍具挑战性。（2）LoRA和RAG均能提升模型性能——以$k=10$为例，LoRA分别为Llama和Qwen带来0.05和0.09的HR@10平均提升，RAG通过整合外部时空知识实现了更大的提升幅度（0.06和0.13）。（3）RAG+LoRA的组合获得最佳结果，在HR@10和NDCG@10上分别达到零样本基线的2.5倍和3.9倍。

\subsubsection{开放世界生成任务结果}

表~\ref{tab:ch6_gen_results}展示了开放世界生成式问答任务的结果。该任务更具挑战性，要求模型不仅推理复杂时空约束，还需生成格式准确的POI名称。

\begin{table}[htp]
\centering
\caption{开放世界生成式问答任务结果。}
\label{tab:ch6_gen_results}
\small
\resizebox{\linewidth}{!}{
\begin{tabular}{l|ccc|ccc|c}
\toprule
\multirow{2}{*}{\textbf{模型}}
& \multicolumn{3}{c|}{\textbf{命中率}}
& \multicolumn{3}{c|}{\textbf{NDCG}}
& \multirow{2}{*}{\textbf{BLEU}} \\
\cmidrule(lr){2-4} \cmidrule(lr){5-7}
& HR@5 & HR@10 & HR@20
& NDCG@5 & NDCG@10 & NDCG@20 \\
\midrule
Llama3.1-8B (zero-shot)
& 0.0075 & 0.0112 & 0.0146
& 0.0149 & 0.0244 & 0.0297
& 0.0332 \\
Qwen2.5-7B (zero-shot)
& 0.0119 & 0.0199 & 0.0234
& 0.0213 & 0.0390 & 0.0442
& 0.0254 \\
\midrule
Llama3.1-8B (LoRA)
& 0.0144 & 0.0241 & 0.0282
& 0.0320 & 0.0512 & 0.0589
& 0.2941 \\
Qwen2.5-7B (LoRA)
& 0.0220 & 0.0394 & 0.0459
& 0.0464 & 0.0798 & 0.0940
& 0.3082 \\
\midrule
Llama3.1-8B (RAG)
& 0.0142 & 0.0232 & 0.0294
& 0.0338 & 0.0537 & 0.0640
& 0.4125 \\
Qwen2.5-7B (RAG)
& 0.0226 & 0.0441 & 0.0496
& 0.0484 & 0.0850 & 0.1048
& 0.5321 \\
\midrule
Llama3.1-8B (RAG+LoRA)
& \underline{0.0331} & \underline{0.0584} & \underline{0.0690}
& \underline{0.0725} & \underline{0.1276} & \textbf{0.1509}
& \underline{0.7729} \\
Qwen2.5-7B (RAG+LoRA)
& \textbf{0.0394} & \textbf{0.0616} & \textbf{0.0714}
& \textbf{0.0770} & \textbf{0.1289} & \underline{0.1508}
& \textbf{0.7911} \\
\bottomrule
\end{tabular}}
\end{table}

零样本设置下的HR@10仅为0.01左右，即使最佳配置（RAG+LoRA）也仅达到约0.06的HR@10。尽管严格排名指标较低，但RAG与LoRA结合时的BLEU分数较高（约0.79），表明生成输出在语义上往往接近标签，即使未完全匹配。这一发现凸显了在生成式时空问答中控制幻觉与确保输出准确性的必要性。

\subsubsection{人类参照评估}

表~\ref{tab:ch6_human}报告了在人类改写子集上的评估结果。该子集包含由众包工作者改写的1,000个测试问题，用于评估模型对自然用户查询的泛化能力。

\begin{table}[htp]
\centering
\caption{人类改写子集上的评测结果。}
\label{tab:ch6_human}
\small
\resizebox{\linewidth}{!}{
\begin{tabular}{l|ccc|ccc|c}
\toprule
\multirow{2}{*}{\textbf{任务}}
& \multicolumn{3}{c|}{\textbf{命中率}}
& \multicolumn{3}{c|}{\textbf{NDCG}}
& \multirow{2}{*}{\textbf{BLEU}} \\
\cmidrule(lr){2-4} \cmidrule(lr){5-7}
& HR@5 & HR@10 & HR@20
& NDCG@5 & NDCG@10 & NDCG@20 \\
\midrule
分类：大类
& 0.3493 & 0.5644 & 0.6701
& 0.6518 & 0.7774 & 0.8432
& - \\
分类：中类
& 0.2891 & 0.4150 & 0.4693
& 0.5119 & 0.6875 & 0.7861
& - \\
分类：小类
& 0.1833 & 0.3035 & 0.3481
& 0.4411 & 0.6012 & 0.7140
& - \\
\midrule
生成：POI名称
& 0.1548 & 0.1611 & 0.1984
& 0.2096 & 0.2667 & 0.2924
& 0.8655 \\
\bottomrule
\end{tabular}}
\end{table}

人类表现结果揭示了当前模型与人类能力之间的显著差距。在小类分类任务上，人类达到HR@10=0.57，而最佳模型仅为0.22。从模板问题到改写问题的性能下降也十分显著——HR平均下降约70\%，NDCG平均下降约85\%。这表明当前大语言模型在面对自然表述的时空推理问题时，泛化能力仍有较大提升空间。

\subsection{基于本文方法的时空评测适配实验}
\label{subsec:ch6_our_methods}

本节初步探讨将前述章节提出的PEFT方法应用于POI-QA时空问答任务的可行性。在POI-QA的评测框架中，标准LoRA被用作参数高效微调的基线方法。本文提出的结构感知适配方法可以作为LoRA的替代或增强方案，在相同参数预算下实现更优的时空推理性能。

具体而言，第三章的HyCAM方法通过上下文注意力调制，可以为POI问答中的多任务适配（分类与生成）提供任务感知的注意力分配；第四章的RoSA和DyPAM方法通过位置结构感知的维度级调制，可以增强模型对时空位置编码的利用效率；第五章的CASCADE方法通过多尺度频谱适配，可以同时捕获时空推理中的全局模式与局部细节。

% 此处为后续实验预留位置。当完成实验后，将补充具体的对比数据，展示本文方法相对于标准LoRA在POI-QA数据集上的性能提升。


\section{本章小结}
\label{sec:ch6_summary}

本章从评测基础设施的角度，构建了支撑时空智能研究的两类核心工具。

AgentCity作为首个AI驱动的交通预测持续评测框架，通过多智能体工作流实现了文献检索、模型集成与标准化评估的自动化。该框架目前覆盖4类交通预测任务、26个数据集和74个模型，在复现保真度上显著优于通用代码智能体。AgentCity将基准评测维护从一次性人工操作转变为可持续的AI驱动流程，为时空预测模型的公正评估提供了标准化平台。

POI-QA作为时空敏感的兴趣点问答数据集，系统性地评测了大语言模型的时空推理能力。该数据集包含540万条双语问答对和四级难度评测体系，揭示了当前最先进模型在时空推理方面的显著不足——即使采用RAG+LoRA的最佳配置，细粒度生成任务的性能仍远低于人类水平。这一发现为本文提出的结构感知PEFT方法在时空推理任务上的进一步应用提供了明确的改进方向。

从论文整体体系来看，本章的两项工作与前述章节形成闭环：第三至五章从方法论层面解决了时空数据结构异质性驱动的表征学习问题，本章则从评测生态层面提供了方法验证的基础设施支撑。AgentCity提供标准化的交通预测评测平台，POI-QA提供面向LLM时空推理的细粒度评测数据集，二者共同构成了完整的时空智能评测体系。