diff --git a/0.0_title.tex b/0.0_title.tex new file mode 100644 index 0000000..7d569c0 --- /dev/null +++ b/0.0_title.tex @@ -0,0 +1,3 @@ +% 论文题目及副标题-{中文}{英文} 注意:论文题目应严格控制在25个汉字(符)以内 +\Title{时空数据的表征学习\\建模方法研究}{Research on Representation Learning and Modeling Methods for Spatiotemporal Data} +% \Subtitle{版本 \BUAAThesisVer{}}{Version \BUAAThesisVer{}} diff --git a/0.1_abs&keyw.tex b/0.1_abs&keyw.tex new file mode 100644 index 0000000..fc52ab5 --- /dev/null +++ b/0.1_abs&keyw.tex @@ -0,0 +1,24 @@ +% 摘要-{中文}{英文} +\Abstract{% + 论文摘要是对论文研究内容的高度概括,应体现论文工作的核心思想。博士学 + 位论文的中文摘要一般约800~1200字;硕士学位论文的中文摘要一般约500字。摘 + 要内容应涉及本项科研工作的目的和意义、研究思想和方法、研究成果和结论,博 + 士学位论文应突出论文的创造性成果,硕士学位论文应突出论文的新见解。应具有 + 独立性和自含性,即应是一篇简短但意义完整的文章。论文摘要中不要出现图片、 + 图表、表格或其他插图材料。 + + 论文的关键词,是为了文献标引工作从论文中选取出来用以表示全文主题内容 + 信息的单词或术语,关键词一般为3~5个,按词条的外延层次排列(外延大的排在 + 前面)。每个关键词之间用逗号间隔,最后一个关键词后不缀标点符号。 + + 论文摘要的中文版与英文版文字内容要对应。从中文摘要开始编写页码并采用 + 双面印刷。“Keywords”与中文摘要部分的关键词对应,每个关键词之间用逗号间隔。 + }{ + The abstract is a concise summary of the research content of the thesis, reflecting the core ideas of the work. For a doctoral dissertation, the Chinese abstract is typically around 800–1,200 words, while for a master's thesis, it is generally about 500 words. The abstract should address the purpose and significance of the research, the methodology and approach, as well as the key findings and conclusions. Doctoral dissertations should emphasize original contributions, while master's theses should highlight novel insights. The abstract must be self-contained and independent, functioning as a complete yet concise standalone text. Figures, charts, tables, or other illustrative materials should not appear in the abstract. + + Keywords are terms or phrases selected from the thesis to represent the main thematic content for indexing purposes. Typically, 3–5 keywords are required, arranged in hierarchical order of scope (with broader terms listed first). Keywords are separated by semicolons, with no punctuation following the last keyword. + + The Chinese and English versions of the abstract must align in content. Page numbering begins with the Chinese abstract, and the document should be printed double-sided. The "Keywords" section in the English abstract corresponds to the Chinese version, with terms similarly separated by semicolons. +} +% 关键字-{中文}{英文} +\Keyword{时空数据,表征学习,大语言模型,参数高效微调,结构异质性}{Spatiotemporal Data, Representation Learning, Large Language Model, Parameter-Efficient Fine-Tuning, Structural Heterogeneity} diff --git a/0.2_signs.tex b/0.2_signs.tex new file mode 100644 index 0000000..41d7dfd --- /dev/null +++ b/0.2_signs.tex @@ -0,0 +1,86 @@ +% 符号定义 +\Signs{ \centering +\renewcommand{\arraystretch}{1.25} +\begin{tabular}{cl} +\multicolumn{2}{l}{\textbf{一般符号}} \\ +$\mathbb{R}$ & 实数域 \\ +$\odot$ & Hadamard(逐元素)乘法 \\ +$\|\cdot\|_2$ & 向量$L_2$范数 \\ +$\sigma(\cdot)$ & Sigmoid激活函数 \\ +$\bigoplus$ & 频段重组操作 \\[4pt] + +\multicolumn{2}{l}{\textbf{数据与任务}} \\ +$\mathbf{X}$ & 输入时空样本或指令序列 \\ +$\mathbf{Y}$ & 目标输出 \\ +$\mathcal{D}$ & 训练数据集 \\ +$\mathcal{T}$ & 任务集合 \\ +$\tau$ & 任务类型标识 \\ +$T$ & 序列长度或时间步数 \\ +$N$ & 空间单元数 \\ +$D$ & 特征维度 \\ +$L$ & 轨迹长度 \\ +$B$ & 批次大小或参数预算(视上下文而定)\\[4pt] + +\multicolumn{2}{l}{\textbf{模型架构}} \\ +$\Theta_0$ & 预训练模型参数 \\ +$\Theta_a$ & 适配参数 \\ +$\Delta\Theta$ & 参数更新增量 \\ +$\ell$ & Transformer层索引 \\ +$d$ & 隐藏维度 \\ +$H$ & 注意力头数 \\ +$d_h$ & 每头维度($d_h = d/H$) \\ +$\mathbf{H}^{(\ell)}$ & 第$\ell$层隐藏状态 \\ +$\mathbf{Q}^{(\ell)}, \mathbf{K}^{(\ell)}, \mathbf{V}^{(\ell)}$ & Query、Key、Value矩阵 \\ +$\mathbf{W}_Q, \mathbf{W}_K, \mathbf{W}_V$ & 注意力投影权重矩阵 \\ +$\mathbf{W}_0$ & 预训练权重矩阵 \\ +$\Delta\mathbf{W}$ & 权重更新矩阵 \\[4pt] + +\multicolumn{2}{l}{\textbf{统一分析框架}} \\ +$\mathcal{M}_\theta(\cdot)$ & 结构感知调制算子 \\ +$\mathbf{Z}^{(\ell)}$ & 第$\ell$层中间表示 \\ +$\tilde{\mathbf{Z}}^{(\ell)}$ & 调制后的表示 \\ +$\mathcal{R}$ & 结构角色描述符 \\ +$\mathcal{R}_{mod}$ & 模块级功能异质性描述符 \\ +$\mathcal{R}_{dim}$ & 维度级位置结构异质性描述符 \\ +$\mathcal{R}_{spec}$ & 频谱级多尺度异质性描述符 \\ +$\mathcal{R}_{param}$ & 参数级容量分配异质性描述符 \\ +$\mathbf{S}_\theta(\cdot)$ & 条件化调制信号生成函数 \\[4pt] + +\multicolumn{2}{l}{\textbf{RoPE与位置编码}} \\ +$\theta_i$ & 第$i$个维度对的旋转角度 \\ +$\omega$ & RoPE基础频率常数(默认10000) \\[4pt] + +\multicolumn{2}{l}{\textbf{RoSA方法}} \\ +$r_{\text{low}}$ & 低频维度比例 \\ +$\alpha$ & 缩放/调制强度因子 \\ +$\mathcal{L}_S$ & 动态层选择的活跃层集合 \\ +$k_{\text{ratio}}$ & 层选择比例 \\ +$p_{\text{exploit}}$ & 利用-探索中的利用概率 \\ +$u$ & 层选择的周期性间隔步数 \\[4pt] + +\multicolumn{2}{l}{\textbf{DyPAM方法}} \\ +$d_e$ & 每头调制特征维度 \\ +$r$ & 低秩投影秩 \\ +$\mathbf{E}_Q^{(\ell)}, \mathbf{E}_K^{(\ell)}$ & 维度嵌入矩阵 \\ +$\boldsymbol{\beta}^{(\ell)}$ & 层级结构偏置 \\ +$\boldsymbol{\beta}^{(\ell)}_h$ & 头级结构偏置 \\ +$s^{(\ell)}_{t,h,i}$ & 归一化调制因子 \\[4pt] + +\multicolumn{2}{l}{\textbf{CASCADE方法}} \\ +$\mathbf{S}_{\text{dct}}$ & DCT域系数矩阵 \\ +$\mathcal{I}_{\text{dct}}$ & 低频索引集合 \\ +$K_{\text{dct}}$ & 低频DCT系数数量 \\ +$\mathcal{B}$ & 小波细节子带集合$\{\text{LH}, \text{HL}, \text{HH}\}$ \\ +$\gamma_b, \beta_b$ & 级联FiLM调制的缩放与偏移参数 \\ +$w_e(\mathbf{x})$ & 输入依赖的专家路由权重 \\ +$E$ & 专家数量 \\[4pt] + +\multicolumn{2}{l}{\textbf{MESSA方法}} \\ +$\Delta_{\text{sh}}$ & 跨任务共享稀疏更新 \\ +$\Delta_{\text{sp}}^{(t)}$ & 任务$t$的特有稀疏更新 \\ +$z^{\text{sh}}_g$ & 参数组$g$的共享软门控值 \\ +$z^{\text{sp}}_{g,t}$ & 参数组$g$在任务$t$上的特有软门控值 \\ +$\mathcal{G}$ & 参数组集合 \\ +$s_g$ & 参数组$g$的参数代价 \\ +\end{tabular} +} diff --git a/0.3_abbrs.tex b/0.3_abbrs.tex new file mode 100644 index 0000000..f15687a --- /dev/null +++ b/0.3_abbrs.tex @@ -0,0 +1,59 @@ +% 缩写定义 +\Abbreviations{ \centering +\renewcommand{\arraystretch}{1.2} +\begin{tabular}{lll} + \textbf{外文缩略字母} & \textbf{外文全称} & \textbf{中文说明}\\ + \midrule + % 模型与架构 + LLM & Large Language Model & 大语言模型\\ + FFN & Feed-Forward Network & 前馈网络\\ + GQA & Grouped Query Attention & 分组查询注意力\\ + MHSA & Multi-Head Self-Attention & 多头自注意力\\ + MoE & Mixture of Experts & 混合专家\\ + RoPE & Rotary Position Embedding & 旋转位置编码\\ + \\ + % 适配方法(通用) + PEFT & Parameter-Efficient Fine-Tuning & 参数高效微调\\ + LoRA & Low-Rank Adaptation & 低秩适配\\ + DoRA & Weight-Decomposed Low-Rank Adaptation & 权重分解低秩适配\\ + AdaLoRA & Adaptive Low-Rank Adaptation & 自适应低秩适配\\ + SFT & Supervised Fine-Tuning & 监督微调\\ + RAG & Retrieval-Augmented Generation & 检索增强生成\\ + \\ + % 本文提出的方法 + CAM & Contextual Attention Modulation & 上下文注意力调制\\ + HyCAM & Hybrid Contextual Attention Modulation & 混合上下文注意力调制\\ + RoSA & RoPE-aware Selective Adaptation & RoPE感知选择性适配\\ + RoAE & RoPE-aware Attention Enhancement & RoPE感知注意力增强\\ + DLS & Dynamic Layer Selection & 动态层选择\\ + DyPAM & Dynamic Positional Attention Modulation & 动态位置注意力调制\\ + CASCADE & Coarse-to-Fine Spectral Cascading & 从粗到细频谱级联\\ + MESSA & Multi-task Efficient Shared-Specific & 多任务高效共享-特有\\ + & \quad Sparse Adaptation & \quad 稀疏适配\\ + \\ + % 信号处理 + DCT & Discrete Cosine Transform & 离散余弦变换\\ + IDCT & Inverse Discrete Cosine Transform & 逆离散余弦变换\\ + FiLM & Feature-wise Linear Modulation & 特征级线性调制\\ + \\ + % 评测与数据 + POI & Point of Interest & 兴趣点\\ + QA & Question Answering & 问答\\ + ETA & Estimated Time of Arrival & 预计到达时间\\ + GPS & Global Positioning System & 全球定位系统\\ + WGS84 & World Geodetic System 1984 & 1984世界大地坐标系\\ + \\ + % 评估指标 + MAE & Mean Absolute Error & 平均绝对误差\\ + RMSE & Root Mean Square Error & 均方根误差\\ + MAPE & Mean Absolute Percentage Error & 平均绝对百分比误差\\ + HR & Hit Ratio & 命中率\\ + NDCG & Normalized Discounted Cumulative Gain & 归一化折损累计增益\\ + BLEU & Bilingual Evaluation Understudy & 双语评估替补\\ + \\ + % 深度学习基础 + CNN & Convolutional Neural Network & 卷积神经网络\\ + RNN & Recurrent Neural Network & 循环神经网络\\ + GNN & Graph Neural Network & 图神经网络\\ +\end{tabular} +} diff --git a/assets/3_ht.pdf b/assets/3_ht.pdf new file mode 100755 index 0000000..f46bb6c Binary files /dev/null and b/assets/3_ht.pdf differ diff --git a/assets/3_loss.pdf b/assets/3_loss.pdf new file mode 100755 index 0000000..17e1451 Binary files /dev/null and b/assets/3_loss.pdf differ diff --git a/assets/3_model.pdf b/assets/3_model.pdf new file mode 100755 index 0000000..4f6192b Binary files /dev/null and b/assets/3_model.pdf differ diff --git a/assets/3_sens.pdf b/assets/3_sens.pdf new file mode 100755 index 0000000..439a94f Binary files /dev/null and b/assets/3_sens.pdf differ diff --git a/assets/3_tsne.pdf b/assets/3_tsne.pdf new file mode 100755 index 0000000..1511d29 Binary files /dev/null and b/assets/3_tsne.pdf differ diff --git a/assets/4_AcrossLayer.pdf b/assets/4_AcrossLayer.pdf new file mode 100755 index 0000000..3820c3c Binary files /dev/null and b/assets/4_AcrossLayer.pdf differ diff --git a/assets/4_SingleLayer10.pdf b/assets/4_SingleLayer10.pdf new file mode 100755 index 0000000..23537db Binary files /dev/null and b/assets/4_SingleLayer10.pdf differ diff --git a/assets/4_bias_modulation.pdf b/assets/4_bias_modulation.pdf new file mode 100644 index 0000000..8dd5107 Binary files /dev/null and b/assets/4_bias_modulation.pdf differ diff --git a/assets/4_dls_sensitivity.pdf b/assets/4_dls_sensitivity.pdf new file mode 100755 index 0000000..258574e Binary files /dev/null and b/assets/4_dls_sensitivity.pdf differ diff --git a/assets/4_dypam_ablation.pdf b/assets/4_dypam_ablation.pdf new file mode 100644 index 0000000..6306850 Binary files /dev/null and b/assets/4_dypam_ablation.pdf differ diff --git a/assets/4_dypam_arch.pdf b/assets/4_dypam_arch.pdf new file mode 100644 index 0000000..f168140 Binary files /dev/null and b/assets/4_dypam_arch.pdf differ diff --git a/assets/4_layer_selection.pdf b/assets/4_layer_selection.pdf new file mode 100755 index 0000000..ff8bba8 Binary files /dev/null and b/assets/4_layer_selection.pdf differ diff --git a/assets/4_rosa_arch.pdf b/assets/4_rosa_arch.pdf new file mode 100755 index 0000000..c7a4c11 Binary files /dev/null and b/assets/4_rosa_arch.pdf differ diff --git a/assets/4_token_heterogeneity.pdf b/assets/4_token_heterogeneity.pdf new file mode 100644 index 0000000..b86571e Binary files /dev/null and b/assets/4_token_heterogeneity.pdf differ diff --git a/assets/5_cascade_ablation_a.pdf b/assets/5_cascade_ablation_a.pdf new file mode 100644 index 0000000..2c9edc3 Binary files /dev/null and b/assets/5_cascade_ablation_a.pdf differ diff --git a/assets/5_cascade_ablation_b.pdf b/assets/5_cascade_ablation_b.pdf new file mode 100644 index 0000000..921ac4d Binary files /dev/null and b/assets/5_cascade_ablation_b.pdf differ diff --git a/assets/5_cascade_arch.pdf b/assets/5_cascade_arch.pdf new file mode 100644 index 0000000..9f439cf Binary files /dev/null and b/assets/5_cascade_arch.pdf differ diff --git a/assets/5_messa_analysis.pdf b/assets/5_messa_analysis.pdf new file mode 100644 index 0000000..20f78f1 Binary files /dev/null and b/assets/5_messa_analysis.pdf differ diff --git a/assets/5_messa_arch.pdf b/assets/5_messa_arch.pdf new file mode 100644 index 0000000..a5c8a6f Binary files /dev/null and b/assets/5_messa_arch.pdf differ diff --git a/assets/5_spectral_analysis.pdf b/assets/5_spectral_analysis.pdf new file mode 100644 index 0000000..a07084b Binary files /dev/null and b/assets/5_spectral_analysis.pdf differ diff --git a/assets/5_task_activation.png b/assets/5_task_activation.png new file mode 100644 index 0000000..3919ef9 Binary files /dev/null and b/assets/5_task_activation.png differ diff --git a/assets/6_agentcity_frontend.png b/assets/6_agentcity_frontend.png new file mode 100644 index 0000000..41d7970 Binary files /dev/null and b/assets/6_agentcity_frontend.png differ diff --git a/assets/6_agentcity_leaderboard.png b/assets/6_agentcity_leaderboard.png new file mode 100644 index 0000000..8a9c89a Binary files /dev/null and b/assets/6_agentcity_leaderboard.png differ diff --git a/assets/6_agentcity_overview.pdf b/assets/6_agentcity_overview.pdf new file mode 100644 index 0000000..ba43a75 Binary files /dev/null and b/assets/6_agentcity_overview.pdf differ diff --git a/assets/6_benchmark_dist.png b/assets/6_benchmark_dist.png new file mode 100644 index 0000000..0adebcd Binary files /dev/null and b/assets/6_benchmark_dist.png differ diff --git a/assets/6_poiqa_illustration.png b/assets/6_poiqa_illustration.png new file mode 100644 index 0000000..c1510da Binary files /dev/null and b/assets/6_poiqa_illustration.png differ diff --git a/assets/6_poiqa_qa_synthesizing.png b/assets/6_poiqa_qa_synthesizing.png new file mode 100644 index 0000000..38741e1 Binary files /dev/null and b/assets/6_poiqa_qa_synthesizing.png differ diff --git a/assets/6_poiqa_rag_pipeline.png b/assets/6_poiqa_rag_pipeline.png new file mode 100644 index 0000000..40f758d Binary files /dev/null and b/assets/6_poiqa_rag_pipeline.png differ diff --git a/assets/unsorted/AgentCity/agentv2.pdf b/assets/unsorted/AgentCity/agentv2.pdf new file mode 100644 index 0000000..ba43a75 Binary files /dev/null and b/assets/unsorted/AgentCity/agentv2.pdf differ diff --git a/assets/unsorted/AgentCity/assets/.gitkeep b/assets/unsorted/AgentCity/assets/.gitkeep new file mode 100644 index 0000000..8b13789 --- /dev/null +++ b/assets/unsorted/AgentCity/assets/.gitkeep @@ -0,0 +1 @@ + diff --git a/assets/unsorted/AgentCity/assets/Agent_Promo.png b/assets/unsorted/AgentCity/assets/Agent_Promo.png new file mode 100644 index 0000000..5e2502c Binary files /dev/null and b/assets/unsorted/AgentCity/assets/Agent_Promo.png differ diff --git a/assets/unsorted/AgentCity/assets/Agent_Promo_NG.png b/assets/unsorted/AgentCity/assets/Agent_Promo_NG.png new file mode 100644 index 0000000..a6296e7 Binary files /dev/null and b/assets/unsorted/AgentCity/assets/Agent_Promo_NG.png differ diff --git a/assets/unsorted/AgentCity/assets/ablation_main.pdf b/assets/unsorted/AgentCity/assets/ablation_main.pdf new file mode 100644 index 0000000..2c9edc3 Binary files /dev/null and b/assets/unsorted/AgentCity/assets/ablation_main.pdf differ diff --git a/assets/unsorted/AgentCity/assets/attndiff.png b/assets/unsorted/AgentCity/assets/attndiff.png new file mode 100644 index 0000000..3919ef9 Binary files /dev/null and b/assets/unsorted/AgentCity/assets/attndiff.png differ diff --git a/assets/unsorted/AgentCity/assets/model2.pdf b/assets/unsorted/AgentCity/assets/model2.pdf new file mode 100644 index 0000000..9f439cf Binary files /dev/null and b/assets/unsorted/AgentCity/assets/model2.pdf differ diff --git a/assets/unsorted/AgentCity/assets/router_weights_by_layer.pdf b/assets/unsorted/AgentCity/assets/router_weights_by_layer.pdf new file mode 100644 index 0000000..921ac4d Binary files /dev/null and b/assets/unsorted/AgentCity/assets/router_weights_by_layer.pdf differ diff --git a/assets/unsorted/AgentCity/figures/AgentCity.png b/assets/unsorted/AgentCity/figures/AgentCity.png new file mode 100644 index 0000000..64aa526 Binary files /dev/null and b/assets/unsorted/AgentCity/figures/AgentCity.png differ diff --git a/assets/unsorted/AgentCity/figures/Frontend.png b/assets/unsorted/AgentCity/figures/Frontend.png new file mode 100644 index 0000000..41d7970 Binary files /dev/null and b/assets/unsorted/AgentCity/figures/Frontend.png differ diff --git a/assets/unsorted/AgentCity/figures/LeaderBoard.png b/assets/unsorted/AgentCity/figures/LeaderBoard.png new file mode 100644 index 0000000..8a9c89a Binary files /dev/null and b/assets/unsorted/AgentCity/figures/LeaderBoard.png differ diff --git a/assets/unsorted/AgentCity/figures/agent.png b/assets/unsorted/AgentCity/figures/agent.png new file mode 100644 index 0000000..bbabc44 Binary files /dev/null and b/assets/unsorted/AgentCity/figures/agent.png differ diff --git a/assets/unsorted/AgentCity/figures/attn_vis.tex b/assets/unsorted/AgentCity/figures/attn_vis.tex new file mode 100644 index 0000000..9db1488 --- /dev/null +++ b/assets/unsorted/AgentCity/figures/attn_vis.tex @@ -0,0 +1,25 @@ +\begin{figure}[t] +% \captionsetup[subfigure]{labelformat=simple, labelsep=period} +% \renewcommand\thesubfigure{\alph{subfigure})} % 将子标题的标签格式改为 "a)" + \centering + \begin{subfigure}[b]{0.47\linewidth} % PD:平衡一下图片大小,如果一样的图可以都用0.48 + \hspace{-3px} % PD: 往左挪点防止重心偏右 + \includegraphics[width=\linewidth]{assets/Layer10.pdf} + % \includegraphics[width=\linewidth]{assets/Layer10_norubost.pdf} + \caption{Across Head Dimensions} % 子图标题留空即可自动生成 (a) + \label{fig:attnindim} + \end{subfigure} + \hfill % 在两张图之间插入一个弹性空白,使它们左右对齐 + \begin{subfigure}[b]{0.48\linewidth} + \hspace{-3px} % PD: 往左挪点防止重心偏右 + \includegraphics[width=\linewidth]{assets/AcrossLayer.pdf} + \caption{Across Layers} + \label{fig:attninlayer} + \end{subfigure} + \caption{Q-state activation strength visualizations in LLaMA-2-7B. +We compute the average L2 norm per attention head to quantify activation strength. +Stronger activations are concentrated in high-indexed (\ie low-RoPE frequency) dimensions and vary across layers, highlighting both dimension-wise and layer-wise heterogeneity. +} + \label{fig:hotattn} +\end{figure} +% \py{font size of figure is too small} \ No newline at end of file diff --git a/assets/unsorted/AgentCity/figures/conference.png b/assets/unsorted/AgentCity/figures/conference.png new file mode 100644 index 0000000..32da88e Binary files /dev/null and b/assets/unsorted/AgentCity/figures/conference.png differ diff --git a/assets/unsorted/AgentCity/figures/model_arch.tex b/assets/unsorted/AgentCity/figures/model_arch.tex new file mode 100644 index 0000000..a0cc714 --- /dev/null +++ b/assets/unsorted/AgentCity/figures/model_arch.tex @@ -0,0 +1,7 @@ +% \begin{figure*}[ht] +% \centering +% \includegraphics[width=0.7\linewidth]{assets/model2.pdf} +% \caption{MESSA framework with shared--specific sparse updates. Sparse structures are learned via budget-aware soft gating and overlap regularization, and hardened through a soft-to-hard training process under a unified parameter budget.} +% % \caption{The architecture of CAM and HyCAM framework. HyCAM applies a hybrid CAM mechanism to the output of the Attention module within each Transformer block, while the backbone LLM remains frozen. Specifically, HyCAM integrates a shared, full-parameter CAM module and multiple lightweight Specialized CAMs for common and task-specific knowledge.} % with a dynamic routing strategy. % adaptively coordinates the contributions of these specialized modules. +% \label{fig:framework} +% \end{figure*} \ No newline at end of file diff --git a/assets/unsorted/AgentCity/figures/new_vis.tex b/assets/unsorted/AgentCity/figures/new_vis.tex new file mode 100644 index 0000000..e69de29 diff --git a/assets/unsorted/AgentCity/figures/task.png b/assets/unsorted/AgentCity/figures/task.png new file mode 100644 index 0000000..a6d3ad5 Binary files /dev/null and b/assets/unsorted/AgentCity/figures/task.png differ diff --git a/assets/unsorted/AgentCity/figures/wordcloud_keywords.png b/assets/unsorted/AgentCity/figures/wordcloud_keywords.png new file mode 100644 index 0000000..227b1d2 Binary files /dev/null and b/assets/unsorted/AgentCity/figures/wordcloud_keywords.png differ diff --git a/assets/unsorted/AgentCity/figures/year.png b/assets/unsorted/AgentCity/figures/year.png new file mode 100644 index 0000000..6e10837 Binary files /dev/null and b/assets/unsorted/AgentCity/figures/year.png differ diff --git a/assets/unsorted/AgentCity/pie_combined.png b/assets/unsorted/AgentCity/pie_combined.png new file mode 100644 index 0000000..0adebcd Binary files /dev/null and b/assets/unsorted/AgentCity/pie_combined.png differ diff --git a/assets/unsorted/CASCADE/AcrossLayer.pdf b/assets/unsorted/CASCADE/AcrossLayer.pdf new file mode 100755 index 0000000..3820c3c Binary files /dev/null and b/assets/unsorted/CASCADE/AcrossLayer.pdf differ diff --git a/assets/unsorted/CASCADE/Gemini_CASCADE.png b/assets/unsorted/CASCADE/Gemini_CASCADE.png new file mode 100644 index 0000000..36646eb Binary files /dev/null and b/assets/unsorted/CASCADE/Gemini_CASCADE.png differ diff --git a/assets/unsorted/CASCADE/Layer10.pdf b/assets/unsorted/CASCADE/Layer10.pdf new file mode 100755 index 0000000..23537db Binary files /dev/null and b/assets/unsorted/CASCADE/Layer10.pdf differ diff --git a/assets/unsorted/CASCADE/ablation_main.pdf b/assets/unsorted/CASCADE/ablation_main.pdf new file mode 100644 index 0000000..2c9edc3 Binary files /dev/null and b/assets/unsorted/CASCADE/ablation_main.pdf differ diff --git a/assets/unsorted/CASCADE/ablation_main.png b/assets/unsorted/CASCADE/ablation_main.png new file mode 100644 index 0000000..4e47b0d Binary files /dev/null and b/assets/unsorted/CASCADE/ablation_main.png differ diff --git a/assets/unsorted/CASCADE/attndiff.png b/assets/unsorted/CASCADE/attndiff.png new file mode 100644 index 0000000..3919ef9 Binary files /dev/null and b/assets/unsorted/CASCADE/attndiff.png differ diff --git a/assets/unsorted/CASCADE/impact_larger.pdf b/assets/unsorted/CASCADE/impact_larger.pdf new file mode 100755 index 0000000..258574e Binary files /dev/null and b/assets/unsorted/CASCADE/impact_larger.pdf differ diff --git a/assets/unsorted/CASCADE/influence_comparison.png b/assets/unsorted/CASCADE/influence_comparison.png new file mode 100644 index 0000000..bd51099 Binary files /dev/null and b/assets/unsorted/CASCADE/influence_comparison.png differ diff --git a/assets/unsorted/CASCADE/influence_comparisonv2.pdf b/assets/unsorted/CASCADE/influence_comparisonv2.pdf new file mode 100644 index 0000000..e6ed6d1 Binary files /dev/null and b/assets/unsorted/CASCADE/influence_comparisonv2.pdf differ diff --git a/assets/unsorted/CASCADE/influence_comparisonv2.png b/assets/unsorted/CASCADE/influence_comparisonv2.png new file mode 100644 index 0000000..d437285 Binary files /dev/null and b/assets/unsorted/CASCADE/influence_comparisonv2.png differ diff --git a/assets/unsorted/CASCADE/influence_comparisonv3.pdf b/assets/unsorted/CASCADE/influence_comparisonv3.pdf new file mode 100644 index 0000000..a07084b Binary files /dev/null and b/assets/unsorted/CASCADE/influence_comparisonv3.pdf differ diff --git a/assets/unsorted/CASCADE/influence_comparisonv3.png b/assets/unsorted/CASCADE/influence_comparisonv3.png new file mode 100644 index 0000000..6944a6a Binary files /dev/null and b/assets/unsorted/CASCADE/influence_comparisonv3.png differ diff --git a/assets/unsorted/CASCADE/layer_sel.pdf b/assets/unsorted/CASCADE/layer_sel.pdf new file mode 100755 index 0000000..ff8bba8 Binary files /dev/null and b/assets/unsorted/CASCADE/layer_sel.pdf differ diff --git a/assets/unsorted/CASCADE/model.pdf b/assets/unsorted/CASCADE/model.pdf new file mode 100644 index 0000000..8a3c4c0 Binary files /dev/null and b/assets/unsorted/CASCADE/model.pdf differ diff --git a/assets/unsorted/CASCADE/model.png b/assets/unsorted/CASCADE/model.png new file mode 100644 index 0000000..21c8926 Binary files /dev/null and b/assets/unsorted/CASCADE/model.png differ diff --git a/assets/unsorted/CASCADE/model2.pdf b/assets/unsorted/CASCADE/model2.pdf new file mode 100644 index 0000000..9f439cf Binary files /dev/null and b/assets/unsorted/CASCADE/model2.pdf differ diff --git a/assets/unsorted/CASCADE/model2.png b/assets/unsorted/CASCADE/model2.png new file mode 100644 index 0000000..20a0e8f Binary files /dev/null and b/assets/unsorted/CASCADE/model2.png differ diff --git a/assets/unsorted/CASCADE/rosa_arch_deeper.pdf b/assets/unsorted/CASCADE/rosa_arch_deeper.pdf new file mode 100755 index 0000000..c7a4c11 Binary files /dev/null and b/assets/unsorted/CASCADE/rosa_arch_deeper.pdf differ diff --git a/assets/unsorted/CASCADE/router_weights_by_layer.pdf b/assets/unsorted/CASCADE/router_weights_by_layer.pdf new file mode 100644 index 0000000..921ac4d Binary files /dev/null and b/assets/unsorted/CASCADE/router_weights_by_layer.pdf differ diff --git a/assets/unsorted/CASCADE/router_weights_by_layer.png b/assets/unsorted/CASCADE/router_weights_by_layer.png new file mode 100644 index 0000000..874bd83 Binary files /dev/null and b/assets/unsorted/CASCADE/router_weights_by_layer.png differ diff --git a/assets/unsorted/DyPAM/1_fig_cross_model_Q_layers.pdf b/assets/unsorted/DyPAM/1_fig_cross_model_Q_layers.pdf new file mode 100644 index 0000000..273d260 Binary files /dev/null and b/assets/unsorted/DyPAM/1_fig_cross_model_Q_layers.pdf differ diff --git a/assets/unsorted/DyPAM/1_fig_cross_model_Q_layers.png b/assets/unsorted/DyPAM/1_fig_cross_model_Q_layers.png new file mode 100644 index 0000000..aa948c5 Binary files /dev/null and b/assets/unsorted/DyPAM/1_fig_cross_model_Q_layers.png differ diff --git a/assets/unsorted/DyPAM/2.1_fig_qkv_comparison_bloom-560m.pdf b/assets/unsorted/DyPAM/2.1_fig_qkv_comparison_bloom-560m.pdf new file mode 100644 index 0000000..19cfce2 Binary files /dev/null and b/assets/unsorted/DyPAM/2.1_fig_qkv_comparison_bloom-560m.pdf differ diff --git a/assets/unsorted/DyPAM/2.1_fig_qkv_comparison_bloom-560m.png b/assets/unsorted/DyPAM/2.1_fig_qkv_comparison_bloom-560m.png new file mode 100644 index 0000000..bd301ba Binary files /dev/null and b/assets/unsorted/DyPAM/2.1_fig_qkv_comparison_bloom-560m.png differ diff --git a/assets/unsorted/DyPAM/2.1_fig_qkv_comparison_opt-350m.pdf b/assets/unsorted/DyPAM/2.1_fig_qkv_comparison_opt-350m.pdf new file mode 100644 index 0000000..24d9ef0 Binary files /dev/null and b/assets/unsorted/DyPAM/2.1_fig_qkv_comparison_opt-350m.pdf differ diff --git a/assets/unsorted/DyPAM/2.1_fig_qkv_comparison_opt-350m.png b/assets/unsorted/DyPAM/2.1_fig_qkv_comparison_opt-350m.png new file mode 100644 index 0000000..9e87c61 Binary files /dev/null and b/assets/unsorted/DyPAM/2.1_fig_qkv_comparison_opt-350m.png differ diff --git a/assets/unsorted/DyPAM/2_fig_qkv_comparison_Llama-3.2-3B.pdf b/assets/unsorted/DyPAM/2_fig_qkv_comparison_Llama-3.2-3B.pdf new file mode 100644 index 0000000..71ef93b Binary files /dev/null and b/assets/unsorted/DyPAM/2_fig_qkv_comparison_Llama-3.2-3B.pdf differ diff --git a/assets/unsorted/DyPAM/2_fig_qkv_comparison_Llama-3.2-3B.png b/assets/unsorted/DyPAM/2_fig_qkv_comparison_Llama-3.2-3B.png new file mode 100644 index 0000000..e9dc618 Binary files /dev/null and b/assets/unsorted/DyPAM/2_fig_qkv_comparison_Llama-3.2-3B.png differ diff --git a/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_Llama-3_2-3B.pdf b/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_Llama-3_2-3B.pdf new file mode 100644 index 0000000..04e50b6 Binary files /dev/null and b/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_Llama-3_2-3B.pdf differ diff --git a/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_Llama-3_2-3B.png b/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_Llama-3_2-3B.png new file mode 100644 index 0000000..e520212 Binary files /dev/null and b/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_Llama-3_2-3B.png differ diff --git a/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_bloom-560m.pdf b/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_bloom-560m.pdf new file mode 100644 index 0000000..6ce2aa1 Binary files /dev/null and b/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_bloom-560m.pdf differ diff --git a/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_bloom-560m.png b/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_bloom-560m.png new file mode 100644 index 0000000..3bac739 Binary files /dev/null and b/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_bloom-560m.png differ diff --git a/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_opt-350m.pdf b/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_opt-350m.pdf new file mode 100644 index 0000000..053f265 Binary files /dev/null and b/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_opt-350m.pdf differ diff --git a/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_opt-350m.png b/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_opt-350m.png new file mode 100644 index 0000000..bb81f07 Binary files /dev/null and b/assets/unsorted/DyPAM/3_fig_channel_heterogeneity_Q_opt-350m.png differ diff --git a/assets/unsorted/DyPAM/4_fig_combined_token_type_all_models.pdf b/assets/unsorted/DyPAM/4_fig_combined_token_type_all_models.pdf new file mode 100644 index 0000000..b86571e Binary files /dev/null and b/assets/unsorted/DyPAM/4_fig_combined_token_type_all_models.pdf differ diff --git a/assets/unsorted/DyPAM/4_fig_combined_token_type_all_models.png b/assets/unsorted/DyPAM/4_fig_combined_token_type_all_models.png new file mode 100644 index 0000000..cd750ad Binary files /dev/null and b/assets/unsorted/DyPAM/4_fig_combined_token_type_all_models.png differ diff --git a/assets/unsorted/DyPAM/ablation_main.pdf b/assets/unsorted/DyPAM/ablation_main.pdf new file mode 100644 index 0000000..2c9edc3 Binary files /dev/null and b/assets/unsorted/DyPAM/ablation_main.pdf differ diff --git a/assets/unsorted/DyPAM/ablation_sensitivity_combined.pdf b/assets/unsorted/DyPAM/ablation_sensitivity_combined.pdf new file mode 100644 index 0000000..770b58e Binary files /dev/null and b/assets/unsorted/DyPAM/ablation_sensitivity_combined.pdf differ diff --git a/assets/unsorted/DyPAM/ablation_sensitivity_combined.png b/assets/unsorted/DyPAM/ablation_sensitivity_combined.png new file mode 100644 index 0000000..45babf4 Binary files /dev/null and b/assets/unsorted/DyPAM/ablation_sensitivity_combined.png differ diff --git a/assets/unsorted/DyPAM/ablation_sensitivity_combined_bold.pdf b/assets/unsorted/DyPAM/ablation_sensitivity_combined_bold.pdf new file mode 100644 index 0000000..6306850 Binary files /dev/null and b/assets/unsorted/DyPAM/ablation_sensitivity_combined_bold.pdf differ diff --git a/assets/unsorted/DyPAM/ablation_sensitivity_combined_bold.png b/assets/unsorted/DyPAM/ablation_sensitivity_combined_bold.png new file mode 100644 index 0000000..d8031df Binary files /dev/null and b/assets/unsorted/DyPAM/ablation_sensitivity_combined_bold.png differ diff --git a/assets/unsorted/DyPAM/attndiff.png b/assets/unsorted/DyPAM/attndiff.png new file mode 100644 index 0000000..3919ef9 Binary files /dev/null and b/assets/unsorted/DyPAM/attndiff.png differ diff --git a/assets/unsorted/DyPAM/dypam_arch.pdf b/assets/unsorted/DyPAM/dypam_arch.pdf new file mode 100644 index 0000000..f168140 Binary files /dev/null and b/assets/unsorted/DyPAM/dypam_arch.pdf differ diff --git a/assets/unsorted/DyPAM/dypam_arch.png b/assets/unsorted/DyPAM/dypam_arch.png new file mode 100644 index 0000000..d12a465 Binary files /dev/null and b/assets/unsorted/DyPAM/dypam_arch.png differ diff --git a/assets/unsorted/DyPAM/fig_bias_modulation.pdf b/assets/unsorted/DyPAM/fig_bias_modulation.pdf new file mode 100644 index 0000000..8dd5107 Binary files /dev/null and b/assets/unsorted/DyPAM/fig_bias_modulation.pdf differ diff --git a/assets/unsorted/DyPAM/fig_bias_modulation.png b/assets/unsorted/DyPAM/fig_bias_modulation.png new file mode 100644 index 0000000..26b695e Binary files /dev/null and b/assets/unsorted/DyPAM/fig_bias_modulation.png differ diff --git a/assets/unsorted/DyPAM/fig_channel_heterogeneity.pdf b/assets/unsorted/DyPAM/fig_channel_heterogeneity.pdf new file mode 100644 index 0000000..421cc63 Binary files /dev/null and b/assets/unsorted/DyPAM/fig_channel_heterogeneity.pdf differ diff --git a/assets/unsorted/DyPAM/fig_channel_heterogeneity.png b/assets/unsorted/DyPAM/fig_channel_heterogeneity.png new file mode 100644 index 0000000..0d4a6bf Binary files /dev/null and b/assets/unsorted/DyPAM/fig_channel_heterogeneity.png differ diff --git a/assets/unsorted/DyPAM/fig_channel_heterogeneity_mix.pdf b/assets/unsorted/DyPAM/fig_channel_heterogeneity_mix.pdf new file mode 100644 index 0000000..980c8e7 Binary files /dev/null and b/assets/unsorted/DyPAM/fig_channel_heterogeneity_mix.pdf differ diff --git a/assets/unsorted/DyPAM/fig_channel_heterogeneity_mix.png b/assets/unsorted/DyPAM/fig_channel_heterogeneity_mix.png new file mode 100644 index 0000000..a23be49 Binary files /dev/null and b/assets/unsorted/DyPAM/fig_channel_heterogeneity_mix.png differ diff --git a/assets/unsorted/DyPAM/fig_modulation_range_3models.pdf b/assets/unsorted/DyPAM/fig_modulation_range_3models.pdf new file mode 100644 index 0000000..52b3bf1 Binary files /dev/null and b/assets/unsorted/DyPAM/fig_modulation_range_3models.pdf differ diff --git a/assets/unsorted/DyPAM/fig_modulation_range_3models.png b/assets/unsorted/DyPAM/fig_modulation_range_3models.png new file mode 100644 index 0000000..2031596 Binary files /dev/null and b/assets/unsorted/DyPAM/fig_modulation_range_3models.png differ diff --git a/assets/unsorted/DyPAM/fig_q_bias_common_vs_math.pdf b/assets/unsorted/DyPAM/fig_q_bias_common_vs_math.pdf new file mode 100644 index 0000000..56fa3ea Binary files /dev/null and b/assets/unsorted/DyPAM/fig_q_bias_common_vs_math.pdf differ diff --git a/assets/unsorted/DyPAM/fig_q_bias_common_vs_math.png b/assets/unsorted/DyPAM/fig_q_bias_common_vs_math.png new file mode 100644 index 0000000..ed565c2 Binary files /dev/null and b/assets/unsorted/DyPAM/fig_q_bias_common_vs_math.png differ diff --git a/assets/unsorted/DyPAM/fig_rope_response.pdf b/assets/unsorted/DyPAM/fig_rope_response.pdf new file mode 100644 index 0000000..3a375b0 Binary files /dev/null and b/assets/unsorted/DyPAM/fig_rope_response.pdf differ diff --git a/assets/unsorted/DyPAM/fig_rope_response.png b/assets/unsorted/DyPAM/fig_rope_response.png new file mode 100644 index 0000000..0669fd8 Binary files /dev/null and b/assets/unsorted/DyPAM/fig_rope_response.png differ diff --git a/assets/unsorted/DyPAM/model2.pdf b/assets/unsorted/DyPAM/model2.pdf new file mode 100644 index 0000000..9f439cf Binary files /dev/null and b/assets/unsorted/DyPAM/model2.pdf differ diff --git a/assets/unsorted/DyPAM/router_weights_by_layer.pdf b/assets/unsorted/DyPAM/router_weights_by_layer.pdf new file mode 100644 index 0000000..921ac4d Binary files /dev/null and b/assets/unsorted/DyPAM/router_weights_by_layer.pdf differ diff --git a/assets/unsorted/DyPAM/图片 1.png b/assets/unsorted/DyPAM/图片 1.png new file mode 100644 index 0000000..10ce654 Binary files /dev/null and b/assets/unsorted/DyPAM/图片 1.png differ diff --git a/assets/unsorted/MESSA/AcrossLayer.pdf b/assets/unsorted/MESSA/AcrossLayer.pdf new file mode 100755 index 0000000..3820c3c Binary files /dev/null and b/assets/unsorted/MESSA/AcrossLayer.pdf differ diff --git a/assets/unsorted/MESSA/Gemini_MESSA.png b/assets/unsorted/MESSA/Gemini_MESSA.png new file mode 100644 index 0000000..4b7ee2e Binary files /dev/null and b/assets/unsorted/MESSA/Gemini_MESSA.png differ diff --git a/assets/unsorted/MESSA/Layer10.pdf b/assets/unsorted/MESSA/Layer10.pdf new file mode 100755 index 0000000..23537db Binary files /dev/null and b/assets/unsorted/MESSA/Layer10.pdf differ diff --git a/assets/unsorted/MESSA/attndiff.png b/assets/unsorted/MESSA/attndiff.png new file mode 100644 index 0000000..3919ef9 Binary files /dev/null and b/assets/unsorted/MESSA/attndiff.png differ diff --git a/assets/unsorted/MESSA/combined_ablation_module.pdf b/assets/unsorted/MESSA/combined_ablation_module.pdf new file mode 100644 index 0000000..20f78f1 Binary files /dev/null and b/assets/unsorted/MESSA/combined_ablation_module.pdf differ diff --git a/assets/unsorted/MESSA/combined_ablation_module.png b/assets/unsorted/MESSA/combined_ablation_module.png new file mode 100644 index 0000000..4287514 Binary files /dev/null and b/assets/unsorted/MESSA/combined_ablation_module.png differ diff --git a/assets/unsorted/MESSA/impact.pdf b/assets/unsorted/MESSA/impact.pdf new file mode 100755 index 0000000..df55718 Binary files /dev/null and b/assets/unsorted/MESSA/impact.pdf differ diff --git a/assets/unsorted/MESSA/impact_larger.pdf b/assets/unsorted/MESSA/impact_larger.pdf new file mode 100755 index 0000000..258574e Binary files /dev/null and b/assets/unsorted/MESSA/impact_larger.pdf differ diff --git a/assets/unsorted/MESSA/layer_sel.pdf b/assets/unsorted/MESSA/layer_sel.pdf new file mode 100755 index 0000000..ff8bba8 Binary files /dev/null and b/assets/unsorted/MESSA/layer_sel.pdf differ diff --git a/assets/unsorted/MESSA/model.pdf b/assets/unsorted/MESSA/model.pdf new file mode 100644 index 0000000..943d728 Binary files /dev/null and b/assets/unsorted/MESSA/model.pdf differ diff --git a/assets/unsorted/MESSA/model.png b/assets/unsorted/MESSA/model.png new file mode 100644 index 0000000..333a1fe Binary files /dev/null and b/assets/unsorted/MESSA/model.png differ diff --git a/assets/unsorted/MESSA/model2.pdf b/assets/unsorted/MESSA/model2.pdf new file mode 100644 index 0000000..a5c8a6f Binary files /dev/null and b/assets/unsorted/MESSA/model2.pdf differ diff --git a/assets/unsorted/MESSA/model2.png b/assets/unsorted/MESSA/model2.png new file mode 100644 index 0000000..f17ec54 Binary files /dev/null and b/assets/unsorted/MESSA/model2.png differ diff --git a/assets/unsorted/MESSA/rosa_arch.pdf b/assets/unsorted/MESSA/rosa_arch.pdf new file mode 100755 index 0000000..4c64c6f Binary files /dev/null and b/assets/unsorted/MESSA/rosa_arch.pdf differ diff --git a/assets/unsorted/MESSA/rosa_arch_deeper.pdf b/assets/unsorted/MESSA/rosa_arch_deeper.pdf new file mode 100755 index 0000000..c7a4c11 Binary files /dev/null and b/assets/unsorted/MESSA/rosa_arch_deeper.pdf differ diff --git a/assets/unsorted/MESSA/图片 1.pdf b/assets/unsorted/MESSA/图片 1.pdf new file mode 100644 index 0000000..dbd950e Binary files /dev/null and b/assets/unsorted/MESSA/图片 1.pdf differ diff --git a/assets/unsorted/POI-QA/figs/QA_sample_synthesizing.png b/assets/unsorted/POI-QA/figs/QA_sample_synthesizing.png new file mode 100644 index 0000000..38741e1 Binary files /dev/null and b/assets/unsorted/POI-QA/figs/QA_sample_synthesizing.png differ diff --git a/assets/unsorted/POI-QA/figs/dify_knowledge_retrieval.png b/assets/unsorted/POI-QA/figs/dify_knowledge_retrieval.png new file mode 100644 index 0000000..96f5400 Binary files /dev/null and b/assets/unsorted/POI-QA/figs/dify_knowledge_retrieval.png differ diff --git a/assets/unsorted/POI-QA/figs/dify_overview.png b/assets/unsorted/POI-QA/figs/dify_overview.png new file mode 100644 index 0000000..40f758d Binary files /dev/null and b/assets/unsorted/POI-QA/figs/dify_overview.png differ diff --git a/assets/unsorted/POI-QA/figs/dify_split_retrieval_task.png b/assets/unsorted/POI-QA/figs/dify_split_retrieval_task.png new file mode 100644 index 0000000..29701b7 Binary files /dev/null and b/assets/unsorted/POI-QA/figs/dify_split_retrieval_task.png differ diff --git a/assets/unsorted/POI-QA/figs/illustration.png b/assets/unsorted/POI-QA/figs/illustration.png new file mode 100644 index 0000000..c1510da Binary files /dev/null and b/assets/unsorted/POI-QA/figs/illustration.png differ diff --git a/assets/unsorted/POI-QA/figs/llama3.1structure.png b/assets/unsorted/POI-QA/figs/llama3.1structure.png new file mode 100644 index 0000000..b051e59 Binary files /dev/null and b/assets/unsorted/POI-QA/figs/llama3.1structure.png differ diff --git a/assets/unsorted/POI-QA/figs/llama3.1training.png b/assets/unsorted/POI-QA/figs/llama3.1training.png new file mode 100644 index 0000000..08b5e4c Binary files /dev/null and b/assets/unsorted/POI-QA/figs/llama3.1training.png differ diff --git a/assets/unsorted/RoSA/AcrossLayer.pdf b/assets/unsorted/RoSA/AcrossLayer.pdf new file mode 100755 index 0000000..3820c3c Binary files /dev/null and b/assets/unsorted/RoSA/AcrossLayer.pdf differ diff --git a/assets/unsorted/RoSA/Layer10.pdf b/assets/unsorted/RoSA/Layer10.pdf new file mode 100755 index 0000000..23537db Binary files /dev/null and b/assets/unsorted/RoSA/Layer10.pdf differ diff --git a/assets/unsorted/RoSA/impact.pdf b/assets/unsorted/RoSA/impact.pdf new file mode 100755 index 0000000..df55718 Binary files /dev/null and b/assets/unsorted/RoSA/impact.pdf differ diff --git a/assets/unsorted/RoSA/impact_larger.pdf b/assets/unsorted/RoSA/impact_larger.pdf new file mode 100755 index 0000000..258574e Binary files /dev/null and b/assets/unsorted/RoSA/impact_larger.pdf differ diff --git a/assets/unsorted/RoSA/layer_sel.pdf b/assets/unsorted/RoSA/layer_sel.pdf new file mode 100755 index 0000000..ff8bba8 Binary files /dev/null and b/assets/unsorted/RoSA/layer_sel.pdf differ diff --git a/assets/unsorted/RoSA/rosa_arch.pdf b/assets/unsorted/RoSA/rosa_arch.pdf new file mode 100755 index 0000000..4c64c6f Binary files /dev/null and b/assets/unsorted/RoSA/rosa_arch.pdf differ diff --git a/assets/unsorted/RoSA/rosa_arch_deeper.pdf b/assets/unsorted/RoSA/rosa_arch_deeper.pdf new file mode 100755 index 0000000..c7a4c11 Binary files /dev/null and b/assets/unsorted/RoSA/rosa_arch_deeper.pdf differ diff --git a/chap01.tex b/chap01.tex new file mode 100644 index 0000000..b190317 --- /dev/null +++ b/chap01.tex @@ -0,0 +1,331 @@ +% !TeX root = ../main.tex +% 第一章 绪论 +\chapter{绪论} +\label{chap:introduction} + +\section{研究背景与意义} +\label{sec:background} + +\subsection{城市时空智能建模的发展背景与关键挑战} +\label{subsec:background_challenges} +\subsubsection{城市复杂系统演化与时空数据驱动需求} + +随着全球城镇化进程的持续推进,城市正在由以静态基础设施为核心的空间载体,逐步演化为由人口活动、交通运行、产业组织、资源配置与公共服务等多类过程共同耦合的复杂动态系统\cite{}。在这一系统中,不同要素之间存在持续的相互作用与反馈关系:人口流动影响交通负载与服务需求,土地利用与功能布局塑造出行模式与商业活力,公共事件与环境变化又进一步改变城市运行状态。由此,城市运行呈现出显著的动态性、开放性与多主体协同特征,其演化过程难以通过单一规则或局部观测加以充分刻画。 + +\begin{figure}[!h] + \centering + \subcaptionbox{占位符1}{\includegraphics[width = 0.4\linewidth]{pic/logo-buaa.eps}\vspace{50pt}} + \hfill + \subcaptionbox{占位符2}{\includegraphics[width = 0.25\linewidth]{pic/buaa-mark.jpg}} + \caption{占位图片} +\end{figure} + + +与此同时,移动互联网、物联网、车联网、卫星遥感以及城市感知基础设施的快速发展,使得城市运行过程能够以更加连续、细粒度与多模态的方式被记录与表征。交通传感器、移动终端定位数据、轨迹数据、遥感影像、兴趣点信息以及环境监测数据等,持续刻画城市中人、车、路、地及各类服务设施的时空活动状态\cite{}。这些数据在空间上覆盖从路段、区域到城市全域的多层级结构,在时间上涵盖实时感知、短期波动与长期演化等多尺度过程,从而为理解城市运行机理、识别潜在规律以及支撑智能决策提供了重要基础。 + + +大规模观测数据的持续积累,使研究者能够在更细粒度层面刻画交通拥堵传播、人口迁移演化、功能区活动强度变化以及公共服务供需波动等复杂城市现象;与此同时,城市智能任务也逐步由传统的统计分析扩展至状态预测、行为推断、空间语义理解、过程模拟与决策支持等更具综合性的建模问题\cite{}。在这一过程中,城市智能研究的核心关注点正由"数据获取能力"转向"如何从复杂时空数据中学习具有泛化性与可迁移性的有效表示"。 + +然而,数据规模的扩张并不必然带来建模能力的同步提升。随着观测来源、空间尺度与任务类型的不断增加,城市系统所呈现的高维非线性关系、多主体交互过程以及跨时间尺度演化特征,使得传统依赖经验规则或低维统计假设的建模方法难以充分刻画其内在结构规律\cite{}。因此,面向复杂城市系统的发展需求,研究能够从大规模时空观测数据中提取关键结构信息并支撑多类城市智能任务的表征学习方法,已成为当前时空智能建模的重要科学问题。 + +\subsubsection{复杂时空任务的多维特征与建模挑战} + +在上述数据与应用背景下,城市智能研究正由针对单一现象的建模,逐步发展为面向多类型任务的综合分析与决策问题。典型的城市时空任务通常同时涉及状态预测、行为分析、空间语义理解以及过程推理等多种目标形式,其任务定义、输入信息与输出需求在同一系统中交织,使得建模问题呈现出显著的多维特征。在这一背景下,不同任务之间既共享部分基础结构信息,又在建模目标与决策侧重点上存在差异,这种“共享—差异”并存的关系对统一建模提出了更高要求。 + +进一步地,城市时空过程在空间与时间维度上表现出显著的结构复杂性。不同区域在功能属性、交通拓扑及人口分布等方面存在差异,使得城市活动具有明显的位置依赖与非均匀性特征;同时,城市运行过程往往叠加多尺度动态模式,例如日周期与周周期所体现的稳定规律,以及突发事件引发的短时扰动。空间结构与时间演化之间的耦合作用,使得城市系统呈现出复杂的时空交互机制。此外,多源观测数据在采样频率、语义粒度与噪声分布等方面存在差异,进一步增加了统一建模的难度 \cite{}。 + +从表征学习的视角来看,上述多维特征不仅体现为数据与任务层面的复杂性,更对模型内部表示提出了更高要求。模型需要在统一的表示空间中同时刻画跨任务与跨区域的共享规律,并对局部结构差异、多尺度动态变化及语义异构性保持足够敏感。这意味着,在同一模型中,不同层级与不同子结构往往需要承担差异化的表征功能。如何在统一建模框架下协调这些差异化需求,使模型能够兼顾共享性与结构敏感性,构成了复杂时空任务建模的核心挑战之一。 + +\subsubsection{时空数据表征学习范式的发展} + +随着城市时空系统建模复杂度的不断提升,传统依赖显式规则与统计假设的方法逐渐难以刻画高维动态过程。在此背景下,表征学习(Representation Learning)逐步成为时空数据建模的核心范式。相较于依赖人工特征设计的方法,其通过数据驱动方式构建隐式表示空间,使模型能够在较少先验约束的条件下刻画复杂的非线性时空关系,从而提升对真实城市运行过程的建模能力\cite{}。深度学习方法的发展进一步推动了这一转变,通过卷积结构、序列建模机制与图结构建模等方式,使模型能够在端到端框架下学习潜在时空表示,并在交通预测、人口流动分析等任务中取得良好效果\cite{}。 + +尽管上述方法在特定任务上表现出较强能力,其学习到的表示仍普遍与具体任务目标紧密耦合,缺乏跨任务与跨场景的通用性。在城市时空智能逐步向多任务协同与综合决策支持演进的背景下,这种“任务特定表征”范式逐渐暴露出局限:模型难以在不同任务之间共享知识,重复训练成本较高,且在面对新任务或新场景时泛化能力有限。这一问题在结构复杂且任务耦合紧密的城市系统中尤为突出。 + +围绕上述问题,时空表征学习逐步由面向单一任务的特征建模,转向构建具有更强迁移性与泛化能力的通用表示(general-purpose representation)。该方向强调在统一表示空间中刻画跨任务、跨区域及跨时间尺度的共享结构规律,使模型能够在不同任务之间实现知识复用与能力迁移。整体来看,时空表征学习呈现出由显式建模向隐式表示、由任务特定表示向通用表示的演进趋势。然而,如何在实际建模过程中有效学习并利用这种通用表示,使其适应多类型时空任务的需求,仍是当前研究中的关键问题。 + +\subsubsection{大语言模型推动时空智能建模范式转变} + +随着时空表征学习逐步由任务特定建模向通用表示建模演进,以大语言模型为代表的基础模型(foundation models)为复杂城市系统的统一建模提供了新的技术路径。通过大规模数据预训练,大语言模型在统一的序列建模框架下构建共享表示空间,使模型能够在不同任务之间共享知识并实现跨场景泛化\cite{}。相较于针对单一任务独立建模的传统方式,该范式为在同一模型中整合多源信息与多类型任务需求提供了可能。 + +从建模能力上看,大语言模型在长程依赖建模与多步推理方面所表现出的能力,使其在处理跨区域关联与跨时间尺度动态关系时具有潜在优势。已有研究开始探索将基础模型引入城市时空任务,例如通过序列化方式刻画轨迹演化过程,或利用统一表示空间支持空间语义理解与跨任务推理\cite{}。这些初步工作表明,基础模型为时空智能建模提供了一种兼具表达能力与统一性的建模范式。 + +然而,大语言模型所具备的通用表示能力并不意味着其能够直接适配复杂城市时空任务。城市时空数据的多维特征要求模型在统一表示空间中同时刻画共享规律与结构差异,而大语言模型的预训练过程主要基于通用语料,其内部表示结构与时空建模需求之间仍存在一定差异。因此,如何在保持预训练通用能力的基础上,使模型内部表示与时空数据的结构特征相协调,成为将基础模型引入时空智能建模的关键问题。 +\subsubsection{面向时空建模的模型适配问题与挑战} + +如前所述,大语言模型通过大规模预训练所构建的通用表示能力,为复杂时空任务的统一建模提供了新的技术路径。然而,预训练阶段获得的通用能力并不等同于对具体时空任务的有效建模能力。在实际应用中,模型仍需在保持已有知识结构的前提下,对特定任务的输入模式与输出需求形成针对性的适配。因此,如何设计有效的模型适配机制,使其能够在复杂时空场景中发挥作用,成为基础模型应用中的关键问题。 + +现有适配方法通常采用统一的参数更新或表示调制策略,在模型不同层级与子结构上施加形式一致的调整。这类方法隐含假设模型内部各组成部分在适配过程中的作用是近似一致的。然而,从模型表示机制来看,不同模块、不同表示维度及不同参数子空间在信息建模中往往承担差异化功能。本文将这种现象概括为\emph{模型内部的结构角色差异}。 + +在时空建模场景中,这一问题更加突出。城市时空任务要求模型在统一表示空间中同时刻画跨任务共享规律、多尺度动态变化及局部结构差异,这意味着模型内部不同层级与子结构需要承担不同的表征职责。如果适配机制无法感知这种结构角色差异,而仍采用均匀调整方式,则难以在有限的适配能力下实现对关键表示的有效调控,从而影响模型在复杂场景中的泛化能力与稳定性。 + +因此,面向时空建模的模型适配问题,其核心在于如何使适配过程与模型内部结构相协调,即在统一模型框架下刻画并利用结构角色差异,从而实现对复杂时空任务的有效适配。围绕这一问题,第~\ref{sec:unified_framework}~节将从不同结构层级出发,对模型表示调制机制进行系统分析与方法设计。 +\newpage +\subsection{理论意义、方法体系与应用价值} +\label{subsec:significance} + +面向复杂城市时空数据的表征学习与模型适配问题开展系统研究,在理论理解、方法体系构建与工程实践支撑三个层面均具有重要意义。 + +{\heiti \underline{理论意义}}: +从理论层面看,城市运行过程本质上体现为多维度、多层级结构信息的动态耦合与演化过程。不同空间区域、不同时间尺度以及不同功能任务之间存在复杂的交互关系,使得有效建模不仅需要刻画整体运行规律,还需反映局部结构差异与动态变化特征。因此,如何在统一表示框架下刻画复杂时空系统中的多维结构信息,构成了时空表征学习中的核心问题。 + +随着表征学习方法的发展,模型通过隐式表示空间刻画复杂系统行为已成为主流路径。然而,现有研究多从任务建模或参数优化角度展开,对于模型内部表示如何在复杂任务中分工协作,缺乏系统性认识。特别是在多任务耦合与多尺度动态并存的时空场景中,模型需要在统一表示空间中同时刻画共享规律与结构差异,这对表示结构的组织方式提出了更高要求。 + +进一步地,从模型表示机制出发,可以观察到大模型在不同模块、不同表示维度及不同参数子空间中往往形成差异化的功能分工。例如,自注意力结构侧重上下文依赖建模,前馈网络承担知识表达功能,位置编码在不同维度上引入异质的结构特征。这种模型内部的结构角色差异,为理解复杂时空表征能力的形成机制提供了重要线索。 + +基于上述认识,本文从结构角色差异的视角出发,系统分析模型内部不同层级结构在复杂时空任务中的功能贡献,并建立时空数据多维特征与模型表示调制机制之间的联系。该研究有助于深化对“预训练表征如何通过适配形成任务特定能力”的理解,为复杂时空系统表征能力的形成机制提供新的理论视角。 + +\begin{figure}[!h] + \centering + \includegraphics[width=.25\textwidth]{pic/buaa-mark.jpg} + \caption{占位图片\\第二行题注} + \label{fig:logo} +\end{figure} + +{\heiti \underline{方法体系意义}}: +现有模型适配方法多从单一层级或局部机制出发进行设计,不同方法之间缺乏统一的结构建模视角与内在关联。这些方法通常分别关注表示调制、参数选择或更新结构等不同方面,虽在各自场景中表现出有效性,但由于缺乏统一理论框架,难以系统解释其作用机制及相互关系。 + +针对上述问题,本文围绕模型内部结构角色差异,构建了一个从模块、维度到参数级逐层递进的表征适配方法体系。在该体系中,不同层级的适配方法共享统一的结构感知建模思想,即根据模型内部不同子结构在建模中的功能角色,对表示流或参数更新施加差异化的非均匀调制。在统一形式化框架下,这些方法可归纳为乘性调制、组合式调制与结构分解调制等不同实现形式,从而在理论上实现了不同适配策略的统一刻画。 + +这种具有内在逻辑一致性的分层方法体系,不仅能够更精细地刻画复杂时空任务中的多维结构特征,也使不同层级的模型改进能够在统一视角下得到解释与整合,为跨任务与跨场景的表示迁移提供了系统化的方法基础。 + +{\heiti \underline{应用与工程价值}}: +从工程实践角度看,城市智能系统正逐步由面向单一任务的优化问题,发展为面向多任务协同与综合决策支持的复杂系统,对建模方法的可扩展性、稳定性及持续评估能力提出了更高要求。在这一背景下,如何在有限计算资源条件下高效适配大语言模型,并在接近真实应用环境的条件下系统评估其性能,成为时空智能研究中的重要问题。 + +本文提出的结构感知适配方法通过在模型内部关键结构上进行有针对性的调制,在保持预训练模型主体参数不变的前提下,实现对复杂时空任务的有效适配,从而降低了大模型在城市智能场景中的应用门槛。同时,围绕复杂时空任务的验证需求,构建了面向多任务与多阶段评估的实验基础设施,通过统一的任务组织方式与评估流程,使模型性能能够在更接近实际应用环境的条件下得到系统检验。 + +此外,针对时空推理与决策类任务的评测需求,构建相应的数据资源与实验基准,有助于弥补现有城市计算研究在复杂任务评估方面的不足,使模型不仅能够进行状态预测,还能够支持更高层次的语义理解与决策分析。上述方法体系与评测环境的结合,有助于形成从模型设计到系统验证的完整研究闭环,为时空智能建模技术向工程实践的转化提供重要支撑。 + +总体而言,从理论分析到方法体系构建,再到工程评测与应用支撑,围绕复杂时空表征学习与模型适配问题的系统研究,有助于推动时空智能建模方法向更高表达能力与更强泛化能力的发展,为构建高效、可持续的城市智能系统提供重要技术基础。 +% \newpage + +\section{时空表征学习研究现状与关键问题分析} +\label{sec:research_status} +\subsection{时空数据建模与表征学习研究现状} +\label{subsec:status_st_modeling} + +城市时空建模方法经历了由显式数学建模向数据驱动表征学习的范式演进。早期研究主要基于时间序列分析与空间统计方法,通过构建带有先验假设的数学模型对交通流、人口分布及环境变化等过程进行刻画\cite{}。此类方法在系统结构相对稳定或数据规模有限的场景中具有一定适用性,但其表达能力依赖于模型假设与特征设计,难以刻画复杂城市系统中普遍存在的非线性与动态耦合关系。 + +随着深度学习技术的发展,研究者逐步引入循环神经网络、卷积神经网络及图神经网络等模型,通过端到端学习方式提取潜在时空表示,在交通预测、出行行为建模及城市功能区分析等任务中取得了显著进展\cite{}。特别是结合图结构建模与注意力机制的方法,能够在一定程度上刻画空间拓扑依赖与长程时间关联,为复杂城市系统建模提供了更为灵活的技术路径\cite{}。 + +然而,从城市智能建模的整体需求来看,现有方法仍存在两方面局限。其一,模型通常围绕特定任务进行设计,所学习的表示与任务目标紧密耦合,缺乏跨任务与跨场景的通用性。在多任务协同建模环境中,这种“任务特定表征”范式导致知识难以共享,模型在面对新任务时泛化能力有限。其二,城市时空数据普遍具有多尺度动态模式、空间非均匀性及多源语义差异等结构特征,而基于单一结构假设的模型设计难以在统一表示空间中同时刻画这些复杂属性。 + +因此,如何构建能够刻画多维结构特征、并具备跨任务迁移能力的通用时空表征学习方法,已成为该领域的重要研究方向。 + +\subsection{模型适配与结构感知建模研究现状} +\label{subsec:status_peft} + +随着基础模型的发展,通过大规模预训练获取通用表示,并在下游任务中进行适配优化,逐渐成为复杂系统建模的重要范式\cite{}。参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法通过仅更新少量参数实现模型适配,在降低计算成本的同时保持了较好的性能表现。典型方法包括低秩适配(LoRA)\cite{hu2021lora}、适配器插入\cite{houlsby2019parameter}以及前缀调制\cite{li2021prefix}等。 + +从时空建模需求出发审视上述方法,可以发现其核心策略通常在模型不同层级与子结构上施加形式一致的参数更新或表示调制,隐含假设模型内部各组成部分在适配过程中具有相似作用。然而,已有研究表明,模型内部不同结构单元在信息建模中往往承担差异化功能。例如,自注意力模块侧重上下文依赖的动态整合,前馈网络主要承担知识表达功能\cite{geva2021transformer};位置编码在不同维度上引入具有频率结构的表示偏置,使得表示在维度空间中呈现系统性的功能差异\cite{su2024roformer};参数更新在频谱空间中亦表现出全局与局部结构并存的特性。 + +在多任务学习方面,动态路由机制与混合专家结构被用于缓解任务间干扰并提升模型容量利用效率\cite{}。然而,现有方法多从任务权重分配或参数更新策略角度进行设计,对于模型内部不同表示层级在复杂任务中的功能分工缺乏系统性刻画。在多任务耦合且结构复杂的时空场景中,均匀适配策略难以同时兼顾预训练知识的保持与任务特定能力的获取。 + +因此,如何从模型内部结构出发,刻画不同层级与子结构在表征学习中的功能角色,并据此设计具有结构感知能力的适配机制,成为当前模型适配研究中的关键问题。 + +\subsection{时空智能数据与评测体系研究现状} +\label{subsec:status_benchmark} + +模型能力的有效评估依赖于系统化的数据资源与标准化的实验基准。在数据集方面,城市计算研究已构建了大量面向交通预测、轨迹分析及空间分布建模的公开数据资源,例如METR-LA、PEMS-BAY以及GeoLife等\cite{}。这些数据集通常围绕特定预测目标构建,能够在单一任务场景中较好地反映模型性能。 + +然而,随着城市智能应用逐步向推理与决策支持任务拓展,现有数据集在任务复杂度与评测维度方面的局限逐渐显现。一方面,传统数据资源主要侧重短期动态建模,对于跨时间尺度的逻辑推理与复杂情境理解支持不足;另一方面,现有问答类数据集在空间与时间信息的结合方面仍较为有限,难以系统评估模型对时空关系的理解与推理能力\cite{}。 + +在评测体系方面,已有工作提出了若干面向时空预测任务的统一评测框架,如LibCity、DL-Traff及TorchSpatial等\cite{},通过规范化数据处理流程与评价指标实现模型间的公平比较。然而,这类框架普遍依赖人工维护,在可扩展性与持续性方面存在不足,难以跟进快速增长的研究工作;同时,不同框架之间在评估设置上的差异,也影响了实验结果的可比性与可复现性。 + +此外,城市时空任务在实际应用中往往具有持续演化与多阶段决策特征,仅依赖静态离线数据难以全面反映模型在动态环境中的表现。因此,构建能够支持复杂任务、多阶段验证及持续更新的评测基础设施,已成为推动时空智能研究向实际应用转化的重要方向。 +\subsection{现有研究的主要挑战总结} + +综合前述分析可以看出,尽管现有研究在时空数据建模、模型适配及评测体系等方面取得了一定进展,但在面向复杂城市时空智能任务的统一建模过程中,仍存在若干关键问题有待进一步解决,主要体现在以下三个方面。 + +(1)\textbf{模型内部结构角色差异的刻画不足。} +复杂时空数据要求模型在统一表示空间中同时刻画多任务共享规律、位置依赖关系及多尺度动态变化。然而,现有方法多采用形式一致的建模或适配策略,隐含假设模型各层级与子结构作用相近,缺乏对不同模块、不同表示维度及不同参数子空间功能角色差异的刻画。这种均匀建模方式难以针对关键结构进行有效调控,从而限制了模型对复杂时空模式的表达能力\cite{}。 + +(2)\textbf{多任务场景下结构角色协同与容量分配机制不足。} +在多任务时空建模中,不同任务之间既存在共享结构规律,又在表示需求上存在差异,对模型内部结构的协同与资源分配提出了更高要求。现有方法多从参数更新或任务权重角度进行设计,缺乏对不同结构单元功能分工的系统建模。在有限参数预算下,如何实现共享能力与任务特定能力的有效平衡仍有待进一步研究\cite{}。 + +(3)\textbf{面向复杂时空任务的评测基础设施尚不完善。} +现有研究主要依赖静态离线数据集进行验证,其评测目标多集中于单一任务或短期预测指标,难以全面反映模型在复杂城市环境中的综合表现。在数据资源方面,现有时空数据集主要面向状态预测任务构建,缺乏同时包含空间位置与时间上下文、且对时空条件敏感的评测资源,难以系统评估模型的时空推理与情境理解能力。在评测平台方面,现有框架普遍依赖人工维护,在模型收录的可扩展性与评估流程的持续更新能力方面存在不足,难以支撑多任务、多阶段的系统化评估需求\cite{}。 + + +综上,复杂时空数据所引入的结构异质性不仅体现在数据与任务层面,也体现在模型内部结构角色的功能分化上。如何在统一框架下刻画并利用这种结构角色差异,设计结构感知的适配机制,并构建支撑复杂任务验证的评测体系,构成了本文的核心研究问题。围绕上述问题,第~\ref{sec:unified_framework}~节将进一步提出面向时空数据的结构感知适配统一分析框架。 + +\section{面向时空数据的结构感知适配统一分析框架} +\label{sec:unified_framework} + +前述分析表明,城市时空数据在空间结构、时间演化及任务目标等方面均呈现出显著的异质性特征。这种异质性不仅体现在数据分布与任务定义层面,也进一步体现在模型表征过程中:不同类型的时空结构信息往往需要在模型内部由不同层级与不同子结构进行刻画。 + +在此背景下,若在模型适配过程中对所有表示与参数施加形式一致的调整,则难以兼顾多任务共享规律与局部结构差异,容易导致关键结构信息表达不足。因此,从时空建模需求出发,模型适配过程需要具备\emph{结构敏感性},即能够根据不同结构特征,对模型内部表示进行差异化调控。 + +为进一步刻画这一过程,可以从模型前向计算的角度进行理解。对于输入样本 $\mathbf{X}$,模型在逐层计算过程中会产生一系列中间表示,并通过这些表示在不同层级之间逐步传递与变换。该过程可视为一种\emph{表示流}(representation flow),即信息在模型内部随层级推进而不断演化的动态过程。 + +从表示学习的角度来看,结构敏感性可以统一理解为:在上述表示流的传播过程中,对中间表示施加依赖于输入与结构特征的非均匀变换。基于这一认识,本文将模型适配过程抽象为对表示流的\emph{结构感知调制},并在此基础上构建统一分析框架,以刻画后续各章方法的核心机制。 + +\subsection{结构感知调制的统一形式化} +\label{subsec:unified_formulation} + +在上述直觉基础上,考虑预训练模型在适配过程中的表示变换形式。设预训练模型参数为 $\Theta_0$,适配参数为 $\Theta_a$。对于第 $\ell$ 层,给定输入时空样本 $\mathbf{X}$,该层产生的中间表示记为 $\mathbf{Z}^{(\ell)}$(例如注意力输出或前馈网络输出),其构成了表示流在该层的状态。 + +结构感知调制的统一形式可表示为: +\begin{equation} +\tilde{\mathbf{Z}}^{(\ell)} += +\mathcal{M}_{\theta} +\Big( +\mathbf{Z}^{(\ell)};\, +\mathbf{X},\, +\mathcal{R} +\Big), +\label{eq:ch1_unified_M} +\end{equation} +其中,$\mathcal{M}_{\theta}(\cdot)$ 为结构感知调制算子,$\tilde{\mathbf{Z}}^{(\ell)}$ 为调制后的表示,$\mathcal{R}$ 为结构角色描述符,用于刻画由时空数据结构特性所诱导的模型内部结构异质性类型,例如模块级、维度级及参数级等不同层级的结构差异。 + +该形式化表达了一个基本观点:模型适配的关键不在于对参数进行全面更新,而在于根据时空结构特征,对表示流中不同组成部分施加有针对性的调制。通过引入结构角色描述符 $\mathcal{R}$,可以在统一框架下区分不同类型的结构异质性,并据此设计差异化的调制策略。 + +\subsection{三种调制形式} +\label{subsec:modulation_forms} + +在上述统一形式下,不同适配方法的差异主要体现在调制算子的具体实现方式上。根据调制机制与建模需求的不同,本文将结构感知调制归纳为三类基本形式。 + +\textbf{乘性调制}适用于刻画表示流中不同成分的重要性差异。在多任务与多结构并存的场景下,不同表示维度或通道对任务目标的贡献程度存在差异,因而需要通过门控机制进行选择性增强或抑制。其形式为: +\begin{equation} +\mathcal{M}_{\theta}(\mathbf{Z};\mathbf{X},\mathcal{R}) += +\mathbf{Z} \odot \mathbf{S}_{\theta}(\mathbf{X},\mathcal{R}), +\label{eq:ch1_multiplicative} +\end{equation} +其中 $\mathbf{S}_{\theta}(\cdot)$ 为条件化调制信号。第三章的 HyCAM 方法以及第四章的 RoSA、DyPAM 方法均属于此类形式。 + +\textbf{组合式调制}适用于刻画多尺度结构特征。在城市时空数据中,不同时间尺度与空间尺度上的模式往往对应不同频率成分,需要在统一框架下进行分解与重组。其形式为: +\begin{equation} +\mathcal{M}_{\theta}(\mathbf{Z};\mathbf{X},\mathcal{R}) += +\bigoplus_{s=1}^{S} +\mathbf{Z}_{s} \cdot g_{\theta,s}(\mathbf{X},\mathcal{R}), +\label{eq:ch1_compositional} +\end{equation} +其中 $\mathbf{Z}_s$ 表示第 $s$ 个频段的表示分量。第五章的 CASCADE 方法采用此类形式。 + +\textbf{结构分解调制}适用于刻画多任务场景下的共享与专用结构。在有限参数预算下,不同任务对模型容量的需求存在差异,需要在共享表示与任务特有表示之间进行分配。其形式为: +\begin{equation} +\mathcal{M}_{\theta}(\mathbf{Z};\mathbf{X},\mathcal{R}) += +\mathbf{Z} \cdot \left(\Delta\Theta_{shared} + \mathbf{m} \odot \Delta\Theta_{specific}\right), +\label{eq:ch1_structural} +\end{equation} +其中 $\Delta\Theta_{shared}$ 与 $\Delta\Theta_{specific}$ 分别对应共享与专用参数增量。第五章的 MESSA 方法采用此类形式。 + +\begin{table}[h] + \centering + \caption{本文方法体系与结构异质性的对应关系。} + \label{tab:ch1_method_overview} + \resizebox{0.95\linewidth}{!}{ + \begin{tabular}{llllc} + \toprule + 结构异质性类型 & 结构角色描述符 & 调制形式 & 对应方法 & 章节 \\ + \midrule + 模块级功能异质性 & $\mathcal{R}_{mod}$ & 乘性调制 & HyCAM & 第三章 \\ + 维度级位置结构异质性 & $\mathcal{R}_{dim}$ & 乘性调制 & RoSA, DyPAM & 第四章 \\ + 频谱级多尺度异质性 & $\mathcal{R}_{spec}$ & 组合式调制 & CASCADE & 第五章 \\ + 参数级容量分配异质性 & $\mathcal{R}_{param}$ & 结构分解调制 & MESSA & 第五章 \\ + \bottomrule + \end{tabular} + } +\end{table} +\subsection{结构异质性类型与本文方法体系} +\label{subsec:method_system} + +基于上述统一框架,本文从时空数据的结构特性出发,将模型适配过程中涉及的结构异质性划分为四类,并构建了相应的方法体系,如表~\ref{tab:ch1_method_overview} 所示。 + +第三章从模块级功能差异出发,研究多任务场景下的表示调制问题;第四章进一步从表示维度层面分析位置结构所引入的异质性;第五章则从参数空间角度,分别从多尺度结构与容量分配两个方面对适配机制进行扩展。尽管各方法关注的结构层级不同,但在本节提出的统一框架下,均可理解为对表示流施加结构感知调制的不同实例化,从而形成由粗到细、由表示空间到参数空间的递进式建模路径。 + +\section{研究内容与技术路线} +\label{sec:research_content} + +\subsection{主要研究内容} +\label{subsec:research_content_detail} + +针对上述挑战,本文以城市时空数据的结构特性为导向,在第~\ref{sec:unified_framework}~节建立的统一分析框架下,系统研究面向时空智能任务的大语言模型结构感知适配方法,并构建相应的评测基础设施,以形成方法设计与系统验证相结合的研究闭环。 + +总体而言,本文围绕模型内部结构角色差异,从不同层级展开研究,主要包括以下四个方面: + +(1)针对多任务时空建模中不同模块承担差异化功能的问题,研究模块级结构异质性($\mathcal{R}_{mod}$),构建基于乘性调制的表示适配方法; + +(2)针对位置编码引入的维度级结构差异问题,研究维度级结构异质性($\mathcal{R}_{dim}$),构建面向位置结构的细粒度调制机制; + +(3)针对参数更新过程中的多尺度结构与容量分配问题,研究频谱级与参数级结构异质性($\mathcal{R}_{spec}, \mathcal{R}_{param}$),构建组合式与结构分解调制方法; + +(4)针对复杂时空任务缺乏统一评测环境的问题,构建面向多任务与多阶段验证的评测数据与实验基础设施。 + +在上述总体框架下,本文的具体研究内容如下。 + +\textbf{研究内容一:基于模块功能角色感知的多任务时空表征适配方法(第三章)} + +针对城市多任务时空建模中Transformer不同功能模块承担差异化角色的问题,本文从模块级结构异质性($\mathcal{R}_{mod}$)出发,研究基于乘性调制的表示适配机制,并提出混合上下文注意力调制方法(Hybrid Contextual Attention Modulation, HyCAM)。 + +该方法基于如下认识:自注意力模块主要负责上下文依赖关系的动态建模,而前馈网络更多承担参数化知识表达功能,因此在适配过程中应优先对注意力表示进行定向调制,而非对所有模块施加均匀更新。基于此,本文构建上下文注意力调制(Contextual Attention Modulation, CAM)模块,通过通道级门控机制对自注意力输出进行输入条件化的乘性调制,以实现对关键表示成分的选择性增强或抑制。 + +在此基础上,进一步设计"共享CAM—专用CAM—动态路由"的混合结构,其中共享模块用于建模跨任务的通用调制模式,专用模块用于刻画任务特定结构,动态路由机制根据输入上下文自适应地融合两类调制信号,从而在统一模型中实现知识共享与任务特化之间的平衡。 + +\textbf{研究内容二:基于位置结构感知的维度级时空表征适配方法(第四章)} + +针对位置编码在表示维度上引入的结构差异问题,本文从维度级结构异质性($\mathcal{R}_{dim}$)出发,研究面向位置结构的细粒度表示调制方法。 + +以旋转位置编码(RoPE)为例,其频率结构使不同维度承担不同的位置信息表达功能,从而导致注意力表示在维度空间中呈现显著的非均匀性。现有适配方法通常忽略这种结构差异,对所有维度施加同质化更新,难以充分利用位置结构信息。 + +为此,本文提出两类递进式方法。首先,提出RoPE感知的选择性适配方法(RoPE-aware Selective Adaptation, RoSA),通过构建RoPE感知注意力增强模块(RoAE)对关键维度进行定向增强,并结合动态层选择策略实现跨层级的资源分配。进一步地,提出动态位置注意力调制方法(Dynamic Positional Attention Modulation, DyPAM),将维度级适配由静态选择扩展为输入条件化的动态调制,通过低秩投影与维度嵌入机制生成与位置结构对齐的调制信号,从而在不同输入条件下实现更精细的结构感知建模。 + +\textbf{研究内容三:基于多尺度频谱结构与参数容量分配的适配方法(第五章)} + +在上述表示空间建模的基础上,本文进一步将研究视角扩展至参数空间,针对多尺度结构与容量分配问题,分别从频谱级结构异质性($\mathcal{R}_{spec}$)与参数级结构异质性($\mathcal{R}_{param}$)出发,构建相应的适配方法。 + +首先,针对权重更新中的多尺度特征,提出基于频谱级联的多尺度参数适配方法(Coarse-to-Fine Spectral Cascading, CASCADE)。该方法通过构建由低频与高频专家组成的异构结构,并通过级联调制机制建立不同频段之间的依赖关系,从而实现对全局趋势与局部细节的协同建模。 + +其次,针对多任务场景中的参数容量分配问题,提出基于共享-特有稀疏分解的多任务适配方法(Multi-task Efficient Shared-Specific Sparse Adaptation, MESSA)。该方法将参数更新分解为跨任务共享部分与任务特有部分,通过可学习的结构门控实现参数在不同任务之间的自适应分配,从而在有限参数预算下提升多任务建模能力。 + +\textbf{研究内容四:面向时空智能的大模型评测体系与实验基础设施(第六章)} + +为支撑上述方法在复杂时空任务中的系统验证,本文进一步构建面向多任务与多阶段评估的实验基础设施。 + +一方面,构建AI驱动的交通预测持续评测框架AgentCity,通过多智能体协同机制实现模型集成、任务组织与评估流程的自动化,从而提升评测体系的可扩展性与持续更新能力。另一方面,构建时空敏感的兴趣点问答数据集POI-QA,通过引入空间位置与时间上下文信息,构建能够反映时空推理能力的评测任务,从而弥补现有数据集在复杂时空理解方面的不足。 + +上述评测体系与数据资源,为结构感知适配方法在真实城市时空场景中的验证提供了统一环境。 + +综上,本文四项研究内容在统一框架下形成递进关系:研究内容一与二从表示空间出发,分别在模块级与维度级刻画结构角色差异;研究内容三进一步扩展至参数空间,从多尺度结构与容量分配角度进行建模;研究内容四则从评测基础设施角度提供系统验证支撑,从而形成面向时空智能建模的方法—数据—系统闭环。 + +\subsection{整体技术路线} +\label{subsec:technical_route} + +为系统开展面向复杂时空任务的表征学习研究,本文围绕城市时空数据的结构特征构建统一的分层建模技术路线,其总体框架如图~\ref{fig:tech_route}所示。 + +\begin{figure}[htbp] +\centering +% \includegraphics[width=0.9\textwidth]{tech_route.pdf} +\caption{本文整体技术路线示意图。该图从时空数据的结构复杂性出发,展示了结构角色感知表征学习方法体系的层级化建模思路,包括模块级表示流调制、维度级结构敏感建模、多尺度参数更新机制以及参数结构优化策略,并进一步给出统一实验验证与评测体系在整体研究框架中的支撑作用。} +\label{fig:tech_route} +\end{figure} + +该技术路线以时空结构异质性分析为起点,首先从城市系统中的多任务耦合关系、位置依赖特征以及多尺度动态模式等结构属性出发,对时空建模问题进行系统刻画;在此基础上,通过第~\ref{sec:unified_framework}~节提出的统一分析框架,将时空结构特性映射为模型内部不同层级的结构角色差异,并据此设计相应的表示调制与参数适配方法。 + +具体而言,在模块层面,研究表示在不同计算单元中的组织方式,通过结构感知调制机制增强模型对任务相关信息的表达能力;在维度与位置结构层面,刻画表示空间中的非均匀性特征,提升模型对空间依赖与时间动态的建模能力;在参数层面,进一步分析多尺度结构与容量分配对模型适配行为的影响,构建兼顾全局与局部特征的结构化更新机制。 + +在上述方法体系基础上,本文通过统一的实验组织与评测流程,对不同层级结构适配策略进行系统验证,并分析其在复杂时空任务中的协同作用。整体技术路线体现出由时空结构问题出发,经统一框架抽象,逐层展开方法设计,并最终通过评测基础设施完成验证的递进式研究路径,从而形成完整的时空智能建模研究闭环。 + +%====================================================================== +\section{论文组织结构} +\label{sec:organization} + +本文围绕复杂城市时空数据的结构特性,系统研究基础模型在多任务时空智能建模中的表征适配机制,并构建相应的评测基础设施。全文按照”问题提出—统一分析—方法设计—系统验证”的逻辑展开,各章节内容安排如下。 + +第一章为绪论,介绍研究背景与研究意义,梳理时空表征学习与模型适配领域的研究现状与关键问题,在此基础上提出面向时空数据的结构感知适配统一分析框架,并给出本文的研究内容与整体技术路线。 + +第二章为国内外研究现状,系统综述与本文研究相关的四类工作,包括时空数据建模与表征学习方法、基础模型与大语言模型表示机制、参数高效适配与结构建模方法以及时空智能数据与评测体系,并对现有研究的主要挑战进行总结分析。 + +第三章针对多任务时空建模中的模块级结构异质性问题,研究基于模块功能角色差异的表征适配方法,构建上下文注意力调制机制及其扩展框架,以提升模型在多任务场景中的协同建模能力。 + +第四章针对位置编码引入的维度级结构差异问题,研究位置结构驱动的各向异性表征学习方法,从表示维度与层级结构出发设计结构感知调制机制,以增强模型对复杂时空依赖关系的刻画能力。 + +第五章面向多尺度动态模式与多任务容量分配问题,从参数空间视角出发研究多尺度结构建模与参数结构自适应方法,分别从频谱结构与参数分解两个方面构建适配机制,以提升模型在复杂场景下的整体建模能力。 + +第六章围绕复杂时空任务的评测需求,构建面向多任务与多阶段验证的实验基础设施,包括交通预测持续评测框架与时空敏感问答数据集,并在统一评测环境下对相关方法进行系统验证与分析。 + +第七章为总结与展望,总结本文的主要研究内容与创新点,并结合时空智能建模与基础模型的发展趋势,对未来研究方向进行讨论。 diff --git a/chap02.tex b/chap02.tex new file mode 100644 index 0000000..bd5c0c5 --- /dev/null +++ b/chap02.tex @@ -0,0 +1,365 @@ +% !TeX root = ../main.tex +% 第二章 国内外研究现状 +\chapter{国内外研究现状} +\label{chap:related_work} + +本章围绕时空数据建模、基础模型表征机制及参数高效适配方法三个维度,对相关领域的研究现状进行系统梳理。在此基础上,对现有评测体系与数据资源进行分析,揭示当前研究在结构异质性建模、适配机制设计及评测支撑方面的不足,从而为后续章节提出的结构角色感知适配方法提供文献基础与问题定位。 + + +\section{时空数据建模与表征学习研究} +\label{sec:rw_st_modeling} + +城市时空数据是刻画现实物理世界动态演化过程的基础信息载体。随着城市物联传感网络、移动互联终端以及地球观测基础设施的持续发展,时空数据呈现出多源异构、高维动态与流式持续等特征,其建模方法也经历了由显式统计建模向数据驱动表征学习的范式演进。本节围绕时空建模问题的任务类型、方法发展路径及数据结构特征等方面,对相关研究进行系统梳理,并从表征学习视角分析当前研究范式的演进趋势与面临的结构挑战。 + +\subsection{时空数据建模问题类型与应用场景} +\label{subsec:rw_st_problems} + +% 注:需补充到ref.bib: zheng2014urban (Yu Zheng, Urban Computing, ACM TIST 2014) +城市时空数据建模通常面向多种实际应用需求,其核心目标在于通过对时间与空间维度上动态变化过程的建模,实现对复杂系统状态的理解、预测与优化。从城市计算的视角来看,时空数据来源涵盖交通传感器网络、移动终端定位数据、车辆轨迹数据、遥感卫星影像、兴趣点(POI)信息以及社交媒体地理标签等多种类型\cite{}。% 注:需补充到ref.bib: zheng2014urban (Zheng et al., Urban Computing: Concepts, Methodologies, and Applications, ACM TIST 2014) +根据建模目标与任务形式的不同,相关研究可划分为若干典型问题类型。 + +首先,\textbf{时空预测类任务}是当前研究最为广泛的方向。该类任务通常关注在给定历史观测数据的条件下,对未来某一时间范围内的系统状态进行估计,例如交通速度与流量预测\cite{METR_LA/PEMS_BAY,PEMSD4/8}、出行需求预测\cite{NYCTaxi/Bike}以及环境质量变化趋势分析等。此类任务对模型在捕获空间传播模式与时间依赖关系方面提出了较高要求。 + +其次,\textbf{行为建模与轨迹分析类任务}逐渐成为研究热点。随着位置感知技术的普及,城市个体活动轨迹及群体行为模式能够被更为精细地刻画。通过对出行路径、停留行为及兴趣点访问模式等信息进行建模,可以为城市规划与服务优化提供重要参考\cite{DeepMove,START}。这类任务通常涉及离散空间事件序列的语义理解与多主体交互分析,对模型在空间语义推理方面的能力提出更高要求。 + +此外,\textbf{决策支持与推理分析类任务}在近年来受到越来越多关注。例如,面向应急响应的路径规划、城市运行风险评估及公共设施选址优化等问题,往往需要在不确定环境中进行多阶段推理与策略评估。相比传统预测任务,这类问题不仅依赖对历史数据的建模,还要求模型具备一定的情境理解与逻辑推理能力\cite{CityBench}。 + +总体而言,不同类型的时空建模任务在目标形式与评价方式上存在差异,但其共同特征在于:均需要在统一建模框架下刻画复杂系统在时间与空间维度上的动态演化规律。更为重要的是,上述任务类型在城市系统中往往并行存在,表现为多目标共存与多任务耦合的特征。这种多任务并存关系为模型适配提出了差异化的结构要求——不同任务可能共享部分底层结构信息,同时又在建模目标与侧重点上具有各自的特殊需求。 + + +\subsection{传统时空建模方法} +\label{subsec:rw_traditional_st} + +% 注:需补充到ref.bib: cressie2011statistics (Cressie & Wikle, Statistics for Spatio-Temporal Data, Wiley 2011) +% 注:需补充到ref.bib: tobler1970computer (Tobler, A Computer Movie Simulating Urban Growth, Economic Geography 1970) +在深度学习技术广泛应用之前,时空数据建模主要依赖统计分析与数学建模方法。在时间维度上,自回归移动平均模型(ARIMA)及其扩展形式被广泛用于刻画时间序列中的线性趋势与周期性变化规律\cite{}。% 注:需补充到ref.bib: box2015time (Box et al., Time Series Analysis, 2015) +在空间维度上,地理学第一定律——"一切事物都与其他事物相关联,但近处的事物比远处的事物更为相关"——为空间依赖关系的建模提供了基本出发点\cite{}。% 注:需补充到ref.bib: tobler1970computer (Tobler, A Computer Movie Simulating Urban Growth in the Detroit Region, Economic Geography 1970) +基于此,空间自相关分析与地统计学方法被广泛用于描述不同区域之间的关联结构,例如克里金插值方法通过空间协方差模型对未采样位置进行最优预测\cite{}。% 注:需补充到ref.bib: cressie2011statistics (Cressie \& Wikle, Statistics for Spatio-Temporal Data, Wiley 2011) + +在时空联合建模方面,Cressie与Wikle提出的层次动态时空模型(Hierarchical Dynamic Spatio-Temporal Models)通过将不确定性分解为数据层、过程层与参数层三个层级,为时空数据的概率建模提供了系统化的理论框架\cite{}。% 注:需补充到ref.bib: cressie2011statistics (Cressie \& Wikle, Statistics for Spatio-Temporal Data, Wiley 2011) +此外,卡尔曼滤波及其非线性扩展在动态系统状态估计中发挥了重要作用,通过状态方程与观测方程的递推更新实现对系统状态的连续跟踪\cite{}。% 注:需补充到ref.bib: kalman1960new (Kalman, A New Approach to Linear Filtering and Prediction Problems, ASME J. Basic Eng. 1960) + +上述传统方法的重要价值在于其可解释性与不确定性建模能力。层次化建模框架能够显式表征不同来源的不确定性,空间统计方法则为理解空间异质性提供了严谨的概念工具。然而,当城市系统规模不断扩大且运行模式愈发复杂时,传统方法在表达非线性关系与高维交互模式方面的能力逐渐受到限制。特别是在多任务耦合或多源数据融合场景中,依赖人工特征设计与显式概率假设的建模策略难以充分挖掘数据中的潜在结构信息。 + +值得注意的是,传统时空统计方法所建立的核心概念——空间依赖、时间非平稳性、多尺度过程以及层次化不确定性——为后续深度表征学习中"结构归纳偏置"的设计提供了重要的理论先导。 +% TODO: 补充中文文献。建议添加:王劲峰等, 地理学时空数据分析方法, 地理学报 2014;或李德仁, 空间数据挖掘理论与应用(第3版), 科学出版社 2019 + + +\subsection{深度学习驱动的时空表征学习方法} +\label{subsec:rw_dl_st} + +% 注:需补充到ref.bib: shi2015convolutional (Shi et al., ConvLSTM, NeurIPS 2015) +% 注:需补充到ref.bib: li2018dcrnn (Li et al., DCRNN, ICLR 2018) +% 注:需补充到ref.bib: yu2018stgcn (Yu et al., STGCN, IJCAI 2018) +% 注:需补充到ref.bib: wu2019graph (Wu et al., Graph WaveNet, IJCAI 2019) +% 注:需补充到ref.bib: zhou2021informer (Zhou et al., Informer, AAAI 2021) +% 注:需补充到ref.bib: wu2021autoformer (Wu et al., Autoformer, NeurIPS 2021) +% TODO: 补充中文文献。建议添加:贾兴利等, 交通预测中的时空图神经网络研究综述, 交通运输工程学报 2026, DOI:10.19818/j.cnki.1671-1637.2026.01.003 +随着深度学习技术的发展,基于神经网络的时空建模方法在过去十余年间取得了显著进展,其核心贡献在于将时空依赖关系转化为可学习的结构归纳偏置(inductive bias),从而实现了从人工特征设计向端到端表征学习的范式转变。按照所采用的空间结构假设,深度时空建模方法可大致沿三条主线加以梳理。 + +\textbf{第一条主线}是基于栅格与场的时空建模方法。早期工作将城市空间划分为规则网格,通过卷积结构提取空间邻域特征,并结合循环网络捕获时间依赖关系。ConvLSTM等工作将卷积操作嵌入LSTM的门控结构中,实现了空间感知能力与时间记忆能力的算子级融合\cite{}。% 注:需补充到ref.bib: shi2015convolutional (Shi et al., Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting, NeurIPS 2015) +然而,城市路网与传感器分布通常呈现不规则的非欧几里得结构,将其强制映射为网格会丢失真实的拓扑关系信息。 + +\textbf{第二条主线}是基于图结构的时空表征学习方法,这一方向在2018年至2023年间逐渐成为交通预测等任务的主流范式。时空图神经网络(Spatio-Temporal Graph Neural Networks, STGNNs)将传感器或地理区域建模为图的节点,将物理连接或属性相似性建模为图的边,从而在非欧几里得空间中进行信息传播与表征聚合。DCRNN将交通流动态建模为有向图上的扩散过程,并与序列编解码结构相结合\cite{DGCRN};% 注:li2018dcrnn +STGCN则在频域上定义图卷积算子,通过全卷积结构取代循环计算\cite{};% 注:需补充到ref.bib: yu2018stgcn (Yu et al., Spatio-Temporal Graph Convolutional Networks, IJCAI 2018) +Graph WaveNet引入自适应邻接矩阵学习机制,允许模型在训练过程中通过节点嵌入自动发现潜在的空间依赖关系\cite{}。% 注:需补充到ref.bib: wu2019graph (Wu et al., Graph WaveNet for Deep Spatial-Temporal Graph Modeling, IJCAI 2019) +后续工作进一步在动态图建模\cite{DSTAGNN}、多图融合\cite{DGCRN}以及多尺度时空表示\cite{STWave}等方面进行了深入探索。在注意力机制的引入方面,部分研究通过空间注意力与时间注意力的联合设计,实现了对不同节点和不同时间步特征的动态权重分配\cite{STAEformer}。此外,STID等工作从简洁建模的角度出发,指出在附加适当的时空嵌入信息后,简单的多层感知机即可取得与复杂图模型相当的预测性能,这一发现促使研究者重新审视时空表征学习中归纳偏置的作用方式\cite{STID}。在模型规模与效率方面,BigST针对大规模传感器网络提出了高效的时空建模方案\cite{BigST};LightST则通过轻量化设计探索精度与效率之间的平衡\cite{LightST}。 + +在上述监督学习范式之外,时空预训练方法的探索代表了该领域的另一重要方向。UniST通过统一的掩码预训练策略在多种时空数据集上构建通用时空表示\cite{UniST};FlashST利用提示学习机制实现跨数据集的快速适配\cite{FlashST};EasyST则通过教师-学生蒸馏框架降低时空预训练的计算成本\cite{EasyST}。这些工作标志着时空表征学习正在由"任务特定模型"向"通用预训练—下游适配"的范式过渡。然而,现有时空预训练方法在跨城市迁移与多任务联合建模方面仍面临挑战,其学习到的通用表示能否有效支撑结构复杂的城市智能任务,仍有待进一步验证。 + +\textbf{第三条主线}是面向长序列预测的Transformer类方法。随着预测时间跨度与序列长度的增加,传统循环结构面临效率瓶颈与长程依赖建模困难。Informer通过稀疏注意力机制与蒸馏策略提升长序列预测效率\cite{};% 注:需补充到ref.bib: zhou2021informer (Zhou et al., Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting, AAAI 2021) +Autoformer则引入序列分解机制与自相关注意力,将趋势与季节性成分分离建模\cite{}。% 注:需补充到ref.bib: wu2021autoformer (Wu et al., Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting, NeurIPS 2021) +此外,PatchTST\cite{PatchTST}、TimeMixer++\cite{TimeMixer++}等工作进一步探索了多粒度与多通道时序建模策略。 + +上述三条主线虽然在空间结构载体与建模机制上存在差异,但在问题层面共享同一核心目标:如何在统一表示框架下有效刻画空间依赖、时间动态与尺度变化之间的交互关系。深度时空表征学习的演进可被理解为对结构归纳偏置的逐步显式化——从局部时空卷积到图结构传播,再到长上下文注意力建模。然而,现有方法大多围绕特定任务进行设计,所学习的表示与任务目标紧密耦合,在多任务协同与跨场景迁移方面仍面临泛化能力不足的问题。 + + +\subsection{时空建模中的结构复杂性问题} +\label{subsec:rw_st_complexity} + +尽管深度时空表征学习方法在各类基准测试中取得了显著进展,但真实的城市时空系统所呈现的结构复杂性仍对现有方法构成根本性挑战。城市时空数据并非均匀分布的数值流,而是在多个维度上呈现出系统性的结构分化。具体而言,可从以下四个层面加以概括。 + +\textbf{(1)多任务功能异质性。} +城市系统中往往存在多任务高度共存的场景。例如,交通流量预测、出行需求估计与事件风险评估等任务虽然共享底层空间结构信息,但在建模目标与特征需求上存在差异\cite{standley2020tasks}。传统多任务建模方法通常采用硬共享底层网络的方式,容易导致任务间的负迁移与知识干扰\cite{yu2020gradient,liu2021conflict}。在城市多目标预测场景中,同时预测交通速度与流量两个密切相关的指标时,模型内部不同功能模块(如注意力层与前馈网络层)对两个任务的贡献可能存在显著差异——注意力模块更多承担跨区域空间关联的建模,而前馈网络则更多负责数值量程的映射。这种模块级的功能分工在均匀的参数共享策略下难以被有效利用。 + +\textbf{(2)位置结构依赖与表示非均匀性。} +城市活动在空间分布上具有显著的非均匀性,不同区域在功能属性与交互模式上存在差异。时空事件的发生位置赋予了输入序列中不同元素截然不同的语义权重。例如,城市中心商业区与郊区居住区在出行模式、客流密度及时间分布上呈现出截然不同的规律,而位于交通枢纽的传感器节点往往比普通路段节点承载更为丰富的空间传播信息。然而,现有模型在表征聚合过程中往往缺乏对这种位置结构的显式感知,使得关键的空间位置信息在层层传递中被过度平滑\cite{DSTAGNN}。在大语言模型的位置编码机制下,这种非均匀性进一步体现为不同表示维度对空间位置信息的差异化编码能力。 + +\textbf{(3)多尺度动态模式。} +城市运行过程通常同时包含稳定的周期性变化与随机扰动事件。例如,日常出行模式体现为相对平稳的时间周期结构(早晚高峰、周末效应),而突发事件(如交通事故、极端天气、大型活动)又会在短时间尺度内引发显著波动\cite{STWave}。从频谱分析的角度来看,低频分量对应全局趋势与周期结构,高频分量对应局部扰动与事件驱动变化。单一时间感受野的建模方式难以兼顾跨尺度的频谱特征,而深度网络在训练中普遍存在的频谱偏置——优先拟合低频分量、对高频细节学习缓慢——进一步加剧了这一问题。 + +\textbf{(4)多源差异与容量分配冲突。} +跨模态的时空数据在信息密度与噪声分布上存在差异。例如,交通传感器提供的高频数值流与社交媒体地理标签提供的稀疏事件信号在数据特性上截然不同,而深度模型在参数容量分配上通常是静态的,无法根据数据源的异质性进行自适应调控。在多任务适配场景下,有限的可训练参数需要在不同任务间进行分配,如何确定哪些参数应当跨任务共享、哪些应当任务特有,成为影响适配效果的关键问题。 + +上述结构复杂性表明,试图用均匀的网络结构同等对待所有时空输入特征的做法,不可避免地会导致关键结构信号的淹没或模型容量的低效利用。 +% TODO: 补充中文文献。建议添加:朱庆、傅晓, 多模态时空大数据可视分析方法综述, 测绘学报 2017;或 自然资源时空大数据挖掘与知识服务研究进展, 地球信息科学学报 2025, DOI:10.12082/dqxxkx.2025.240625 +这一问题不仅是传统深度时空模型的瓶颈,也为后续将大语言模型引入时空建模后,设计结构感知的适配机制提供了直接动机。从第~\ref{sec:unified_framework}~节所建立的分析框架来看,上述四类结构复杂性分别对应了模块级($\mathcal{R}_{mod}$)、维度级($\mathcal{R}_{dim}$)、频谱级($\mathcal{R}_{spec}$)与参数级($\mathcal{R}_{param}$)四个层面的结构异质性。 + + +%====================================================================== +\section{基础模型与大语言模型表征机制研究} +\label{sec:rw_foundation_model} + +近年来,以Transformer为代表的基础模型在自然语言处理与多模态学习领域取得了显著进展。其强大的表示能力与跨任务泛化性能为复杂系统建模提供了新的技术路径。本节从表示学习机制、预训练范式及复杂任务建模能力等方面,对基础模型与大语言模型的相关研究进行系统梳理,并探讨其在时空智能领域的初步应用与面临的适配挑战。 + +\subsection{Transformer表示学习机制} +\label{subsec:rw_transformer} + +Transformer架构通过引入自注意力机制,摒弃了循环神经网络的序列递归计算范式,实现了对序列内部全局依赖关系的高效并行建模\cite{vaswani2017attention}。给定第$\ell$层的输入隐藏表示$\mathbf{H}^{(\ell-1)} \in \mathbb{R}^{T \times d}$,自注意力模块首先通过线性投影生成Query、Key和Value矩阵$\mathbf{Q}^{(\ell,h)}, \mathbf{K}^{(\ell,h)}, \mathbf{V}^{(\ell,h)}$(其中$h$为多头索引),随后通过缩放点积计算注意力权重,实现对上下文信息的加权聚合。 + +从模型内部的功能分工来看,近年来的机制可解释性研究揭示了Transformer架构中注意力模块与前馈网络之间存在系统性的角色分化。Geva等人的研究表明,前馈网络可被视为键值记忆存储结构,其参数矩阵中编码了训练语料中的知识模式\cite{geva2021transformer}。Dong等人进一步指出,注意力模块更侧重于执行上下文信息的检索与路由功能,而前馈网络则承担知识存储与模式匹配的作用\cite{dong2025attention}。此外,对多头注意力的分析表明,不同注意力头在功能上存在差异化分工,部分头侧重局部位置模式,部分头侧重全局语义依赖\cite{voita2019bottom,michel2019sixteen}。层级维度上,浅层表示更侧重局部模式建模,深层表示更倾向于捕获全局语义关系\cite{belinkov2018evaluating}。 + +在位置信息编码方面,旋转位置编码(RoPE)通过将绝对位置映射为复平面上的旋转角度,使模型在注意力计算中能够内在地感知相对位置偏移\cite{su2024roformer}。不同维度对被赋予不同频率的旋转角度,这一机制导致表示在维度空间中呈现出系统性的频率结构。ALiBi则采用注意力偏移方式引入位置信息\cite{press2021train}。这些位置编码机制不仅影响模型的长序列外推能力,更在表示空间中引入了与频率结构相关的非均匀特性——不同维度承担不同频率范围的信息编码功能。 + +从时空建模需求来看,Transformer的上述机制特征——模块功能分化、头与层的角色差异以及位置编码引入的维度级结构——构成了理解模型内部结构角色异质性的重要基础,也为后续设计结构感知的适配方法提供了机制层面的支撑。 + + +\subsection{预训练基础模型与表示迁移学习} +\label{subsec:rw_pretrain} + +% 注:需补充到ref.bib: devlin2019bert (Devlin et al., BERT, NAACL 2019) +预训练—微调范式是基础模型取得成功的重要技术路径。通过在大规模通用数据上进行自监督学习,模型能够构建具有较强表达能力的通用表示空间。BERT通过掩码语言建模构建双向语境表示\cite{},% 注:需补充到ref.bib: devlin2019bert (Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, NAACL 2019) +GPT系列模型则通过自回归预训练获取生成式语言建模能力\cite{brown2020language}。这种大规模预训练策略使模型能够在下游任务中实现高效迁移,降低了任务特定模型设计的复杂度\cite{bommasani2021opportunities}。 + +随着这一范式的成功向其他数据模态扩展,时间序列与时空领域亦开始探索基础模型的构建路径。时间序列基础模型试图通过在海量时序数据上进行预训练,学习跨数据集可共享的通用时序表示\cite{hu2023llm}。% 注:需补充到ref.bib: liang2024foundation (Liang et al., Foundation Models for Time Series Analysis, KDD Tutorial 2024) +% 注:需补充到ref.bib: ansari2024chronos (Ansari et al., Chronos, arXiv 2024) +从技术路线来看,时序基础模型可分为两类:一类是从零开始在大规模时序数据上训练的专用模型,通过掩码重构或对比学习等自监督策略提取通用时序分布特征;另一类则是将已有的大语言模型"重编程"为时序预测器,通过输入对齐或嵌入映射使语言模型的表示空间适应数值时序数据。前者在领域适应性方面具有优势,后者则利用了语言模型已有的推理能力与世界知识。 + +在时空领域,UniST等工作尝试构建统一的时空预训练框架,通过掩码预训练策略在多种城市数据集上学习通用时空表示\cite{UniST};FlashST通过提示学习机制实现跨数据集的快速适配\cite{FlashST}。这些工作标志着时空基础模型的研究正在从"任务特定建模"向"通用表示构建"的方向发展。 + +然而,预训练迁移学习的核心假设——存在跨任务可共享的中间表征——在时空任务中面临特殊挑战。一方面,时空数据的结构性输入(坐标、拓扑关系、多模态属性等)与通用语料存在显著差异,简单的格式对齐难以保证结构信息的有效传递;另一方面,时空任务在评测目标上从数值预测扩展到推理一致性与决策可执行性,使得"迁移什么、如何迁移"成为需要重新审视的问题。因此,时空场景下的表示迁移不仅需要参数层面的适配,更需要考虑模型内部表示结构与时空数据结构特征之间的协调。 + + +\subsection{大语言模型在复杂任务建模中的潜力} +\label{subsec:rw_llm_potential} + +随着模型规模与训练数据量的持续扩大,大语言模型在复杂任务环境中展现出显著能力。GPT-4\cite{achiam2023gpt}、LLaMA系列\cite{touvron2023llama,dubey2024llama}以及Qwen系列\cite{bai2023qwen,team2024qwen2}等模型不仅在语言理解与生成任务中表现出色,还在多步推理、上下文学习以及跨任务知识迁移方面展现出良好潜力。 + +对于时空智能领域而言,大语言模型的潜在价值可从三个维度加以分析。\textbf{第一},地理知识可提取性。研究表明,大语言模型在其参数空间中隐式编码了关于空间位置、区域属性及地理关系的知识\cite{feng2024citygpt}。% 注:需补充到ref.bib: manvi2024geollm (Manvi et al., GeoLLM: Extracting Geospatial Knowledge from Large Language Models, ICLR 2024) +% TODO: 建议补充 Gurnee & Tegmark, Language Models Represent Space and Time, arXiv:2310.02207, 2023 —— 该工作实证表明LLM内部自发形成了空间与时间的线性表征结构,是LLM空间认知能力的重要实证支撑 +通过适当的提示策略或微调,可以从模型中提取地理相关的语义信息。\textbf{第二},长程依赖建模与推理能力。大语言模型在处理长上下文序列时所表现出的能力,使其在刻画跨区域关联与跨时间尺度动态关系方面具有潜在优势。\textbf{第三},工具调用与工作流执行能力。结合代码生成与工具调用机制,大语言模型可用于构建面向空间分析任务的自动化工作流\cite{}。% 注:需补充到ref.bib: zhang2025geoanalystbench (Zhang et al., GeoAnalystBench: A GeoAI Benchmark for Assessing LLMs for Spatial Analysis Workflow and Code Generation, arXiv:2509.05881) + +然而,大语言模型的上述潜力并不等同于对时空任务的有效建模能力。模型原本为处理一维离散语言符号设计,当面对具有强时空周期性、复杂图拓扑以及跨尺度波动的多任务时空数据时,简单地将时空信息转化为文本序列进行处理,难以保证结构信息的准确传递与利用。因此,如何在保持预训练知识的基础上,使模型内部表示与时空数据的结构特征相协调,成为将大语言模型有效引入时空建模的关键问题。 + + +\subsection{大模型在时空智能领域的初步探索} +\label{subsec:rw_llm_st} + +近年来,学术界已开始积极探索将大语言模型应用于城市计算与时空智能任务。从适配策略来看,现有工作可从以下几个方面加以归纳。 + +在\textbf{特征对齐与表示增强}方面,UrbanGPT将轻量级时空依赖编码器与大语言模型的指令微调范式相结合,通过构建时空指令集实现零样本跨城市预测\cite{}。% 注:需补充到ref.bib: li2024urbangpt (Li et al., UrbanGPT, KDD 2024) +该工作通过将时空编码器的输出对齐到语言模型的嵌入空间,使模型能够在不同城市与不同任务之间进行知识迁移。CityGPT将城市空间信息嵌入语言模型的认知框架中,增强模型对城市功能区的理解能力\cite{feng2024citygpt}。BigCity通过统一数据格式与提示设计,将多种时空任务纳入单一模型进行联合处理\cite{yu2025bigcity}。VecCity则从城市实体表示学习的角度出发,为不同粒度的空间单元构建统一的向量表示\cite{zhang2024veccity}。 + +在\textbf{提示工程与跨域适配}方面,部分研究尝试通过文本提示的设计将时空信息转化为语言模型可处理的格式。例如,STLLM等工作将时空图网络提取的结构特征转化为模型可处理的嵌入表示\cite{STLLM}。在轨迹与移动性建模方面,PLMTrajRec利用预训练语言模型的序列建模能力进行轨迹恢复\cite{PLMTrajRec};POI-Enhancer等工作则探索将大语言模型的语义能力用于增强兴趣点表示学习\cite{cheng2025poi}。这些工作在不同程度上验证了语言模型所蕴含的世界知识对时空任务的潜在支撑作用。 + +在\textbf{评测与基准构建}方面,CityBench通过覆盖多城市、多任务的评测框架,系统评估大语言模型在城市任务中的能力边界\cite{CityBench}。USTBench将时空推理能力分解为理解、预测、规划与反思四个维度进行细粒度评估\cite{USTBench}。STBench则侧重于空间与时间信息的联合理解能力测试\cite{STBench}。这些评测工作揭示出当前大语言模型在空间拓扑推理与时间周期性建模方面仍存在明显不足。 + +上述工作的一个共同特征值得关注:无论是特征对齐、提示工程还是指令微调,现有方法在将时空信息输入大语言模型时,主要关注输入端的格式转换与表示对齐,而较少涉及模型内部表示结构在处理时空信息时的功能组织方式。具体而言,注意力模块与前馈网络在时空推理中是否承担不同角色、不同维度是否对空间位置与时间周期信息具有差异化的敏感性、参数更新在不同频谱成分上是否需要差异化策略——这些问题在现有文献中尚未得到系统研究。这一观察表明,从模型内部结构出发设计适配机制,构成了将大语言模型有效应用于时空建模的重要研究空间。 + + +%====================================================================== +\section{参数高效适配与结构建模方法研究} +\label{sec:rw_peft} + +基于第~\ref{sec:rw_st_modeling}~节的分析,城市时空数据具有多层级的结构异质性特征;而大语言模型在设计上通常假设输入信息具有相对均匀的结构,其适配方法亦多采用形式一致的更新策略。数据端的"结构异质"与模型端的"均匀适配"之间存在的张力,构成了将大语言模型有效应用于复杂时空任务的核心挑战。本节围绕参数高效微调方法、多任务学习机制、表示结构分析、多尺度频谱建模以及模型结构优化等方面,对相关研究进展进行系统梳理。 + +\subsection{参数高效微调方法} +\label{subsec:rw_peft_methods} + +当模型参数规模从数亿膨胀至千亿级别时,全参数微调在计算成本与存储开销方面变得不可接受,且在数据量有限时容易引发灾难性遗忘\cite{ding2023parameter}。参数高效微调(PEFT)方法的核心思想是:冻结预训练主干网络参数$\Theta_0$,仅引入少量可训练参数$\Theta_a$,使得最终模型参数可表示为$\Theta = \Theta_0 + \Delta\Theta$\cite{lialin2023scaling,han2024parameter}。 + +目前主流的PEFT方法可划分为以下几类。\textbf{(1)附加式方法}:Adapter通过在Transformer层间插入小型瓶颈网络进行表示调整\cite{houlsby2019parameter};前缀调制通过在输入序列前追加可学习的连续向量引导模型生成\cite{li2021prefix};提示调制则通过嵌入层面的可训练向量激活模型能力\cite{lester2021power}。这些方法保持主干权重不变,通过附加结构引入任务信息。\textbf{(2)选择式方法}:BitFit仅更新网络中的偏置项参数\cite{zaken2021bitfit};LISA则根据层重要性进行选择性更新\cite{pan2024lisa}。\textbf{(3)低秩分解方法}:LoRA基于权重更新矩阵具有低内在秩的假设,将$\Delta\mathbf{W}$分解为两个低秩矩阵的乘积$\Delta\mathbf{W} = \mathbf{B}\mathbf{A}$(其中$\mathbf{A} \in \mathbb{R}^{r \times d_{in}}, \mathbf{B} \in \mathbb{R}^{d_{out} \times r}, r \ll \min(d_{in}, d_{out})$),从而成百倍地减少可训练参数规模\cite{hu2021lora}。DoRA进一步将权重更新分解为方向与幅度两个分量\cite{liu2024dora};AdaLoRA通过重要性评估实现动态秩分配\cite{zhang2023adalora};VeRA利用共享随机矩阵进一步压缩参数开销\cite{kopiczko2023vera}。 + +然而,从时空建模需求出发审视上述方法,可以发现一个共性局限:这些方法多对模型的不同层或投影矩阵施加形式一致的适配操作,隐含假设模型内部各组成部分在适配中的角色近似。以LoRA为例,其标准实践通常在所有选定层的Query与Value投影矩阵上插入相同秩的低秩分解,不区分不同层在特征建模中的功能贡献。然而,已有研究表明模型浅层与深层在信息处理中承担不同角色\cite{belinkov2018evaluating}——浅层侧重局部模式提取,深层侧重全局语义整合——因而对适配的需求强度与方式可能存在差异。类似地,注意力投影矩阵与前馈网络权重在知识存储与信息路由方面的功能分工\cite{geva2021transformer,dong2025attention},也意味着对二者施加相同形式的更新策略未必是最优选择。 + +进一步地,在多任务场景下,这种均匀性假设的局限更加突出。不同任务对模型不同部分的更新需求可能指向不同方向,如果适配机制无法区分这些差异,则难以在有限参数预算下同时满足多个任务的需求。Compacter\cite{karimi2021compacter}、UniAdapter\cite{lu2023uniadapter}等工作已从参数共享与分解的角度对上述问题进行了初步探索,但尚未从时空数据的结构特征出发建立系统性的设计准则。 + + +\subsection{多任务学习与知识路由机制} +\label{subsec:rw_multitask} + +% 注:需补充到ref.bib: caruana1997multitask (Caruana, Multitask Learning, Machine Learning 1997) +城市系统天然是一个多任务并行环境,不同时空任务之间既存在共享的底层物理规律,又存在互相冲突的特征需求。多任务学习通过在统一模型中同时优化多个相关目标,试图利用任务间的知识共享提升整体建模性能\cite{}。% 注:需补充到ref.bib: caruana1997multitask (Caruana, Multitask Learning, Machine Learning 1997) +然而,多任务学习面临的核心困难在于梯度冲突与负迁移:不同任务的梯度在共享参数空间中可能指向相互对立的方向。PCGrad通过梯度投影缓解任务间冲突\cite{yu2020gradient};CAGrad则从最坏情况优化角度设计多任务梯度聚合策略\cite{liu2021conflict}。 +% TODO: 建议补充 PLE (Progressive Layered Extraction, Tang et al., RecSys 2020) —— 工业界多任务学习的代表性工作,提出渐进式分层提取机制缓解跨任务干扰 + +在模型结构层面,混合专家模型(MoE)通过将前馈网络替换为多个并行专家子网络,并利用门控路由机制动态选择激活专家,实现了模块级的功能分化\cite{shazeer2017outrageously}。Switch Transformer通过简化路由策略将这一机制扩展到大规模模型\cite{fedus2022switch};DeepSeek-MoE等工作进一步优化了专家粒度与路由策略\cite{dai2024deepseekmoe,guo2025deepseek}。在参数高效适配框架下,MoE思想被引入LoRA结构,形成了MoELoRA\cite{liu2023moelora,luo2024moelora}与LoRAMoE\cite{dou2024loramoe}等方法,通过多组低秩适配模块与动态路由实现对多任务差异性的适应。 + +从时空建模需求来看,多任务城市系统中的功能异质性——不同模块对不同任务的功能贡献存在系统性差异——构成了模块级结构角色异质性($\mathcal{R}_{mod}$)的数据驱动来源。上述方法揭示了"动态路由"与"模块功能分化"在应对多任务异质性方面的有效性,但现有方法多从独立的路由策略出发进行设计,缺乏与时空数据结构特征的系统关联。 + + +\subsection{表示各向异性与结构感知学习} +\label{subsec:rw_anisotropy} + +% 注:需补充到ref.bib: godey2024anisotropy (Godey et al., Anisotropy Is Inherent to Self-Attention, EACL 2024) +随着对深度模型内部表示机制认识的深入,研究者发现基于Transformer的大语言模型普遍存在表示各向异性(Anisotropy)现象——模型隐藏层的激活值分布呈现显著的非均匀性,少数维度占据压倒性的方差比例,而大部分维度处于低方差状态\cite{jin2025massive}。进一步的研究表明,这种各向异性并非训练过程中的偶发伪影,而是自注意力机制的内生特性\cite{}。% 注:需补充到ref.bib: godey2024anisotropy (Godey et al., Anisotropy Is Inherent to Self-Attention in Transformers, EACL 2024) + +在位置编码层面,RoPE的频率结构为表示空间引入了额外的维度级异质性。不同维度对被赋予不同频率的旋转角度:低频维度旋转缓慢,其激活模式受位置变化的扰动较小,倾向于编码全局语义与长程依赖关系;高频维度旋转迅速,对位置偏移高度敏感,更适于刻画局部结构细节\cite{su2024roformer,barbero2024round}。Barbero等人的系统分析进一步揭示,RoPE对不同维度的影响呈现出明确的层次结构:在注意力计算中,低频维度对对应的键值对在长距离上仍保持较高的注意力得分,而高频维度的注意力则迅速随距离衰减\cite{barbero2024round}。这种由位置编码诱导的维度级功能分化,使得同一表示向量中的不同分量在信息编码功能上存在质的差异。 + +与此相关的另一个重要发现是,大语言模型中普遍存在"极端激活值"(Massive Activations)现象\cite{jin2025massive}。少数特定维度在模型前向计算过程中产生远超其他维度的激活幅值,这些维度在表示空间中占据主导地位。研究表明,这些极端激活维度并非简单的数值异常,而是承担着上下文信息编码的关键功能。在多头注意力结构中,不同头在激活分布上亦呈现出系统性差异,部分头表现出更为集中的激活模式,部分头则呈现更均匀的分布特征\cite{voita2019bottom}。 + +从时空适配的角度来看,上述发现具有重要启示。当时空任务要求模型准确处理空间相对位置关系与时间周期结构时,不同维度在建模中的功能贡献并非均匀的。如果适配过程不加区分地统一更新所有维度,可能导致重要低频结构的破坏或高频噪声的放大。这一认识为维度级结构异质性($\mathcal{R}_{dim}$)的适配提供了机制层面的动机。 + + +\subsection{多尺度学习与频谱建模方法} +\label{subsec:rw_spectral} + +% 注:需补充到ref.bib: zhou2022fedformer (Zhou et al., FEDformer, ICML 2022) +城市时空数据的另一个核心结构特征是其动态模式的多尺度属性。全局趋势、周期性模式与局部突变分别对应信号的不同频率成分,这要求建模方法能够同时刻画多个尺度上的时空变化规律。 + +在时序预测领域,Autoformer引入的序列分解思想将信号分离为趋势与季节性分量\cite{};% 注:需补充到ref.bib: wu2021autoformer (Wu et al., Autoformer, NeurIPS 2021) +FEDformer进一步将傅里叶变换与小波变换引入Transformer结构,通过频域稀疏表示实现多尺度特征的高效建模\cite{}。% 注:需补充到ref.bib: zhou2022fedformer (Zhou et al., FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting, ICML 2022) +在时空图建模方面,STWave\cite{STWave}、DSTAGNN\cite{DSTAGNN}等工作将小波分析引入空间图信号处理,通过多尺度子带分解增强模型对不同频率成分的分辨能力。Fredformer\cite{Fredformer}等方法则探索了在频域空间进行注意力计算的替代策略。 + +从模型参数更新的角度来看,频谱视角同样具有重要意义。研究表明,深度网络在训练过程中存在频谱偏置——倾向于优先拟合低频分量,对高频细节的学习缓慢\cite{}。% 注:需补充到ref.bib: rahaman2019spectral (Rahaman et al., On the Spectral Bias of Neural Networks, ICML 2019) +这意味着模型权重更新本身具有频谱级的结构特性:全局语义的对齐依赖低频更新,而特定局部行为的修正则需要高频更新。这一观察表明,参数更新的频谱结构与时空数据的多尺度特征之间存在内在对应关系,为频谱级结构异质性($\mathcal{R}_{spec}$)的建模提供了理论动机。 + +在参数高效微调领域,近年来开始出现将频域分析引入适配方法的探索。这一方向的核心动机在于:权重更新矩阵在频域中往往具有更为紧凑的表示,且不同频率分量承载的信息具有可分离的语义意义。SDCT方法通过选择性离散余弦变换对权重更新进行频域表示,在保持适配性能的同时进一步压缩参数开销\cite{shen2024parameter}。WaveletFT将离散小波变换应用于权重更新矩阵的分解,利用小波基的多分辨率特性同时捕获全局平滑结构与局部细节信息\cite{hu2025waveletft}。FourierFT等工作利用傅里叶基对适配参数进行紧凑表示\cite{gao2024parameter}。LoCA则通过逆离散余弦变换在频域谱图上动态定位信息密集的频率位置,实现选择性频段微调\cite{du2025loca}。此外,F-Adapter将频率自适应机制引入科学计算领域的模型微调\cite{zhang2025f}。 + +上述方法共同表明,频谱视角为参数高效适配提供了一种有效的结构化建模语言。然而,现有频域PEFT方法多采用单一类型的变换基(纯DCT或纯小波),较少同时利用不同频域基函数在全局与局部表示上的互补特性。此外,不同频率分量之间的依赖关系在现有方法中通常被忽略——各频段的更新独立进行,缺乏跨频段的信息传递机制。这些不足为设计更为精细的频谱级适配方法留下了空间。 + + +\subsection{模型结构优化与容量分配方法} +\label{subsec:rw_structure_opt} + +% 注:需补充到ref.bib: liu2019darts (Liu et al., DARTS, ICLR 2019) +% 注:需补充到ref.bib: frankle2019lottery (Frankle & Carlin, Lottery Ticket Hypothesis, ICLR 2019) +在更高层面上,当模型需要在多个异构任务间分配有限的可训练参数时,如何在容量约束下实现高效适配,本质上转化为一个结构学习问题。 + +神经架构搜索(NAS)技术提供了一种自动化的结构设计路径。DARTS通过将离散的架构选择松弛为连续优化问题,实现了可微分的架构搜索\cite{}。% 注:需补充到ref.bib: liu2019darts (Liu et al., DARTS: Differentiable Architecture Search, ICLR 2019) +在时空领域,AutoSTF\cite{AutoSTF}等工作将NAS引入时空预测模型的设计,通过搜索最优的时空操作组合以适配不同数据集的特性。这些工作表明,针对特定时空任务分布,不存在普适的静态最优结构,结构本身应当是任务相关且可学习的。 + +在模型压缩方面,结构化剪枝与稀疏化学习旨在通过移除冗余参数或限制激活模式来提升计算效率。彩票假说指出,在密集网络中存在稀疏子网络能够达到甚至超越完整网络的性能\cite{},% 注:需补充到ref.bib: frankle2019lottery (Frankle \& Carlin, The Lottery Ticket Hypothesis, ICLR 2019) +这为参数结构的可选择性提供了理论支持。在大语言模型场景下,运动剪枝(Movement Pruning)\cite{sanh2020movement}等方法通过训练过程中的参数重要性评估实现结构化稀疏。 + +从多任务适配的角度来看,容量分配问题的核心在于:哪些参数结构应当跨任务共享,哪些应当任务特有,以及如何在有限预算约束下实现这种共享—特有划分的自动发现。这一问题直接对应参数级结构异质性($\mathcal{R}_{param}$)的建模需求。在参数高效适配框架下,稀疏微调与结构学习的结合尤为重要。SHiRA通过高秩稀疏更新替代低秩稠密更新,在相同参数预算下获得更强的表达能力\cite{shiracite}。MTLoRA等工作将多任务学习与LoRA结构相结合,在任务间共享低秩基础并学习任务特定的路由策略\cite{agiza2024mtlora}。运动剪枝\cite{sanh2020movement}与稀疏缩放微调\cite{ansell2024scaling}等方法则通过在训练过程中动态评估参数重要性,实现面向特定任务的结构化稀疏。 + +然而,现有方法在多任务场景下的容量分配多依赖预先设定的共享规则或简单的任务标识路由,缺乏能够在统一预算约束下同时学习共享结构与特有结构的系统化机制。如何将结构发现从"给定结构下的参数学习"提升为"结构与参数的联合优化",仍是当前多任务适配研究中的开放问题。 + + +\subsection{现有适配方法的对比分析与不足} +\label{subsec:rw_peft_discussion} + +综合上述五个方面的文献梳理,可以从"调制对象"与"结构层级"两个维度对现有适配方法进行系统比较,如表~\ref{tab:ch2_method_comparison}~所示。 + +\begin{table}[htbp] +\centering +\caption{现有适配方法的调制对象与结构层级对比分析} +\label{tab:ch2_method_comparison} +\renewcommand{\arraystretch}{1.15} +\small +\begin{tabular}{llccc} +\toprule +\textbf{方法类别} & \textbf{代表方法} & \textbf{调制对象} & \textbf{结构层级} & \textbf{结构感知} \\ +\midrule +附加式PEFT & Adapter, Prefix & 层内瓶颈/前缀向量 & 参数级(弱结构) & 无 \\ +低秩分解 & LoRA, DoRA & 权重增量$\Delta\mathbf{W}$ & 参数级 & 无(均匀秩) \\ +动态秩分配 & AdaLoRA & 权重增量$\Delta\mathbf{W}$ & 参数级 & 层级差异 \\ +多任务路由 & MoELoRA, LoRAMoE & 专家选择与门控 & 模块级 & 任务级 \\ +梯度冲突处理 & PCGrad, CAGrad & 梯度方向 & 优化级 & 任务级 \\ +频域分解 & FourierFT, WaveletFT & 频域系数 & 频谱级 & 频段级 \\ +结构稀疏 & SHiRA, 运动剪枝 & 稀疏掩码 & 参数结构级 & 元素级 \\ +\bottomrule +\end{tabular} +\end{table} + +从表~\ref{tab:ch2_method_comparison}~可以看出,现有方法在适配机制上已覆盖了参数级、模块级、频谱级等不同层面,但存在以下三个方面的共性不足。 + +\textbf{第一,结构感知的粒度与深度有限。}多数方法仅在单一层级上引入结构差异化处理——例如AdaLoRA在层间分配不同秩、MoE方法在任务间路由不同专家——但缺乏在多个结构层级上同时进行协调的统一机制。从城市时空数据的结构复杂性来看,多任务功能异质性、位置结构依赖、多尺度动态模式以及多源容量差异可能同时存在且相互影响,单一层级的结构感知难以覆盖这种多维结构异质性。 + +\textbf{第二,方法之间缺乏统一的理论视角。}上述方法分别从参数分解、梯度优化、路由选择、频域分析等不同角度出发,各自解决某一类结构问题。然而,这些方法之间缺乏共同的形式化框架,使得不同策略难以在统一视角下进行比较、组合或递进。从表征学习的角度来看,不同层级的适配方法实际上可以被理解为对模型表示流施加不同形式的条件化调制,但这一认识在现有文献中尚未得到系统阐述。 + +\textbf{第三,与时空数据结构特征的关联不足。}现有适配方法多从通用的自然语言处理或多模态学习场景出发进行设计,其结构假设与城市时空数据的特殊结构特征之间缺乏直接关联。例如,LoRA的均匀低秩假设未考虑时空任务中不同维度承担不同频率信息编码功能的事实;MoE的路由策略未利用时空数据中多任务功能异质性的领域先验。这种"方法设计"与"数据结构"之间的脱节,限制了适配方法在复杂时空场景中的表现。 + +上述分析表明,要有效解决时空建模中的适配问题,需要建立一个能够统一刻画不同结构层级适配机制的分析框架,并据此设计与时空数据结构特征系统关联的适配方法。这正是第~\ref{sec:unified_framework}~节所建立的结构感知调制统一框架的出发点。 + + +%====================================================================== +\section{时空智能数据集与评测基础设施研究} +\label{sec:rw_benchmark} + +数据资源与实验评测体系是推动时空智能建模方法持续发展的重要基础。随着技术范式向基础模型转移,评测对象从传统的数值预测精度扩展到推理一致性、工具可执行性与跨源泛化能力。本节从数据集构建、评测范式及基础设施发展趋势等方面,对当前研究进展进行系统梳理。 + +\subsection{时空预测与分析数据集} +\label{subsec:rw_st_datasets} + +当前时空智能研究中,应用最为广泛的数据资源主要集中于交通预测领域。METR-LA与PEMS-BAY\cite{METR_LA/PEMS_BAY}提供了洛杉矶与旧金山湾区高速公路传感器网络的速度观测数据,已成为时空图神经网络研究的标准基准。PEMS系列数据集\cite{PEMSD3/7,PEMSD4/8}覆盖了加利福尼亚州不同区域与不同时段的交通流量数据。LargeST\cite{LargeST}进一步将数据规模扩展至覆盖数千个传感器的大规模场景。在轨迹与出行数据方面,纽约出租车与共享单车数据集\cite{NYCTaxi/Bike}、Foursquare签到数据\cite{Foursquare-NYC/TKY}以及Porto出租车GPS轨迹\cite{Porto}等被广泛用于出行需求预测与轨迹建模研究。 + +这些数据集的重要贡献在于为时空模型提供了标准化的实验协议与可比较的评测基准。在实验设计上,相关研究通常采用固定时间窗口划分训练集与测试集,通过均方误差(MAE)、均方根误差(RMSE)等指标评估预测性能。以交通预测为例,标准实验设置通常以过去12个时间步(1小时)的历史观测预测未来12个时间步的状态变化,模型之间的比较在统一的数据划分与评价指标下进行。这种规范化的评测协议极大地促进了时空图神经网络领域的快速发展,使研究者能够在公平条件下对比不同方法的性能。 + +在轨迹与移动性建模方面,研究者构建了包含多种任务目标的数据资源。例如,出行轨迹数据被用于轨迹恢复\cite{RNTrajRec}、下一兴趣点推荐\cite{GETNEXT}、行程时间估计\cite{TTPNet}以及地图匹配\cite{FMM}等多种任务。这些任务虽基于相似的底层数据,但在建模目标、评价方式与应用场景上存在显著差异,体现了城市时空数据"一数据多任务"的特点。 + +然而,由于任务目标集中于数值回归或序列预测,此类数据资源在评估模型的结构推理能力与复杂情境理解方面存在局限。具体而言:预测任务的评价仅关注输出数值与真实值之间的误差,无法反映模型是否真正理解了时空关系的内在逻辑;不同任务的数据集在格式规范、评价指标与实验设置上缺乏统一标准,导致跨任务的模型能力比较困难。随着大语言模型在时空领域的应用探索不断深入,需要构建能够覆盖推理、决策与工具调用等更广泛能力维度的评测资源。 + + +\subsection{面向推理与决策的时空任务数据} +\label{subsec:rw_reasoning_data} + +% 注:需补充到ref.bib: han2025poiqa (Han et al., POI-QA, arXiv 2025) +% 注:需补充到ref.bib: dihan2025mapeval (Dihan et al., MapEval, arXiv 2025) +随着时空智能研究向推理与决策支持方向拓展,一批面向结构推理能力评估的数据集相继出现。从推理要素与输入模态的角度,可将这些工作归纳为以下几类。 + +\textbf{兴趣点与轨迹推理。} +POI-QA通过清洗真实车辆轨迹与地理POI数据,构建了需要同时理解空间位置与时间上下文的双语问答任务,系统评估模型对时空条件敏感问题的回答能力\cite{}。% 注:需补充到ref.bib: han2025poiqa (Han et al., A Dataset for Spatiotemporal-Sensitive POI Question Answering, arXiv:2505.10928) +% TODO: 可补充POI-QA具体规模(418K POI、540万QA对、四级难度),为第六章铺垫 +STBench从空间理解、时间推理与时空联合推理三个维度对大语言模型进行评测\cite{STBench}。 + +\textbf{地图与空间关系推理。} +MapEval将地图推理分解为文本、API与视觉三种交互形态,评估基础模型在不同输入条件下的空间推理一致性\cite{}。% 注:需补充到ref.bib: dihan2025mapeval (Dihan et al., MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models, arXiv:2501.00316) +% 注:需补充到ref.bib: bhat2026mapverse (Bhat et al., MapVerse, arXiv 2026) +% 注:需补充到ref.bib: truong2026gpsbench (Truong et al., GPSBench, arXiv 2026) +GPSBench将坐标推理能力拆分为几何计算与世界知识两个维度\cite{}。% 注:需补充到ref.bib: truong2026gpsbench (Truong et al., GPSBench: Do Large Language Models Understand GPS Coordinates?, arXiv:2602.16105) + +\textbf{时空推理与决策规划。} +USTBench构建了交互式城市仿真环境,将时空推理能力分解为理解、预测、规划与反思四个维度进行诊断性评估\cite{USTBench}。 +% 注:需补充到ref.bib: song2025stark (Song et al., STARK, arXiv 2025) +STARK基准结合空间代数与时间逻辑框架,评估模型在复杂时空约束推理中的能力\cite{}。% 注:需补充到ref.bib: song2025stark (Song et al., Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models, arXiv:2505.11618) + +上述推理型数据集的共同特点在于:输入包含隐式的几何、拓扑或时序约束,输出要求可解释的空间关系判断或可执行计划。这使得它们能够更充分地暴露模型在结构一致性方面的不足,为评估结构感知适配方法的有效性提供了更为严格的测试场景。 + + +\subsection{城市仿真环境与智能体平台} +\label{subsec:rw_simulation} + +% 注:需补充到ref.bib: krajzewicz2012sumo (Krajzewicz et al., SUMO, 2012) +% 注:需补充到ref.bib: zhang2019cityflow (Zhang et al., CityFlow, WWW 2019) +% 注:需补充到ref.bib: yan2024opencity (Yan et al., OpenCity, arXiv 2024) +在真实城市运行环境中,系统状态持续演化并受多主体行为共同影响。仅依赖静态离线数据集难以全面评估模型在动态交互场景中的能力。 + +在传统仿真领域,SUMO作为开源交通微观仿真平台,长期为交通系统研究提供基础实验设施\cite{}。% 注:需补充到ref.bib: krajzewicz2012sumo (Krajzewicz et al., SUMO - Simulation of Urban MObility, 2012) +CityFlow则面向大规模城市交通场景提供了支持强化学习接口的高性能仿真环境\cite{}。% 注:需补充到ref.bib: zhang2019cityflow (Zhang et al., CityFlow: A Multi-Agent Reinforcement Learning Environment for Large Scale City Traffic Scenario, WWW 2019) +近年来,随着大语言模型智能体概念的兴起,面向城市场景的LLM智能体仿真平台开始出现。OpenCity通过系统优化与提示工程,实现了大规模LLM智能体的城市活动仿真\cite{}。% 注:需补充到ref.bib: yan2024opencity (Yan et al., OpenCity: A Scalable Platform to Simulate Urban Activities with Massive LLM Agents, arXiv:2410.21286) +CityBench将交通预测、出行需求估计等多种城市任务纳入统一评测框架,支持对不同模型在多任务场景下的系统性能比较\cite{CityBench}。 + +在面向模型开发的研究基础设施方面,LibCity\cite{Libcity}与DL-Traff\cite{Dl-traff}提供了标准化的数据处理流程与统一的模型评价接口,覆盖了包括交通速度预测、流量预测、轨迹恢复及行程时间估计在内的多类时空任务;TorchSpatial\cite{Torchspatial}则进一步将时空建模任务纳入模块化的实验框架,支持灵活的模型组合与实验配置。这些平台在促进实验可复现性与方法公平比较方面发挥了重要作用。然而,随着研究领域的快速发展,新模型与新数据集的持续涌现对平台的可扩展性提出了更高要求。现有平台在模型收录的持续性、评测流程的自动化程度以及跨平台实验结果的可比性方面仍存在提升空间。特别是,当评测对象从传统的预测模型扩展到大语言模型时,现有平台的任务组织方式与评测协议需要进行相应的适配与升级。 + + +\subsection{现有评测体系的局限性} +\label{subsec:rw_benchmark_limits} + +综合来看,当前时空智能评测体系虽在快速发展中,但仍存在若干不足,主要体现在以下方面。 + +\textbf{(1)任务形态覆盖不足。}多数评测仍以离线数值预测为主要验证方式,对推理一致性、工具调用可执行性及多步决策能力的评估较少。CityBench\cite{CityBench}与MapEval等工作的出现表明社区已意识到这一缺口,但覆盖范围仍有限。 + +\textbf{(2)评测协议缺乏统一标准。}不同数据集与评测平台在数据划分方式、评价指标选择以及实验设置方面差异较大,导致实验结果难以形成统一的比较基准。现有评测框架多依赖人工维护,在可扩展性与持续更新能力方面存在不足。 + +\textbf{(3)时空敏感的推理评测资源不足。}现有问答类数据集在空间与时间信息的联合建模方面仍较为有限,缺乏同时包含精确空间位置信息与时间上下文、且对时空条件变化敏感的大规模评测语料。 + +\textbf{(4)方法评测与系统评测尚未形成闭环。}在方法层面提出的适配策略,往往缺乏在统一且具有持续性的评测框架下进行系统验证的条件。从方法设计到实验验证再到工程应用之间的链路尚不完整。 + +上述局限表明,构建能够支持多任务、多阶段验证以及持续更新的评测基础设施,对于推动时空智能建模方法的系统化研究具有重要意义。这也为本文第六章构建面向时空智能的评测体系提供了直接动机。 + + +%====================================================================== +\section{本章小结} +\label{sec:rw_summary} + +本章围绕城市时空数据建模与基础模型适配问题,对相关领域的研究现状进行了系统梳理。 + +在时空建模方面,方法演进由传统统计建模经历深度时空表征学习,逐步走向以基础模型为代表的通用表示构建路径。传统时空统计方法在可解释性与不确定性建模方面具有学理优势,其建立的空间依赖、时间非平稳性与层次化不确定性等概念,为后续深度表征学习中归纳偏置的设计提供了理论先导。以图神经网络与Transformer为代表的深度方法通过端到端学习显著提升了复杂模式建模能力,形成了覆盖栅格建模、图结构建模与长序列建模的完整方法体系。然而,这些方法多围绕单一任务进行设计,在多任务协同与跨场景迁移方面仍面临泛化能力不足的问题。大语言模型的引入为统一建模提供了新路径,但现有探索多停留在输入对齐与格式转换层面,对模型内部表示结构与时空数据特征之间的协调关注不足。 + +在适配方法方面,参数高效微调技术在降低适配成本的同时保持了较好的任务性能,已成为主流技术路径。然而,如第~\ref{subsec:rw_peft_discussion}~节的对比分析所示,现有方法在结构感知的粒度与深度、理论统一性以及与时空数据结构的关联等方面仍存在系统性不足。具体而言:LoRA等方法默认在模型各层与各投影矩阵上施加均匀的低秩约束,未能利用模型内部的结构角色差异;多任务路由机制揭示了模块级功能分化的必要性,但缺乏与时空任务结构特征的系统关联;表示各向异性与位置编码分析揭示了维度级功能差异的存在,但尚未被有效转化为适配机制的设计依据;频谱偏置与多尺度建模方法表明参数更新本身具有频谱级结构特性,但现有频域PEFT方法多采用单一变换基,缺乏跨频段的信息传递机制。上述研究从不同角度为结构感知的非均匀适配提供了理论与实证基础,但各方法之间缺乏统一的形式化框架加以整合。 + +在评测体系方面,现有研究虽积累了丰富的数据资源与实验经验,但在任务形态覆盖、评测协议统一性以及方法-系统闭环等方面仍存在改进空间。特别是缺乏面向时空敏感推理的大规模评测资源,以及支持持续更新与多阶段评估的基础设施。这些不足限制了适配方法在接近实际应用环境的条件下得到系统验证。 + +综上所述,当前研究在以下三个方面存在进一步探索空间:(1)如何在统一框架下刻画并利用模型内部的结构角色差异;(2)如何从模块级、维度级、频谱级与参数级等多个层面设计结构感知的适配机制;(3)如何构建支撑复杂时空任务验证的评测基础设施,形成方法-数据-系统闭环。后续各章将分别从模块级(第三章)、维度级(第四章)、频谱级与参数级(第五章)以及评测基础设施(第六章)等层面,对第~\ref{sec:unified_framework}~节提出的统一分析框架进行逐层实例化与实验验证。 diff --git a/chap03.tex b/chap03.tex new file mode 100644 index 0000000..02d0670 --- /dev/null +++ b/chap03.tex @@ -0,0 +1,1025 @@ +% 第三章 模块角色感知的多任务时空表征学习方法 +\chapter{模块角色感知的多任务时空表征学习方法} +\label{chap:hycam} + +\section{本章概述} +\label{sec:ch3_overview} + +第一章建立了基于结构感知调制的统一分析框架(式~\ref{eq:ch1_unified_M}),将时空数据在大语言模型不同层级所诱导的结构差异归纳为四类结构异质性,并统一刻画为乘性调制、组合式调制与结构分解调制三种基本形式。在该统一框架下,不同方法可理解为针对特定结构角色描述符$\mathcal{R}$的具体实例化。本章作为方法体系的第一部分,聚焦于\emph{模块级功能异质性}($\mathcal{R}_{mod}$)。 + +在城市多任务时空建模场景中,模型需要在统一表示空间内同时刻画多任务共享规律与任务特有结构,这对模型内部不同计算模块的协同方式提出了更高要求。从表示机制来看,Transformer架构中的自注意力模块与前馈网络模块在功能上存在显著差异:自注意力模块主要负责输入上下文之间的依赖建模与信息整合,而前馈网络模块则更多承担参数化知识表达与非线性映射功能。这种功能分工使得不同模块在表征学习过程中承担不同的结构角色。 + +然而,现有适配方法通常采用均匀式参数更新或统一形式的表示调制策略,将不同模块视为等价的可调对象。该类方法一方面可能对预训练模型中已形成的知识结构产生干扰,另一方面也难以针对承担关键表征功能的模块进行有效调控,从而限制模型在复杂多任务时空场景中的适配能力。 + +针对上述问题,本章从模块级结构角色差异出发,研究基于表示流调制的结构感知适配方法。在统一框架下,该问题可表述为:在$\mathcal{R}_{mod}$约束下,构造依赖于输入与任务条件的调制算子$\mathcal{M}_\theta$,以对自注意力表示进行差异化调控。对应地,本章方法属于乘性调制形式(式~\ref{eq:ch1_multiplicative}),通过对注意力表示流施加输入条件化的门控信号,实现对关键信息通道的选择性增强与抑制。 + +在具体实现上,本章首先构建上下文注意力调制(Contextual Attention Modulation, CAM)机制,通过通道级乘性调制对自注意力输出进行输入依赖的动态调整;在此基础上,进一步构建混合上下文注意力调制框架(Hybrid Contextual Attention Modulation, HyCAM),通过共享调制模块与任务特有调制模块的结构组合,并结合动态路由机制,在统一模型中实现跨任务知识共享与任务特定表达之间的协调。 + +本章后续安排如下:第~\ref{sec:ch3_problem}~节分析城市多任务时空建模中的模块级结构异质性问题;第~\ref{sec:ch3_cam_mechanism}~节介绍基于模块角色感知的表示流调制机制;第~\ref{sec:ch3_hycam}~节给出混合上下文注意力调制框架;第~\ref{sec:ch3_routing}~节介绍动态路由与协同训练机制;第~\ref{sec:ch3_experiments}~节进行实验验证与结果分析;第~\ref{sec:ch3_summary}~节对本章内容进行总结。 + +\section{多任务时空建模问题与结构分析} +\label{sec:ch3_problem} + +\subsection{城市多任务时空建模的研究背景} +\label{subsec:ch3_background} + +城市系统本质上是由人、地、设施、交通、事件与服务等多类实体耦合形成的复杂开放系统,其运行过程伴随着持续产生的多源时空数据。随着城市数字化基础设施与智能感知体系的不断完善,围绕城市治理、公共服务、交通调度、空间规划与城市计算所形成的建模任务,正在从传统单任务分析逐步转向面向统一城市智能体的多任务协同建模范式。典型任务包括城市问答与知识检索、时空事件理解、地点语义识别、行为模式分析、城市功能分类、交通状态预测以及基于复杂上下文的决策支持等。 + +与一般文本任务不同,城市多任务时空建模具有更强的结构复杂性。首先,不同任务虽然在表面目标上存在差异,但往往共享同一城市系统中的实体知识、语义关系与行为规律。例如,地点问答任务依赖位置实体之间的关系理解,轨迹语义分析依赖区域功能与时段模式知识,而城市事件解释则需要同时融合空间邻近性、时间先后关系与社会语义背景。其次,不同任务对模型内部表示的需求并不一致:有些任务更强调局部语境对齐,有些任务更依赖长程依赖建模,还有些任务则更需要对少量关键上下文线索进行精细选择。这意味着,城市多任务时空建模不仅是多个目标函数的并列优化问题,更是一个关于\emph{如何在共享预训练知识基础上进行结构化上下文重组}的问题。 + +大语言模型经过大规模语料预训练后,已经具备较强的通用知识记忆与上下文推理能力,因此为城市多任务时空建模提供了新的技术路径。相比传统时空模型,大语言模型能够在统一表示空间内处理异构任务,并通过指令化输入自然支持问答、推理、生成与解释等复杂目标。然而,这种能力并不意味着模型能够直接适配复杂城市任务。一方面,通用预训练知识与具体城市任务之间存在明显的语义与结构落差;另一方面,若直接采用传统全参数微调方式,这种数据知识偏差会使模型优化时容易破坏既有预训练结构,导致灾难性遗忘、任务干扰与适配不稳定等问题。因此,如何在保留预训练基础能力的同时,使模型对城市多任务时空上下文形成更细粒度、更具针对性的响应机制,成为本章关注的核心问题。 + +\subsection{城市多任务时空建模中的模块级结构异质性} +\label{subsec:ch3_module_hetero} + +从第~\ref{sec:unified_framework} 节所提出的统一分析框架出发,本文认为,大语言模型在适配时空任务时面临的关键困难之一,在于其内部不同功能模块并非同质、等价地参与任务建模,而是具有显著的\emph{结构角色异质性}。具体到 Transformer 架构,不同子模块在表征生成过程中承担不同的功能角色:自注意力模块侧重于建模输入上下文之间的依赖关系,负责动态组织、选择与融合时序和语义线索;前馈网络(FFN)则更多承担参数化知识存储与非线性映射功能,形成模型的静态知识基础。 + +对于城市时空任务而言,这种差异尤为重要。城市多任务场景中的输入通常包含地点、时间、实体关系、事件描述、用户意图与背景语义等复合信息。模型能否正确完成任务,很大程度上并不只取决于其是否“记住”了某类知识,更取决于其能否在具体上下文中\emph{动态组织这些知识},并将注意力聚焦于与当前任务目标最相关的时空线索之上。换言之,问题的关键不完全是“增加任务知识”,而更在于“重新组织知识与上下文之间的匹配方式”。 + +从这一视角出发,若采用均匀式适配策略,将所有模块都视为等价可调对象,则可能带来两类问题。第一,过度更新 FFN 等参数规模较大的知识承载模块,会改变预训练阶段已形成的通用知识分布,增加灾难性遗忘风险。第二,若缺乏对自注意力上下文组织机制的定向调节,则模型即便保留了知识,也可能无法在复杂多任务场景中正确选择与整合这些知识,从而表现为任务间干扰、泛化能力不足与适配效率下降。因此,从模块级结构异质性的角度出发,面向城市多任务时空建模的高效适配,更合理的路径应当是:在尽量保持预训练知识主体结构稳定的前提下,重点对上下文组织路径进行有针对性的调制。 + +\subsection{从均匀适配到结构感知调制} +\label{subsec:ch3_uniform_to_aware} + +现有全参数微调与多数参数高效微调方法,本质上大多采用某种形式的均匀适配思想,即默认模型内部所有参数或所有目标层具有相近的适配地位,仅通过统一的增量更新方式来完成任务迁移。然而,在城市多任务时空场景中,不同任务之间既存在共享的城市常识、空间语义与时序规律,又存在对特定上下文结构的差异化偏好。例如,城市问答任务可能更依赖局部实体关系的精细选择,城市事件解释任务更强调长程上下文整合,而交通语义分析类任务则更关注周期性模式与条件依赖。这些任务需求并不是通过统一的低秩增量便可充分表达的。 + +基于此,本章延续第~\ref{sec:unified_framework} 节建立的统一建模视角,认为更合理的适配方式应当是引入\emph{结构感知的非均匀调制}:不再对模型内部所有部分施加同质更新,而是根据不同模块的结构角色,对更适合承担时空任务适配职责的表示流进行定向调控。在本章中,所关注的结构角色记为 +\begin{equation} +\mathcal{R}_{mod}, +\label{eq:ch3_module_role} +\end{equation} +其对应于 Transformer 中模块级功能角色差异,尤其是自注意力模块与前馈网络模块在知识存储、上下文整合与任务适配中的不同作用。 + +在这一基础上,本章首先将第~\ref{sec:unified_framework} 节提出的统一结构感知调制算子在模块级场景下实例化为: +\begin{equation} +\tilde{\mathbf{H}}_{att}^{(\ell)} += +\mathcal{M}_{\theta}^{mod} +\Big( +\mathbf{H}_{att}^{(\ell)};\, +\mathbf{X},\, +\mathcal{R}_{mod} +\Big), +\label{eq:ch3_unified_modulation} +\end{equation} +其中,$\mathbf{X}$ 表示输入时空样本或时空指令序列,$\mathbf{H}_{att}^{(\ell)}$ 表示第 $\ell$ 层自注意力模块的输出表示,$\mathcal{M}_{\theta}^{mod}$ 表示面向模块角色异质性的结构感知调制算子,而 $\tilde{\mathbf{H}}_{att}^{(\ell)}$ 则是调制后的上下文表示。该公式表明,本章方法并不直接重写整个模型的参数空间,而是在保留骨干模型 $\Theta_0$ 主体稳定的前提下,对承担上下文组织功能的注意力表示流进行输入条件化调制。 + +在具体实现上,本章将这种模块级调制设计为一种乘性残差调制机制,即通过上下文驱动的调制信号,对自注意力输出表示中的关键维度进行增强或抑制,从而改变信息流在后续层中的传播方式。其核心思想是:若预训练模型已经具备较强的通用知识,则多任务适配的关键不一定是重写知识本身,而更在于改变\emph{知识被调用、组织与融合的方式}。这一思想构成了本章所提出方法 HyCAM 的理论出发点。 + +\subsection{本章研究目标与技术路线} +\label{subsec:ch3_goal} + +基于上述分析,本章聚焦于城市多任务时空建模中的模块级异质性问题,主要关注以下三个方面: + +第一,在大语言模型适配城市多任务场景时,是否可以通过优先调制自注意力表示流而非大规模修改骨干参数,获得更优的知识保持与任务适配平衡? + +第二,在多任务建模中,如何同时兼顾跨任务共享知识与任务特有模式,使模型能够在统一框架中实现共享与专用能力的协同? + +第三,在面向多种城市任务的联合建模过程中,如何通过动态路由机制使不同适配分支获得更合理的使用,从而缓解任务冲突与专家塌缩问题? + +围绕这些问题,本章提出一种模块角色感知的多任务时空表征学习方法,其总体技术路线如图~\ref{fig:ch3_framework} 所示(图为占位,后续可根据论文总图风格统一重绘)。该方法首先构造上下文注意力调制机制(Contextual Attention Modulation, CAM),对每层自注意力输出进行输入条件化调制;随后,在此基础上进一步提出混合式上下文注意力调制框架(Hybrid Contextual Attention Modulation, HyCAM),通过“共享 CAM + 专用 CAM + 动态路由”的结构实现多任务协同建模。整体上,本章的方法可统一理解为一种\emph{模块角色感知的表示流调制方法},它为后续第四章从维度级进一步研究位置结构与表示各向异性问题提供了基础。 + +\begin{figure}[htp] + \centering + \includegraphics[width=0.82\linewidth]{assets/3_model.pdf} + \caption{模块角色感知的多任务时空表征学习总体框架示意图。} + \label{fig:ch3_framework} +\end{figure} + +\section{模块角色感知的表示流调制机制} +\label{sec:ch3_cam_mechanism} + +\subsection{问题形式化} +\label{subsec:ch3_formulation} + +在城市多任务时空建模场景下,设训练数据集为 +\begin{equation} +\mathcal{D} += +\left\{ +(\mathbf{X}_i,\mathbf{Y}_i,\tau_i) +\right\}_{i=1}^{N}, +\label{eq:ch3_dataset} +\end{equation} +其中,$\mathbf{X}_i$ 表示第 $i$ 个输入样本,可由地点序列、事件描述、时间提示、空间关系文本、指令模板及其他结构化时空上下文组成;$\mathbf{Y}_i$ 表示对应的目标输出;$\tau_i \in \mathcal{T}$ 表示该样本所属的任务类型,$\mathcal{T}$ 为任务集合。对于城市多任务场景,$\mathcal{T}$ 可对应于城市问答、时空推理、地点语义生成、事件解释、辅助决策等不同子任务。骨干大语言模型的预训练参数记为 $\Theta_0$,本章的适配参数记为 $\Theta_a$,则最终模型可统一写为 +\begin{equation} +\Theta = \Theta_0 + \Delta \Theta(\Theta_a), +\label{eq:ch3_theta_decompose} +\end{equation} +其中 $\Delta \Theta(\Theta_a)$ 并非对全部参数的均匀更新,而是由模块角色感知调制结构所诱导的有效增量。 + +给定输入序列 $\mathbf{X} = (x_1,\dots,x_T)$,在第 $\ell$ 层 Transformer 中,隐藏表示记为 +\begin{equation} +\mathbf{H}^{(\ell)} \in \mathbb{R}^{T \times d}, +\label{eq:ch3_hidden} +\end{equation} +其中 $T$ 为序列长度,$d$ 为隐藏维度。采用预归一化 Transformer 时,输入到自注意力模块的归一化表示为 +\begin{equation} +\bar{\mathbf{H}}^{(\ell)} += +\mathrm{LayerNorm}\!\left(\mathbf{H}^{(\ell)}\right). +\label{eq:ch3_norm} +\end{equation} +标准自注意力输出表示可写为 +\begin{equation} +\mathbf{H}_{att}^{(\ell)} += +\mathrm{SelfAttn}\!\left(\bar{\mathbf{H}}^{(\ell)}\right). +\label{eq:ch3_attn_output} +\end{equation} + +本章关注的核心问题并非直接重构 $\mathbf{H}_{att}^{(\ell)}$,而是在保持其基础结构不变的前提下,基于输入上下文生成调制信号对其进行结构感知修正,从而得到适于当前任务的表示流: +\begin{equation} +\tilde{\mathbf{H}}_{att}^{(\ell)} += +\mathbf{H}_{att}^{(\ell)} ++ +\mathbf{H}_{att}^{(\ell)} \odot +\mathbf{S}_{\theta}^{mod} +\!\left( +\bar{\mathbf{H}}^{(\ell)}, \mathbf{X}, \mathcal{R}_{mod} +\right), +\label{eq:ch3_mod_general} +\end{equation} +其中 $\odot$ 表示 Hadamard 逐元素乘法,$\mathbf{S}_{\theta}^{mod}(\cdot)$ 表示模块角色感知的调制信号生成函数。式~\eqref{eq:ch3_mod_general} 是本章方法最基本的形式化表达,它说明 HyCAM 作用的对象并非整个隐藏空间,而是\emph{自注意力输出表示流}本身。 + +\subsection{模块角色差异与注意力表示流的适配价值} +\label{subsec:ch3_attn_value} + +之所以选择自注意力模块作为核心调制对象,原因在于其在预训练语言模型中承担着比 FFN 更直接的上下文组织职责。FFN 虽然在参数规模上占据主导地位并承载预训练知识,但其作用更接近于位置独立的非线性变换。相比之下,自注意力模块通过 Query、Key、Value 之间的交互显式建模不同 token 间的依赖关系,是输入上下文信息聚合与任务相关证据选择的关键场所。 + +在城市时空任务中,这一点尤为关键。例如,当输入涉及“某时间段内某区域附近设施与事件的关系”时,模型需要从多个地点、实体、时间表达中选择与任务最相关的线索,并依据任务意图动态调整不同上下文成分的重要性。若仍沿用均匀式参数更新,则模型往往只能通过低效的全局增量来“间接”修正上下文组织方式;而若直接在注意力输出处引入调制,则能够更直接地改变上下文信息的流向与组合方式。因此,从结构角色层面看,自注意力模块是实现任务专门化与知识保持平衡的更优切入点,提供了更直接、可控的上下文组织调节点。 + +从表示学习角度进一步理解,$\mathbf{H}_{att}^{(\ell)}$ 并不是静态知识本体,而是\emph{在当前上下文条件下对知识进行组织后的中间结果}。因此,对 $\mathbf{H}_{att}^{(\ell)}$ 施加适度、输入驱动的调制,本质上是在改变模型对已有知识的调用模式,而非粗暴覆盖预训练知识本身。这一差异使得本章方法天然更适合用于多任务场景:不同任务可以通过不同调制模式,选择性地突出最有用的上下文特征,而共享的预训练知识底座则得以较好保留。 + +\subsection{模块级结构调制的统一表达} +\label{subsec:ch3_unified_mod} + +结合第~\ref{sec:unified_framework} 节提出的统一调制框架,本章将模块级异质性建模为一种乘性调制形式。设本章的调制对象为 +\begin{equation} +\mathbf{Z}^{(\ell)} = \mathbf{H}_{att}^{(\ell)}, +\label{eq:ch3_Z} +\end{equation} +则结构角色感知调制算子可具体实例化为 +\begin{equation} +\mathcal{M}_{\theta}^{mod} +\Big( +\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R}_{mod} +\Big) += +\mathbf{Z}^{(\ell)} \odot +\mathbf{S}_{\theta}^{mod} +\Big( +\bar{\mathbf{H}}^{(\ell)},\mathbf{X},\mathcal{R}_{mod} +\Big), +\label{eq:ch3_mod_operator} +\end{equation} +从而式~\eqref{eq:ch3_unified_modulation} 可改写为 +\begin{equation} +\tilde{\mathbf{H}}_{att}^{(\ell)} += +\mathbf{H}_{att}^{(\ell)} ++ +\mathcal{M}_{\theta}^{mod} +\Big( +\mathbf{H}_{att}^{(\ell)};\mathbf{X},\mathcal{R}_{mod} +\Big). +\label{eq:ch3_mod_residual} +\end{equation} + +式~\eqref{eq:ch3_mod_operator} 和式~\eqref{eq:ch3_mod_residual} 的意义在于,它们为本章后续方法提供了统一的理论骨架。具体而言,后续 CAM 将给出 $\mathbf{S}_{\theta}^{mod}$ 的具体参数化形式,从而将上述抽象调制算子实例化为可学习的上下文调制机制;HyCAM 则在 CAM 之上进一步引入共享与专用调制分支,并通过动态路由完成多任务知识融合。也正因为本章方法是对注意力表示流进行模块角色感知调制,因此其在全文方法体系中的定位可概括为:\emph{模块级异质性驱动的表示流适配}。这一点与下一章从表示维度和位置结构角度研究各向异性调制的方法形成自然递进。 + +\section{混合上下文注意力调制框架} +\label{sec:ch3_hycam} + +\subsection{上下文注意力调制机制} +\label{subsec:ch3_cam_basic} + +为实现式~\eqref{eq:ch3_mod_general} 所刻画的模块级调制形式,本章对调制信号生成函数 $\mathbf{S}_{\theta}^{mod}(\cdot)$ 进行具体参数化,构建上下文注意力调制机制(Contextual Attention Modulation, CAM)。该机制在每一层 Transformer 中基于归一化输入表示 $\bar{\mathbf{H}}^{(\ell)}$ 生成逐元素调制信号,并作用于自注意力输出 $\mathbf{H}_{att}^{(\ell)}$,从而实现对上下文相关信息的选择性增强与抑制。 + +设第 $\ell$ 层输入隐藏状态为 $\mathbf{H}^{(\ell)}$,则其归一化表示已经由式~\eqref{eq:ch3_norm} 给出。基于该表示,调制信号通过如下映射生成: +\begin{equation} +\mathbf{A}_{CAM}^{(\ell)} += +\mathrm{SiLU} +\left( +\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{proj}^{(\ell)} +\right), +\label{eq:ch3_cam_weight} +\end{equation} +其中, +\begin{equation} +\mathbf{W}_{proj}^{(\ell)} \in \mathbb{R}^{d \times d} +\label{eq:ch3_cam_proj} +\end{equation} +为可训练投影矩阵,$\mathrm{SiLU}(\cdot)$~\cite{elfwing2018sigmoid} 为非线性激活函数。由此得到的 $\mathbf{A}_{CAM}^{(\ell)} \in \mathbb{R}^{T \times d}$ 为逐 token、逐维度的调制信号。随后,CAM 将其施加于注意力输出表示上,得到调制后的输出: +\begin{equation} +\tilde{\mathbf{H}}_{att}^{(\ell)} += +\mathbf{H}_{att}^{(\ell)} ++ +\mathbf{H}_{att}^{(\ell)} \odot \mathbf{A}_{CAM}^{(\ell)}. +\label{eq:ch3_cam_output} +\end{equation} + +由式~\eqref{eq:ch3_cam_weight} 与式~\eqref{eq:ch3_cam_output} 可知,CAM 对自注意力输出施加输入依赖的逐元素门控,从而实现对表示流的残差式调制。该形式对应于式~\eqref{eq:ch3_mod_operator} 中调制算子的具体参数化实现,其中调制信号由 $\bar{\mathbf{H}}^{(\ell)}$ 动态生成,使模型能够针对不同输入样本自适应地改变上下文组织方式。 + +\subsection{初始化与训练稳定性设计} +\label{subsec:ch3_cam_init} + +在微调初期,若新引入的调制模块对预训练模型产生过强干预,则容易破坏原有表示分布,导致训练不稳定甚至引发性能显著退化。为保证训练稳定性,CAM 采用零初始化策略,即将投影矩阵 $\mathbf{W}_{proj}^{(\ell)}$ 初始设为零矩阵: +\begin{equation} +\mathbf{W}_{proj}^{(\ell)} = \mathbf{0}. +\label{eq:ch3_zero_init} +\end{equation} +在该初始化下,由式~\eqref{eq:ch3_cam_weight} 可知,训练开始时 +\begin{equation} +\mathbf{A}_{CAM}^{(\ell)} \approx \mathbf{0}, +\label{eq:ch3_init_acam} +\end{equation} +从而式~\eqref{eq:ch3_cam_output} 退化为 +\begin{equation} +\tilde{\mathbf{H}}_{att}^{(\ell)} +\approx +\mathbf{H}_{att}^{(\ell)}. +\label{eq:ch3_identity_start} +\end{equation} +这意味着 CAM 在训练初期近似保持恒等映射,不会改变预训练模型的原始行为,并在训练过程中逐步学习对表示流的有效调制,从而兼顾训练稳定性与知识保持能力。 + +在城市多任务场景中,这一设计尤为重要。由于不同任务共享同一预训练骨干模型,若某一任务在训练早期对模型施加过强更新,往往会对其他任务可用的通用知识造成损害。零初始化策略在一定程度上抑制了这种早期干扰,使不同任务的影响更多体现在对上下文组织方式的渐进式修正上,而非对模型知识底座的立即重写。 + +\subsection{共享与专用调制的协同设计} +\label{subsec:ch3_cam_to_hycam} + +上述 CAM 机制对应于调制信号生成函数 $\mathbf{S}_{\theta}^{mod}$ 的单一参数化形式。为同时建模跨任务共享模式与任务特有模式,本章将该调制过程扩展为多分支结构,构建混合上下文注意力调制框架(Hybrid Contextual Attention Modulation, HyCAM)。在该框架下,调制信号由共享分支与多个专用分支共同生成,并通过动态路由机制进行组合。共享分支用于建模跨任务稳定存在的上下文调制模式,专用分支用于刻画任务相关或上下文相关的差异性调制结构。 + +HyCAM 的本质仍然遵循式~\eqref{eq:ch3_mod_residual} 的统一母式,只是将调制信号 $\mathbf{S}_{\theta}^{mod}$ 的生成方式从单一映射扩展为多分支组合生成。 + +\subsection{共享调制模块} +\label{subsec:ch3_shared_cam} + +共享 CAM 模块用于建模跨任务共享的上下文调制模式,例如一般性的实体对齐模式、语义匹配结构、时间条件约束的基础表达以及城市语义理解中常见的共性线索。设第 $\ell$ 层共享 CAM 的投影矩阵为 +\begin{equation} +\mathbf{W}_{sh}^{(\ell)} \in \mathbb{R}^{d \times d}, +\label{eq:ch3_shared_proj} +\end{equation} +则共享调制信号定义为 +\begin{equation} +\mathbf{A}_{sh}^{(\ell)} += +\mathrm{SiLU} +\left( +\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{sh}^{(\ell)} +\right). +\label{eq:ch3_shared_cam} +\end{equation} + +共享 CAM 模块采用全参数形式,其原因在于该分支承担的是跨任务共性模式的建模职责,需要具有相对充分的表达能力,以便在不同任务之间形成稳定共享的表示流调制基础。该分支在所有任务间共享参数,从而形成稳定的全局调制基准。 + +\subsection{专用调制模块} +\label{subsec:ch3_spec_cam} + +与共享 CAM 相对,专用 CAM 模块旨在建模任务差异性更强的上下文调制模式。例如,不同城市任务可能对上下文依赖范围、关键线索类型与局部模式选择具有不同偏好:时空问答更注重实体关系和条件约束,城市事件生成更强调长程语义结构,代码或规则生成类任务则对符号化依赖更为敏感。因此,引入 $N_s$ 个专用调制模块以刻画不同潜在模式。 + +设专用 CAM 模块的个数为 $N_s$,第 $k$ 个专用模块在第 $\ell$ 层的调制信号定义为 +\begin{equation} +\mathbf{A}_{sp,k}^{(\ell)} += +\mathrm{SiLU} +\left( +\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{sp,k}^{(\ell)} +\right), +\quad +k = 1,\dots,N_s. +\label{eq:ch3_spec_cam} +\end{equation} +其中,$\mathbf{W}_{sp,k}^{(\ell)}$ 采用带中间映射矩阵的低秩参数化形式~\cite{guo2025nlora},以在保持表达能力的同时降低参数量: +\begin{equation} +\mathbf{W}_{sp,k}^{(\ell)} += +\mathbf{B}_{k}^{(\ell)} +\mathbf{N}_{k}^{(\ell)} +\mathbf{A}_{k}^{(\ell)}, +\label{eq:ch3_slora} +\end{equation} +其中 +\begin{equation} +\mathbf{A}_{k}^{(\ell)} \in \mathbb{R}^{r \times d}, +\quad +\mathbf{N}_{k}^{(\ell)} \in \mathbb{R}^{r \times r}, +\quad +\mathbf{B}_{k}^{(\ell)} \in \mathbb{R}^{d \times r}, +\label{eq:ch3_slora_shape} +\end{equation} +且 $r \ll d$。这种结构相较于标准 LoRA 的两矩阵分解引入额外的低维变换 $\mathbf{N}_{k}^{(\ell)}$,从而在较小参数预算下提升专用模块的表示灵活性。 + +为保证训练初期的稳定性,专用模块同样采用保守初始化策略。具体而言,$\mathbf{A}_{k}^{(\ell)}$ 与 $\mathbf{N}_{k}^{(\ell)}$ 可采用 Kaiming 初始化~\cite{he2015delving},而 $\mathbf{B}_{k}^{(\ell)}$ 采用零初始化: +\begin{equation} +\mathbf{B}_{k}^{(\ell)} = \mathbf{0}. +\label{eq:ch3_spec_zero} +\end{equation} +因此在训练初期,专用模块近似不对骨干模型产生显著影响,并在训练过程中逐步形成各自的专门化调制方向。 + +\section{动态路由与协同训练机制} +\label{sec:ch3_routing} + +\subsection{动态路由的设计动机} +\label{subsec:ch3_routing_motivation} + +在 HyCAM 中,共享 CAM 提供跨任务的公共调制基础,而多个专用 CAM 则提供潜在的任务特化能力。然而,仅有多个专用分支并不足以自动形成有效的多任务协同。其根本原因在于:不同输入样本所对应的任务结构、上下文模式和难点位置并不相同,因此各专用分支对不同样本的重要性也必然不同。若简单地平均融合所有专用 CAM,则模型难以形成明确的功能分工;若为每个任务静态绑定固定专家,又会削弱对任务内部异质性与输入级细粒度差异的适应能力。 + +城市多任务时空场景尤其需要动态路由。即便同属于“城市问答”任务,不同样本也可能分别强调空间邻近关系、时间顺序关系、设施属性关系或常识推断关系。静态分配无法充分表达这种输入级差异。因此,HyCAM 引入基于输入上下文的软路由机制,对专用 CAM 的贡献进行逐 token 或逐样本的动态加权,从而实现更细粒度的知识调用。 + +\subsection{基于输入上下文的路由权重生成} +\label{subsec:ch3_router_weight} + +设第 $\ell$ 层的路由器参数为 +\begin{equation} +\mathbf{W}_{router}^{(\ell)} \in \mathbb{R}^{d \times N_s}, +\label{eq:ch3_router_param} +\end{equation} +则根据归一化后的输入表示 $\bar{\mathbf{H}}^{(\ell)}$,可生成第 $\ell$ 层的路由 logits: +\begin{equation} +\mathbf{\Pi}^{(\ell)} += +\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{router}^{(\ell)}, +\label{eq:ch3_router_logits} +\end{equation} +其中 $\mathbf{\Pi}^{(\ell)} \in \mathbb{R}^{T \times N_s}$,其第 $t$ 个 token 对应的第 $k$ 个专家 logit 记为 $\pi_{t,k}^{(\ell)}$。为了在保持可微性的同时鼓励离散化选择,本章采用 Gumbel-Softmax~\cite{jang2016categorical} 机制生成软路由权重: +\begin{equation} +p_{t,k}^{(\ell)} += +\frac{ +\exp\left( +(\log \pi_{t,k}^{(\ell)} + g_{t,k}^{(\ell)}) / \tau +\right) +}{ +\sum_{j=1}^{N_s} +\exp\left( +(\log \pi_{t,j}^{(\ell)} + g_{t,j}^{(\ell)}) / \tau +\right) +}, +\label{eq:ch3_gumbel} +\end{equation} +其中 $g_{t,k}^{(\ell)} \sim \mathrm{Gumbel}(0,1)$ 为 Gumbel 噪声,$\tau$ 为温度系数。温度较小时,权重分布更尖锐,更接近离散专家选择;温度较大时,分布更平滑,有利于训练早期稳定探索。 + +式~\eqref{eq:ch3_gumbel} 使得 HyCAM 可以根据输入上下文对专用模块进行自适应加权。进一步地,这种路由不是直接作用于模型最终输出,而是作用于注意力调制信号的融合,因此其本质是在输入依赖条件下\emph{动态选择不同的上下文组织方式},而不是简单切换不同解码器或任务头。这也是 HyCAM 能够兼顾统一骨干建模与多任务灵活适配的重要原因。 + +\subsection{共享与专用调制信号的融合} +\label{subsec:ch3_fusion} + +在获得共享 CAM 与专用 CAM 的调制信号之后,HyCAM 将其进行融合,形成最终的模块级调制张量。第 $\ell$ 层的融合调制信号定义为 +\begin{equation} +\mathbf{A}_{fusion}^{(\ell)} += +\mathbf{A}_{sh}^{(\ell)} ++ +\sum_{k=1}^{N_s} +\mathbf{P}_{k}^{(\ell)} \odot \mathbf{A}_{sp,k}^{(\ell)}, +\label{eq:ch3_fusion} +\end{equation} +其中 $\mathbf{P}_{k}^{(\ell)}$ 表示第 $k$ 个专用 CAM 的广播路由权重张量,其由式~\eqref{eq:ch3_gumbel} 生成的 $p_{t,k}^{(\ell)}$ 按维度扩展得到,以便与 $\mathbf{A}_{sp,k}^{(\ell)} \in \mathbb{R}^{T \times d}$ 做逐元素乘积。由此,第 $\ell$ 层经 HyCAM 调制后的注意力输出表示为 +\begin{equation} +\tilde{\mathbf{H}}_{att}^{(\ell)} += +\mathbf{H}_{att}^{(\ell)} ++ +\mathbf{H}_{att}^{(\ell)} \odot \mathbf{A}_{fusion}^{(\ell)}. +\label{eq:ch3_hycam_output} +\end{equation} + +式~\eqref{eq:ch3_fusion} 与式~\eqref{eq:ch3_hycam_output} 说明,HyCAM 的本质并不是对注意力层进行替代,而是在原始自注意力输出之上叠加一个由共享规律与专门化规律共同构成的动态调制残差。这种设计既保留了预训练模型原有的上下文建模能力,也为不同任务、不同输入模式引入了额外的适应自由度。 + +\subsection{负载均衡约束与专家协同} +\label{subsec:ch3_balance} + +在多专家结构中,若缺乏额外约束,路由器往往会偏向少数几个容易获得较高回报的专用模块,从而导致专家利用不均、训练效率下降和专用结构退化。为缓解这一问题,HyCAM 在训练中引入负载均衡损失,对各专用模块的使用分布施加约束。 + +设一个 batch 内共有 $B$ 个路由单元(可对应于 token 数或聚合后的样本数),则第 $k$ 个专用模块的平均软选择概率与平均标准 softmax 概率分别可统计为 +\begin{equation} +\bar{p}_{k} += +\frac{1}{B} +\sum_{b=1}^{B} +p_{b,k}, +\qquad +\bar{s}_{k} += +\frac{1}{B} +\sum_{b=1}^{B} +\mathrm{softmax}(\mathbf{\Pi}_{b})_{k}. +\label{eq:ch3_balance_avg} +\end{equation} +在此基础上,负载均衡损失定义为 +\begin{equation} +\mathcal{L}_{balance} += +\sum_{k=1}^{N_s} +\bar{p}_{k}\,\bar{s}_{k}. +\label{eq:ch3_balance} +\end{equation} + +该损失鼓励不同专用模块都能够在训练中获得一定程度的激活,从而避免少数模块垄断路由结果。对于城市多任务时空建模,这一约束具有重要意义:由于不同任务及其内部子模式具有复杂异质性,若专用模块过早塌缩为少量活跃分支,则模型将难以真正学习到多样化的调制行为,进而削弱 HyCAM 在多任务场景下的特化能力。 + +\subsection{训练目标} +\label{subsec:ch3_training_obj} + +本章方法在训练时保持骨干模型主体冻结,仅更新 HyCAM 相关的适配参数 $\Theta_a$,包括共享 CAM、专用 CAM 以及动态路由器。对于自回归生成式任务,给定输入输出对 $(\mathbf{X}_i,\mathbf{Y}_i)$,其任务损失可写为 +\begin{equation} +\mathcal{L}_{task} += +- +\sum_{i=1}^{|\mathcal{D}_b|} +\sum_{t=1}^{|\mathbf{Y}_i|} +\log +P +\left( +y_{i,t} +\mid +\mathbf{X}_i,\mathbf{Y}_{i, T_{\textup{warmup}}$ 且 $t \bmod u = 0$}{ + 使用LayerNorm梯度计算层重要性$\text{Score}(L_i)$(式~\ref{eq:ch4_dls_score})\; + 以概率$p_{\text{exploit}}$选择重要性最高的$k_{\text{ratio}}$比例的层(利用);否则随机选择(探索)\; + } + 对非选中层施加梯度掩码(式~\ref{eq:ch4_dls_mask})\; + 使用优化器以学习率$\eta$更新活跃层参数\; +} +\end{algorithm} +\subsection{RoSA整体算法} +\label{subsec:rosa_algorithm} + +RoSA将RoAE和DLS模块集成到标准的因果语言建模框架中,使用交叉熵损失进行训练。两个模块联合工作,分别在频率维度和模型层两个层面实现定向适配。整体训练流程如算法~\ref{alg:ch4_rosa}所示。 + +RoSA的主要超参数包括:低频维度比例$r_{\text{low}}$(默认0.25,即增强每个头25\%的低频维度)、缩放因子$\alpha$(默认0.1,控制增强幅度)、层选择比例$k_{\text{ratio}}$(默认0.5,每次更新一半的层)、选择间隔$u$(默认40步)、利用概率$p_{\text{exploit}}$(默认0.8)。低秩投影维度默认设为128。 + +RoSA的设计具有良好的模块化特性:RoAE和DLS各自独立运作,可以灵活地与其他微调技术组合使用。RoAE的投影模块也可替换为其他PEFT方法的适配器设计,体现了框架的可扩展性。 + + +\section{动态位置注意力调制方法} +\label{sec:dypam} + +RoSA通过低频维度选择性增强与动态层选择,初步实现了对维度级位置结构异质性的感知。然而,RoSA的维度增强机制仍然是"选择后增强"的模式——先静态地划定低频维度范围,再在该范围内生成适配信号。这种设计存在两个局限:第一,对低频维度的选择是固定的(由超参数$r_{\text{low}}$决定),无法根据不同输入的特性进行动态调整;第二,调制信号不区分不同注意力头的位置偏好差异。 + +为进一步推进维度级位置感知适配的精细化程度,本节提出动态位置注意力调制方法(Dynamic Positional Attention Modulation, DyPAM)。DyPAM直接在RoPE的维度对结构上进行操作,实现\emph{输入条件化}的维度级调制与\emph{头级/层级}的结构偏置,从"静态选择"跃迁至"动态调制"。 + +\begin{figure}[htp] + \centering + \includegraphics[width=0.85\linewidth]{assets/4_dypam_arch.pdf} + \caption{DyPAM方法框架图。DyPAM在RoPE之前,将输入条件化的维度级调制与头级和层级结构偏置共同施加于Query和Key表示,实现对位置注意力的细粒度动态适配。} + \label{fig:ch4_dypam_arch} +\end{figure} + +\subsection{框架概述} +\label{subsec:dypam_overview} + +DyPAM的核心设计原则是:针对注意力在维度、头、层和输入token四个层面的异质性行为,通过结构感知的乘性调制实现精细化的位置注意力适配。如图~\ref{fig:ch4_dypam_arch}所示,DyPAM直接在Query和Key表示上操作,联合建模两种互补的调制机制: + +(1)\textbf{输入条件化的维度级调制}:根据输入上下文动态生成逐维度对的调制因子,使不同维度的位置贡献能够随输入变化而自适应调整。 + +(2)\textbf{头级与层级结构偏置}:引入与输入无关的静态偏置项,编码不同注意力头和不同层在位置维度上的持久性结构偏好。 + +在统一分析框架下,DyPAM的调制操作可形式化为: +\begin{equation} +\mathcal{M}_{\theta}^{\text{DyPAM}}(\mathbf{Z}^{(\ell,h)}; \mathbf{X}, \mathcal{R}_{dim}) = +\mathbf{s}^{(\ell,h)}(\mathbf{X}) \odot \mathbf{Z}^{(\ell,h)}, +\label{eq:ch4_dypam_unified} +\end{equation} +其中$\mathbf{s}^{(\ell,h)}(\mathbf{X})$为同时融合了输入条件化信号和结构偏置的调制因子,作用于第$\ell$层第$h$头的Query/Key表示$\mathbf{Z}^{(\ell,h)}$。 + +\subsection{调制特征的构建} +\label{subsec:dypam_feature} + +DyPAM在自注意力中的Query和Key表示上进行操作。在每个Transformer层$\ell$,这些表示由token级的隐藏状态$\mathbf{H}^{(\ell)} \in \mathbb{R}^{B \times T \times d}$通过式~\eqref{eq:ch4_qkv_proj}的线性投影获得,随后重塑为逐头表示$\mathbf{Q}^{(\ell,h)}, \mathbf{K}^{(\ell,h)} \in \mathbb{R}^{T \times d_h}$。 + +为实现输入条件化的注意力适配,DyPAM直接从同一隐藏状态$\mathbf{H}^{(\ell)}$推导调制特征。由于隐藏状态编码了token特异性的上下文信息,由此产生的调制特征天然具有token依赖性,且因输入不同而各异,为输入条件化调制提供了基础。具体地,DyPAM对隐藏状态施加轻量级低秩投影以生成调制特征: +\begin{equation} +\mathbf{M}^{(\ell)} = \mathbf{H}^{(\ell)} \mathbf{A}^{(\ell)} \mathbf{B}^{(\ell)}, \quad +\mathbf{M}^{(\ell)} \in \mathbb{R}^{B \times T \times (H \cdot d_e)}, +\label{eq:ch4_dypam_feature} +\end{equation} +其中$\mathbf{A}^{(\ell)} \in \mathbb{R}^{d \times r}$和$\mathbf{B}^{(\ell)} \in \mathbb{R}^{r \times (H \cdot d_e)}$为可学习矩阵,秩$r \ll d$,$d_e$为每头特征维度。 + +投影后的特征被重塑为$H$个头特异性的成分,得到每个token位置$t$和注意力头$h$的调制特征$\mathbf{m}^{(\ell)}_{t,h} \in \mathbb{R}^{d_e}$。这些特征编码了每个token在不同头内的上下文表示信息,作为连接token级隐藏状态与后续维度级调制的中间桥梁。 + +\subsection{输入条件化的维度级调制} +\label{subsec:dypam_dim_modulation} + +基于调制特征,DyPAM将其映射为与注意力中Query和Key表示对齐的维度级调制值。该映射决定了每个注意力维度的贡献如何以输入条件化的方式被调制。 + +对于每一层$\ell$,DyPAM引入可学习的维度嵌入矩阵,将调制特征投影到注意力维度空间。具体地,对Query和Key分别使用独立的嵌入矩阵: +\begin{equation} +\mathbf{E}^{(\ell)}_Q \in \mathbb{R}^{\frac{d_h}{2} \times d_e}, \quad +\mathbf{E}^{(\ell)}_K \in \mathbb{R}^{\frac{d_h}{2} \times d_e}, +\label{eq:ch4_dypam_embedding} +\end{equation} +其中每一行对应一个注意力维度对。这一设计反映了RoPE诱导的结构:每个维度对共享相同的位置旋转,因此表现出相似的位置行为。通过为每个维度对分配单一调制值,DyPAM在尊重RoPE内在结构的同时降低了参数开销。该设计同时兼容分组查询注意力(GQA):Key端的调制在共享同一Key表示的头之间共享,而Query端的调制保持头特异性。 + +给定token位置$t$和注意力头$h$的调制特征$\mathbf{m}^{(\ell)}_{t,h} \in \mathbb{R}^{d_e}$,Query和Key的维度级调制分数分别计算为: +\begin{equation} +\mathbf{g}^{(\ell)}_{t,h,Q} = \mathbf{E}^{(\ell)}_Q \mathbf{m}^{(\ell)}_{t,h}, \quad +\mathbf{g}^{(\ell)}_{t,h,K} = \mathbf{E}^{(\ell)}_K \mathbf{m}^{(\ell)}_{t,h}, +\label{eq:ch4_dypam_score} +\end{equation} +其中$\mathbf{g}^{(\ell)}_{t,h,Q}, \mathbf{g}^{(\ell)}_{t,h,K} \in \mathbb{R}^{d_h/2}$分别表示Query和Key维度对的调制分数。 + +输入条件化的维度级调制使DyPAM能够根据输入上下文自适应调整各注意力维度的贡献。通过将调制与RoPE诱导的维度对结构对齐,DyPAM选择性地调整位置信息如何影响注意力计算,在保持参数效率的同时实现了对位置注意力的精细化控制。 + +\subsection{头级与层级结构偏置} +\label{subsec:dypam_structural} + +输入条件化的维度级调制捕获了token依赖的变化,但注意力行为在不同注意力头和不同网络层之间也表现出差异。为建模这种结构级的异质性,DyPAM引入与输入无关的头级和层级结构偏置。 + +对于每一层$\ell$,DyPAM维护一个层级偏置向量: +\begin{equation} +\boldsymbol{\beta}^{(\ell)} \in \mathbb{R}^{d_h/2}, +\end{equation} +捕获该层对注意力维度的特有偏好。此外,对于每个注意力头$h$,引入头级偏置向量: +\begin{equation} +\boldsymbol{\beta}^{(\ell)}_{h} \in \mathbb{R}^{d_h/2}, +\end{equation} +允许同一层内不同头维持各自的结构偏好。 + +这些偏置项叠加到维度级调制分数上。对于Query和Key,结构增强后的调制分数分别为: +\begin{equation} +\tilde{\mathbf{g}}^{(\ell)}_{t,h,Q} = +\mathbf{g}^{(\ell)}_{t,h,Q} + \boldsymbol{\beta}^{(\ell)}_{h,Q} + \boldsymbol{\beta}^{(\ell)}_{Q}, +\label{eq:ch4_dypam_struct_q} +\end{equation} +\begin{equation} +\tilde{\mathbf{g}}^{(\ell)}_{t,h,K} = +\mathbf{g}^{(\ell)}_{t,h,K} + \boldsymbol{\beta}^{(\ell)}_{h,K} + \boldsymbol{\beta}^{(\ell)}_{K}, +\label{eq:ch4_dypam_struct_k} +\end{equation} +其中$\mathbf{g}^{(\ell)}_{t,h,Q}$和$\mathbf{g}^{(\ell)}_{t,h,K}$为输入条件化的维度级分数。偏置项在token位置间共享,编码跨输入持久存在的结构偏好。 + +至此,调制分数同时融合了输入条件化的维度级调整与头级、层级的结构偏置,既捕获了token依赖的变化,又编码了持久性的结构偏好。 + +\subsection{调制因子的归一化与应用} +\label{subsec:dypam_application} + +组合后的调制分数编码了输入条件化和结构化的维度级调整。DyPAM通过归一化步骤将这些分数映射为有界的调制因子,确保稳定、受控的适配。 + +对于每一层$\ell$、token位置$t$、注意力头$h$和维度对$i$,归一化调制因子计算为: +\begin{equation} +s^{(\ell)}_{t,h,i} = 1 + \alpha \cdot \big(\sigma(\tilde{g}^{(\ell)}_{t,h,i}) - 0.5\big), +\label{eq:ch4_dypam_factor} +\end{equation} +其中$\sigma(\cdot)$为Sigmoid函数,$\alpha$控制调制强度。该归一化将调制因子映射到有界区间$[1 - \alpha/2, 1 + \alpha/2]$,使其围绕原始尺度居中,防止偏离预训练表示。 + +调制因子在位置编码之前应用于Query和Key表示。设$\mathbf{q}^{(\ell,h)}_{t,i} \in \mathbb{R}^{2}$和$\mathbf{k}^{(\ell,h)}_{t,i} \in \mathbb{R}^{2}$分别为对应维度对$i$的Query和Key向量配对维度。同一对内的两个维度使用相同的调制因子: +\begin{equation} +\hat{\mathbf{q}}^{(\ell,h)}_{t,i} = s^{(\ell)}_{t,h,i} \cdot \mathbf{q}^{(\ell,h)}_{t,i}, \quad +\hat{\mathbf{k}}^{(\ell,h)}_{t,i} = s^{(\ell)}_{t,h,i} \cdot \mathbf{k}^{(\ell,h)}_{t,i}. +\label{eq:ch4_dypam_apply} +\end{equation} + +调制后的Query和Key表示随后通过RoPE机制并用于标准注意力计算。通过在RoPE之前施加调制,DyPAM使适配与RoPE诱导的位置结构对齐——调制改变的是进入旋转的表示幅度,从而影响不同频率维度对在注意力计算中的相对重要性。 + +\subsection{DyPAM整体算法} +\label{subsec:dypam_algorithm} + +DyPAM使用标准的语言建模交叉熵损失进行端到端训练。给定输入序列$\mathbf{x} = (x_1, \dots, x_T)$和目标序列$\mathbf{y} = (y_1, \dots, y_T)$,训练损失定义为: +\begin{equation} +\mathcal{L} = -\sum_{t=1}^{T} \log p(y_t \mid x_{\leq t}). +\label{eq:ch4_dypam_loss} +\end{equation} + +整体前向计算与训练流程如算法~\ref{alg:ch4_dypam}所示。 + +\RestyleAlgo{ruled} +\begin{algorithm}[htp] +\caption{动态位置注意力调制(DyPAM)训练算法} +\label{alg:ch4_dypam} +\KwIn{输入序列$\mathbf{x}$,预训练RoPE大语言模型,DyPAM参数} +\KwOut{模型输出分布与训练损失$\mathcal{L}$} +获取$\mathbf{x}$的token嵌入\; +\For{每个Transformer层$\ell = 1, \dots, L$}{ + 计算隐藏状态$\mathbf{H}^{(\ell)}$\; + 投影隐藏状态得到Query和Key表示$\mathbf{Q}^{(\ell)}, \mathbf{K}^{(\ell)}$(式~\ref{eq:ch4_qkv_proj})\; + 重塑为逐头表示$\mathbf{Q}^{(\ell,h)}, \mathbf{K}^{(\ell,h)}$\; + 从隐藏状态构建调制特征$\mathbf{m}^{(\ell)}_{t,h}$(式~\ref{eq:ch4_dypam_feature})\; + 计算输入条件化的维度级调制分数(式~\ref{eq:ch4_dypam_score})\; + 叠加头级和层级结构偏置(式~\ref{eq:ch4_dypam_struct_q}、\ref{eq:ch4_dypam_struct_k})\; + 归一化得到调制因子(式~\ref{eq:ch4_dypam_factor})\; + 将调制因子应用于Query和Key表示(式~\ref{eq:ch4_dypam_apply})\; + 对调制后的Query和Key施加RoPE\; + 使用调制后的表示计算注意力输出\; +} +计算模型输出与训练损失$\mathcal{L}$(式~\ref{eq:ch4_dypam_loss})\; +\end{algorithm} + +DyPAM的主要超参数包括:调制嵌入维度$d_e$(默认64)、低秩投影秩$r$(默认128)、调制强度$\alpha$(默认0.3)。与RoSA相比,DyPAM不需要显式指定低频维度比例或层选择参数,因为其调制信号覆盖\emph{所有}维度对并在\emph{所有}层上部署,通过学习到的调制因子自动实现差异化分配。 + + +\section{两种方法的统一视角与比较分析} +\label{sec:ch4_unified_view} + +RoSA和DyPAM均针对维度级位置结构异质性($\mathcal{R}_{dim}$),但在设计理念和技术实现上形成了从"选择性增强"到"全面调制"的递进关系。本节从统一框架的视角对两种方法进行系统比较。 + +\subsection{统一框架下的形式化对比} + +在结构感知调制统一框架(式~\ref{eq:ch1_unified_M})下,两种方法可以统一理解为乘性调制的不同实例化: + +\textbf{RoSA}采用"选择+增强"的调制策略。其调制操作仅作用于维度空间的一个子集(低频维度),调制信号为上下文感知的缩放因子,形式上对应式~\eqref{eq:ch4_rosa_unified}。同时,通过DLS在层空间上进行二值选择(活跃/非活跃),实现层级的稀疏化适配。 + +\textbf{DyPAM}采用"全覆盖+精细化调制"的策略。其调制操作覆盖所有维度对,调制信号同时融合输入条件化成分和结构偏置成分,形式上对应式~\eqref{eq:ch4_dypam_unified}。调制因子被归一化到以1为中心的有界区间,通过学习实现差异化而非显式选择。 + +\subsection{设计维度对比} + +表~\ref{tab:ch4_compare}从多个设计维度对两种方法进行了系统比较。 + +\begin{table}[htp] +\centering +\caption{RoSA与DyPAM的设计维度对比} +\label{tab:ch4_compare} +\small +\begin{tabular}{lcc} +\toprule +\textbf{设计维度} & \textbf{RoSA} & \textbf{DyPAM} \\ +\midrule +维度选择 & 静态子集($r_{\text{low}}$) & 全覆盖 \\ +调制粒度 & 逐维度 & 逐维度对 \\ +输入依赖性 & 适配信号输入依赖 & 调制因子输入依赖 \\ +头级差异化 & 共享信号 & 头级偏置 \\ +层级策略 & 二值选择(DLS) & 层级偏置 \\ +调制作用点 & RoPE之后 & RoPE之前 \\ +归一化机制 & 缩放因子$\alpha$ & Sigmoid有界区间 \\ +\bottomrule +\end{tabular} +\end{table} + +\subsection{互补性与递进关系} + +从设计演进的角度看,DyPAM可以理解为对RoSA的全面推进: + +(1)\textbf{从静态选择到动态调制}。RoSA通过$r_{\text{low}}$静态划定增强范围,DyPAM则让所有维度对都参与调制,通过学习自动决定每个维度对的调制幅度。 + +(2)\textbf{从维度级到维度对级}。RoSA在逐维度粒度上操作,DyPAM则与RoPE的维度对结构严格对齐,以维度对为基本调制单位。 + +(3)\textbf{从层选择到层偏置}。RoSA通过DLS对层进行二值选择,DyPAM则通过可学习的层级偏置实现柔性的层间差异化。 + +(4)\textbf{引入头级感知}。RoSA在所有头之间共享适配信号,DyPAM则通过头级偏置允许不同头维持独立的位置偏好。 + +两种方法共同验证了一个核心观点:在RoPE驱动的大语言模型中,维度级位置结构异质性是影响适配效果的关键因素。感知并利用这种异质性,无论是通过选择性增强还是全面精细化调制,都能够显著提升参数高效微调的效能。 + + +\section{实验验证与结果分析} +\label{sec:ch4_experiments} + +本节通过大量实验系统评估RoSA和DyPAM的有效性。实验围绕以下核心问题展开:(1)两种方法相比现有PEFT基线方法的性能优势;(2)方法在不同骨干模型上的泛化能力;(3)跨模型规模的可扩展性;(4)各组件的贡献分析;(5)关键超参数的敏感性分析;(6)学习到的调制模式的可解释性分析。 + +\subsection{实验设置} +\label{subsec:ch4_exp_setup} + +\subsubsection{评测任务与数据集} + +遵循LLM-Adapters的标准设置,本章在两类代表性任务上进行评估: + +\textbf{常识推理任务}。在八个基准数据集上评估:BoolQ、PIQA、Social IQA、ARC-Challenge、ARC-Easy、OBQA、HellaSwag和WinoGrande,使用Commonsense15K作为训练数据。 + +\textbf{数学推理任务}。在七个基准数据集上评估:MultiArith、GSM8K、AddSub、AQuA、SingleEq、SVAMP和MAWPS,使用Math10K作为训练数据。 + +所有任务使用准确率作为评估指标,同时报告Micro-Avg(样本加权平均)和Macro-Avg(任务等权平均)。 + +\subsubsection{骨干模型} + +\textbf{RoSA实验}采用三种广泛使用的大语言模型作为骨干:Qwen2.5-7B、Llama-3.1-8B和Gemma2-9B。在可扩展性实验中进一步使用Qwen2.5系列的0.5B、1.5B、3B和7B四个规模。 + +\textbf{DyPAM实验}采用三种基于RoPE的大语言模型家族:LLaMA 3.2-3B、Qwen3-8B和Gemma3-4B。在可扩展性实验中使用Qwen3系列的0.6B、1.7B、4B和8B四个规模。 + +\subsubsection{基线方法} + +两组实验均与多类主流PEFT方法进行比较,覆盖不同的适配策略:低秩方法(LoRA、DoRA、AdaLoRA)、结构化矩阵方法(BOFT/OFT、C3A、BONE)、轻量缩放方法(IA$^3$、LN Tuning/VeRA)、频域方法(FourierFT)、稀疏适配方法(SHiRA)。DyPAM的实验中还包含RoSA作为基线之一,以直接比较两种方法。 + +\subsubsection{实现细节} + +\textbf{RoSA实验}在NVIDIA RTX 3090上使用PyTorch和HuggingFace Transformers进行。采用AdamW优化器,学习率1e-3,余弦学习率调度。RoSA超参数:$r_{\text{low}} = 0.25$,$\alpha = 0.1$,低秩投影维度128,$k_{\text{ratio}} = 0.5$,$u = 40$步,$p_{\text{exploit}} = 0.8$。使用BF16混合精度与DeepSpeed ZeRO-1优化。 + +\textbf{DyPAM实验}在NVIDIA RTX 4090上使用DeepSpeed和BF16精度进行。DyPAM超参数:$d_e = 64$,$r = 128$,$\alpha = 0.3$。对基线方法在可比可训练参数规模下进行公平比较。 + +\subsection{RoSA实验结果与分析} +\label{subsec:ch4_rosa_results} + +\subsubsection{常识推理性能} + +表~\ref{tab:ch4_rosa_common}展示了RoSA与基线方法在常识推理任务上的性能比较。 + +\begin{table}[htp] + \centering + \caption{RoSA与基线方法在常识推理任务上的性能比较。在三种骨干模型上,RoSA在可比参数预算下均取得最优平均性能。*表示相比最优基线的统计显著提升(双侧t检验,$p<0.05$)。} + \label{tab:ch4_rosa_common} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{0.96} + \begin{tabular}{l|lcccccccccc} + \toprule + \textbf{骨干模型} & \textbf{方法} & \textbf{参数(\%)} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} \\ + \midrule + \multirow{9}{*}{\textbf{Qwen2.5-7B}} + & LoRA & 0.527 & 66.9 & 86.8 & 76.7 & 88.2 & 93.9 & 87.2 & 89.7 & 72.2 & 84.3 \\ + & DoRA & 0.546 & 68.3 & \underline{87.4} & 77.2 & \underline{89.4} & 95.2 & 88.0 & \underline{90.0} & 70.4 & 84.9 \\ + & AdaLoRA & 0.396 & \underline{69.7} & \underline{87.4} & \underline{77.9} & 88.9 & \textbf{95.7} & \underline{89.4} & \textbf{90.6} & 72.6 & \underline{85.6} \\ + & BOFT & 0.023 & 68.5 & 86.0 & 76.1 & 87.5 & 94.6 & 82.4 & 86.1 & 65.3 & 82.4 \\ + & VERA & 0.018 & 55.4 & 83.7 & 74.1 & 85.1 & 93.6 & 77.2 & 82.2 & 64.1 & 77.9 \\ + & C3A & 0.665 & 69.5 & 87.0 & 77.5 & 88.9 & 95.2 & 86.6 & 89.9 & 71.6 & 85.0 \\ + & BONE & 0.291 & 67.6 & 84.9 & 76.8 & 85.2 & 94.3 & 87.4 & 88.3 & \textbf{77.9} & 83.9 \\ + & LN Tuning & 0.001 & 62.5 & 86.0 & 73.3 & 85.0 & 93.3 & 77.2 & 80.9 & 62.1 & 78.4 \\ + & \textbf{RoSA} & 0.261 & \textbf{70.5} & \textbf{88.0} & \textbf{79.1} & \textbf{90.1} & \underline{95.3} & \textbf{89.6} & \textbf{90.6} & \underline{73.7} & \textbf{85.9*} \\ + \midrule + \multirow{9}{*}{\textbf{Llama3.1-8B}} + & LoRA & 0.520 & \textbf{71.7} & 86.8 & 75.5 & 83.1 & \underline{92.7} & 82.4 & \underline{88.6} & 68.8 & 83.7 \\ + & DoRA & 0.537 & 71.5 & 86.9 & 75.8 & 83.2 & 92.5 & 82.2 & 88.5 & 70.0 & 83.8 \\ + & AdaLoRA & 0.390 & 71.1 & 86.2 & 74.7 & \textbf{83.6} & 92.6 & 82.8 & 87.2 & \underline{70.8} & 83.0 \\ + & BOFT & 0.028 & 70.5 & 85.5 & 72.4 & 80.0 & 91.9 & 79.0 & 82.4 & 62.5 & 79.7 \\ + & VERA & 0.017 & 68.8 & 82.9 & 68.4 & 77.6 & 91.4 & 77.4 & 75.2 & 57.4 & 75.2 \\ + & C3A & 0.674 & \underline{71.6} & \textbf{87.7} & \underline{76.2} & 83.1 & 92.6 & \textbf{84.4} & 88.3 & 70.6 & \underline{83.9} \\ + & BONE & 0.274 & 64.7 & 78.4 & 74.2 & 72.1 & 86.8 & 78.2 & 81.8 & 70.3 & 77.6 \\ + & LN Tuning & 0.003 & 70.1 & 84.6 & 70.9 & 80.2 & 91.8 & 78.8 & 80.6 & 61.8 & 78.6 \\ + & \textbf{RoSA} & 0.329 & \textbf{71.7} & \underline{87.1} & \textbf{76.4} & \underline{83.3} & \textbf{92.8} & \underline{83.6} & \textbf{89.0} & \textbf{74.8} & \textbf{84.4*} \\ + \midrule + \multirow{9}{*}{\textbf{Gemma2-9B}} + & LoRA & 0.581 & 69.3 & 88.0 & 77.8 & \textbf{88.0} & \textbf{95.5} & \underline{87.4} & 89.8 & \underline{77.4} & 85.4 \\ + & DoRA & 0.601 & 70.0 & 87.3 & \underline{78.1} & 86.1 & 94.3 & 87.0 & 89.4 & 76.8 & 85.0 \\ + & AdaLoRA & 0.437 & \underline{72.3} & \underline{88.2} & 77.4 & 87.5 & \textbf{95.5} & 86.2 & 89.0 & 73.4 & 85.1 \\ + & BOFT & 0.029 & 65.2 & 83.2 & 72.4 & 81.7 & 91.1 & 75.0 & 80.3 & 62.1 & 77.7 \\ + & VERA & 0.020 & 65.2 & 79.8 & 66.0 & 73.8 & 85.8 & 61.8 & 70.5 & 56.1 & 70.9 \\ + & C3A & 0.699 & 70.7 & 87.7 & 77.7 & 86.9 & \underline{94.5} & 86.8 & \textbf{90.4} & 75.3 & \underline{85.5} \\ + & BONE & 0.319 & 60.3 & 75.3 & 66.3 & 69.0 & 83.7 & 74.0 & 67.3 & 64.3 & 68.7 \\ + & LN Tuning & 0.007 & 61.2 & 78.1 & 66.1 & 73.2 & 85.0 & 65.0 & 71.9 & 55.1 & 70.7 \\ + & \textbf{RoSA} & 0.363 & \textbf{74.0} & \textbf{88.3} & \textbf{78.5} & \underline{87.8} & \textbf{95.5} & \textbf{87.8} & \underline{90.0} & \textbf{77.5} & \textbf{86.2*} \\ + \bottomrule + \end{tabular} + } +\end{table} + +实验结果表明,RoSA在所有三种骨干模型上均取得了最优的平均性能,同时保持了较低的可训练参数量。在Qwen2.5-7B上,RoSA以0.261\%的参数量(低于大多数基线)达到85.9\%的Micro-Avg;在Llama3.1-8B上,以0.329\%参数量达到84.4\%;在Gemma2-9B上,以0.363\%参数量达到86.2\%。 + +从基线方法的比较中可以观察到:(1)AdaLoRA的动态秩分配策略带来了较好的性能,这与DLS模块动态选择层的设计原则一致;(2)LN Tuning虽然参数极少但表现合理,进一步验证了使用LayerNorm作为层重要性代理的合理性。 + +\subsubsection{数学推理性能} + +表~\ref{tab:ch4_rosa_math}展示了RoSA在Qwen2.5-7B上数学推理任务的结果。 + +\begin{table}[htp] + \centering + \caption{RoSA与基线方法在Qwen2.5-7B上数学推理任务的性能比较。} + \label{tab:ch4_rosa_math} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{0.95} + \begin{tabular}{lcccccccc} + \toprule + \textbf{方法} & \textbf{参数(\%)} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} \\ + \midrule + LoRA & 0.527 & 93.0 & 68.7 & 88.8 & 33.8 & \underline{88.9} & 79.2 & 88.2 \\ + DoRA & 0.546 & 92.3 & \underline{70.0} & 88.6 & 34.6 & 88.5 & 79.6 & 87.3 \\ + AdaLoRA & 0.396 & 90.0 & 68.8 & 85.3 & 33.8 & 85.6 & 78.9 & 84.0 \\ + BOFT & 0.023 & 89.6 & 67.8 & 82.5 & 31.1 & 86.2 & 75.2 & 80.2 \\ + VERA & 0.018 & 72.5 & 63.7 & 80.7 & 31.1 & 80.3 & 74.2 & 83.1 \\ + C3A & 0.665 & \textbf{95.3} & 67.1 & \underline{90.3} & \textbf{35.4} & \textbf{90.1} & \underline{82.1} & \underline{89.4} \\ + BONE & 0.291 & 92.8 & 66.6 & 89.6 & 33.4 & 88.3 & \underline{82.1} & 89.0 \\ + LN Tuning & 0.001 & 79.6 & 63.6 & 72.1 & 34.2 & 75.3 & 68.1 & 70.1 \\ + \textbf{RoSA} & 0.261 & \underline{94.3} & \textbf{71.3} & \textbf{92.1} & \underline{35.0} & \textbf{90.1} & \textbf{82.2} & \textbf{92.0} \\ + \bottomrule + \end{tabular} + } +\end{table} + +数学推理任务上的结果与常识推理一致,RoSA在大部分基准数据集上取得最优或次优性能,综合Micro-Avg达到80.1\%,显著优于所有基线方法。这表明RoSA的维度级结构感知适配不仅适用于语义理解类任务,对数值计算与多步推理同样有效。 + +\subsubsection{跨模型规模的可扩展性} + +表~\ref{tab:ch4_rosa_scale}展示了RoSA在不同规模Qwen2.5模型上的可扩展性。 + +\begin{table}[htp] + \centering + \caption{RoSA在不同规模Qwen2.5模型上常识推理任务的可扩展性比较。} + \label{tab:ch4_rosa_scale} + \small + \begin{tabular}{lcccc} + \toprule + \textbf{方法} & \textbf{0.5B} & \textbf{1.5B} & \textbf{3B} & \textbf{7B} \\ + \midrule + AdaLoRA & \underline{53.5} & \underline{75.1} & 81.1 & \underline{85.6} \\ + C3A & 53.1 & 74.9 & \underline{81.2} & 85.0 \\ + \textbf{RoSA} & \textbf{53.7} & \textbf{75.5} & \textbf{82.0} & \textbf{85.9} \\ + \bottomrule + \end{tabular} +\end{table} + +结果显示,随着模型规模增大,所有方法的性能均有提升,但RoSA在各个规模上始终保持明显优势。这表明RoSA的结构感知适配策略具有良好的可扩展性和鲁棒性。 + +\subsection{DyPAM实验结果与分析} +\label{subsec:ch4_dypam_results} + +\subsubsection{数学推理性能} + +表~\ref{tab:ch4_dypam_math}展示了DyPAM在数学推理任务上的性能。 + +\begin{table}[htp] + \centering + \caption{DyPAM与基线方法在数学推理任务上的性能比较。*表示统计显著提升。} + \label{tab:ch4_dypam_math} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{0.9} + \begin{tabular}{l|lcccccccccc} + \toprule + \textbf{骨干} & \textbf{方法} & \textbf{参数(\%)} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} & \textbf{Macro-Avg$\uparrow$} \\ + \midrule + \multirow{10}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}} + & LoRA & 1.12 & 71.50 & 33.21 & 78.48 & 22.44 & 81.50 & 54.10 & 76.47 & 54.96 & 59.67 \\ + & AdaLoRA & 2.22 & 75.67 & 36.32 & 80.51 & 22.83 & 87.80 & 55.60 & 78.57 & 57.90 & 62.47 \\ + & OFT & 0.73 & 87.17 & \textbf{40.18} & \underline{85.82} & \underline{24.02} & 86.42 & 61.50 & \textbf{84.03} & \underline{62.75} & \underline{67.02} \\ + & Bone & 1.14 & \underline{87.50} & 39.73 & 85.57 & 23.62 & 86.61 & \textbf{63.70} & 81.93 & 63.03 & 66.95 \\ + & IA$^3$ & 0.02 & 58.33 & 27.37 & 68.61 & 20.47 & 72.83 & 47.90 & 58.82 & 46.89 & 50.62 \\ + & LN Tuning & 0.01 & 58.00 & 26.38 & 66.58 & 21.26 & 74.80 & 44.90 & 60.08 & 46.01 & 50.29 \\ + & FourierFT & 0.73 & 78.67 & 33.21 & 82.03 & 20.47 & 85.43 & 54.30 & 77.31 & 56.72 & 61.63 \\ + & SHiRA & 1.12 & 82.50 & 38.82 & 84.81 & \underline{24.02} & \underline{87.99} & 56.90 & 81.93 & 60.59 & 65.28 \\ + & RoSA & 0.54 & 84.33 & 37.91 & 82.78 & 22.83 & 87.01 & 52.50 & 78.99 & 59.02 & 63.77 \\ + & \textbf{DyPAM} & 0.92 & \textbf{88.50} & \underline{39.88} & \textbf{86.33} & \textbf{25.20} & \textbf{88.78} & \underline{63.00} & \textbf{84.03} & \textbf{63.58*} & \textbf{67.96*} \\ + \midrule + \multirow{10}{*}{\rotatebox{90}{\textbf{Qwen3-8B}}} + & LoRA & 0.79 & 97.67 & 74.91 & 89.87 & 35.83 & 90.55 & 84.70 & 89.08 & 82.04 & 80.37 \\ + & AdaLoRA & 1.57 & 95.17 & 73.01 & 90.63 & 37.01 & 92.32 & 84.80 & 91.60 & 81.62 & 80.65 \\ + & OFT & 0.51 & 95.67 & 73.46 & 90.38 & 33.07 & 94.09 & 84.90 & 91.60 & 81.80 & 80.45 \\ + & Bone & 0.81 & \underline{98.00} & 72.25 & \underline{91.65} & 33.46 & 93.90 & 83.80 & 90.34 & 81.55 & 80.49 \\ + & IA$^3$ & 0.02 & 92.50 & 72.18 & 84.81 & 35.04 & 86.61 & 80.90 & 86.55 & 78.49 & 76.94 \\ + & LN Tuning & 0.00 & 91.67 & 68.69 & 85.32 & \underline{39.76} & 87.40 & 78.00 & 85.71 & 77.01 & 76.65 \\ + & FourierFT & 0.37 & 94.50 & 70.05 & 87.34 & 31.50 & 86.81 & 82.70 & 81.09 & 78.28 & 76.28 \\ + & SHiRA & 0.79 & 94.83 & \underline{75.36} & 90.13 & 37.01 & 93.90 & \textbf{85.70} & 90.34 & \underline{82.57} & \underline{81.04} \\ + & RoSA & 0.36 & 97.83 & 74.07 & 90.38 & 35.43 & \underline{94.49} & 84.80 & \underline{92.02} & 82.48 & 81.29 \\ + & \textbf{DyPAM} & 0.61 & \textbf{99.17} & \textbf{76.72} & \textbf{91.90} & \textbf{40.94} & \textbf{95.28} & \underline{85.50} & \textbf{92.86} & \textbf{84.24*} & \textbf{83.20*} \\ + \midrule + \multirow{10}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}} + & LoRA & 1.33 & 86.00 & 51.25 & 72.41 & 25.98 & 75.59 & 62.20 & 75.21 & 63.26 & 64.09 \\ + & AdaLoRA & 2.62 & 82.67 & 51.86 & 66.33 & 31.50 & 73.82 & 62.30 & 73.95 & 62.49 & 63.20 \\ + & OFT & 0.75 & 85.83 & \underline{54.28} & 72.91 & \underline{32.28} & 75.59 & \textbf{63.80} & \underline{76.47} & \underline{65.02} & \underline{65.88} \\ + & Bone & 1.41 & \underline{86.17} & 45.87 & 71.39 & 30.31 & 72.64 & 55.10 & 73.11 & 59.69 & 62.08 \\ + & IA$^3$ & 0.03 & 42.67 & 38.89 & 40.51 & 27.17 & 40.75 & 37.20 & 37.39 & 38.62 & 37.80 \\ + & LN Tuning & 0.01 & 32.67 & 30.63 & 45.06 & 23.62 & 56.69 & 40.80 & 37.82 & 37.64 & 38.18 \\ + & FourierFT & 1.10 & 60.83 & 31.24 & 65.32 & 28.35 & 66.73 & 46.30 & 65.97 & 47.89 & 52.10 \\ + & SHiRA & 1.33 & 72.67 & 42.08 & \underline{73.16} & 31.50 & \textbf{76.57} & 61.30 & 75.63 & 58.92 & 61.84 \\ + & RoSA & 0.40 & 34.50 & 38.51 & 66.84 & 31.10 & 63.19 & 43.70 & 62.18 & 45.53 & 48.58 \\ + & \textbf{DyPAM} & 0.62 & \textbf{86.33} & \textbf{55.19} & \textbf{73.42} & \textbf{32.68} & \underline{76.18} & \underline{62.70} & \textbf{76.89} & \textbf{65.28*} & \textbf{66.20*} \\ + \bottomrule + \end{tabular} + } +\end{table} + +DyPAM在所有三种骨干模型上均取得了最优的Macro-Avg和Micro-Avg性能,且改进在统计上显著。值得注意的是,在Qwen3-8B上,DyPAM的Macro-Avg达到83.20\%、Micro-Avg达到84.24\%,显著优于RoSA的81.29\%/82.48\%(同为维度级适配方法),验证了从"静态选择"到"动态调制"的设计改进的有效性。 + +在Gemma3-4B上,RoSA的表现明显下降(Macro-Avg仅48.58\%),这可能源于其固定的低频维度选择比例在该架构上未能适配,而DyPAM的自适应调制机制成功避免了这一问题,取得66.20\%的Macro-Avg。 + +\subsubsection{常识推理性能} + +表~\ref{tab:ch4_dypam_common}展示了DyPAM在常识推理任务上的性能。 + +\begin{table}[htp] + \centering + \caption{DyPAM与基线方法在常识推理任务上的性能比较。*表示统计显著提升。} + \label{tab:ch4_dypam_common} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{0.9} + \begin{tabular}{l|lcccccccccc} + \toprule + \textbf{骨干} & \textbf{方法} & \textbf{参数(\%)} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Macro-Avg$\uparrow$} \\ + \midrule + \multirow{10}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}} + & LoRA & 1.12 & 63.61 & 79.71 & 66.94 & 69.45 & 84.05 & 67.00 & 73.94 & 55.56 & 70.03 \\ + & AdaLoRA & 2.22 & 63.52 & 78.94 & 67.09 & 68.94 & 85.14 & 70.20 & 78.11 & 56.35 & 71.04 \\ + & OFT & 0.73 & \underline{65.63} & 79.54 & 70.37 & 70.39 & 85.06 & 71.80 & \underline{83.15} & \underline{66.38} & \underline{74.04} \\ + & Bone & 1.14 & 64.56 & 75.68 & 69.34 & 64.42 & 79.76 & 70.20 & 75.92 & 65.75 & 70.70 \\ + & IA$^3$ & 0.02 & 62.32 & 77.09 & 59.67 & 57.94 & 77.10 & 57.40 & 50.48 & 52.25 & 61.78 \\ + & LN Tuning & 0.01 & 62.51 & 76.99 & 59.52 & 59.81 & 76.52 & 59.00 & 52.02 & 52.17 & 62.32 \\ + & FourierFT & 0.73 & 62.14 & 79.49 & 61.98 & 61.86 & 80.93 & 62.40 & 73.21 & 49.09 & 66.39 \\ + & SHiRA & 1.12 & 65.23 & \underline{79.65} & 69.14 & \underline{71.16} & \underline{84.97} & \underline{71.20} & 83.18 & 65.67 & 73.78 \\ + & RoSA & 0.54 & 64.53 & \underline{79.65} & \underline{69.86} & 69.28 & 84.43 & 70.80 & 83.12 & 63.54 & 73.15 \\ + & \textbf{DyPAM} & 0.92 & \textbf{65.93} & \textbf{79.76} & \textbf{70.88} & \textbf{70.39} & \textbf{85.19} & \textbf{71.80} & \textbf{83.71} & \textbf{65.35} & \textbf{74.13*} \\ + \midrule + \multirow{10}{*}{\rotatebox{90}{\textbf{Qwen3-8B}}} + & LoRA & 0.79 & 70.49 & 86.34 & 77.18 & 90.19 & 96.51 & 87.60 & 89.50 & 72.85 & 83.83 \\ + & AdaLoRA & 1.57 & 70.73 & 86.51 & 76.71 & 90.36 & 96.55 & 87.20 & 88.92 & 72.38 & 83.67 \\ + & OFT & 0.51 & 69.97 & 86.83 & 76.56 & 89.93 & 96.97 & 88.00 & 89.17 & \underline{76.48} & 84.24 \\ + & Bone & 0.81 & 69.02 & 85.31 & 75.64 & 88.91 & 95.58 & 87.60 & 89.30 & 76.56 & 83.49 \\ + & IA$^3$ & 0.02 & 69.51 & 86.34 & 76.71 & 90.27 & 96.09 & 84.40 & 85.12 & 66.77 & 81.90 \\ + & LN Tuning & 0.00 & 69.33 & 86.40 & 75.95 & 90.27 & 96.00 & 83.00 & 83.86 & 65.43 & 81.28 \\ + & FourierFT & 0.37 & 69.54 & 84.49 & 73.13 & 85.92 & 95.29 & 77.80 & 80.48 & 62.27 & 78.62 \\ + & SHiRA & 0.79 & \underline{70.83} & \underline{87.05} & \underline{77.33} & \underline{90.36} & \underline{96.97} & \underline{88.20} & \underline{89.56} & 75.77 & \underline{84.51} \\ + & RoSA & 0.36 & 68.96 & 86.94 & 75.33 & 89.85 & 96.38 & \underline{88.20} & 89.43 & 76.16 & 83.91 \\ + & \textbf{DyPAM} & 0.61 & \textbf{70.89} & \textbf{87.11} & \textbf{77.33} & \textbf{90.53} & \textbf{97.05} & \textbf{88.80} & \textbf{89.53} & \textbf{76.80} & \textbf{84.75*} \\ + \midrule + \multirow{10}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}} + & LoRA & 1.33 & 65.72 & 79.71 & 69.40 & 74.49 & 87.08 & 71.00 & 74.53 & 55.01 & 72.12 \\ + & AdaLoRA & 2.62 & 66.09 & 79.49 & 68.73 & \underline{76.54} & \underline{89.02} & 74.00 & 73.20 & 58.09 & 73.14 \\ + & OFT & 0.75 & 65.69 & \underline{81.99} & \underline{74.51} & 76.71 & 88.47 & \underline{78.00} & \underline{83.86} & \underline{65.27} & \underline{76.81} \\ + & Bone & 1.41 & 64.68 & 75.35 & 71.24 & 70.39 & 82.83 & 75.80 & 78.33 & 64.48 & 72.89 \\ + & IA$^3$ & 0.02 & 62.17 & 71.49 & 57.32 & 57.51 & 73.19 & 55.20 & 44.89 & 57.85 & 59.95 \\ + & LN Tuning & 0.00 & 62.60 & 66.70 & 49.85 & 49.91 & 63.59 & 45.20 & 47.29 & 60.46 & 55.70 \\ + & FourierFT & 0.37 & 63.94 & 75.57 & 67.14 & 67.32 & 76.05 & 57.80 & 71.81 & 59.35 & 67.37 \\ + & SHiRA & 0.79 & 65.57 & 82.25 & 74.53 & 76.19 & 89.71 & 78.20 & 83.19 & 64.48 & 76.77 \\ + & RoSA & 0.40 & 63.70 & 79.54 & 67.40 & 72.27 & 86.66 & 69.40 & 48.53 & 47.51 & 66.88 \\ + & \textbf{DyPAM} & 0.62 & \textbf{66.21} & \textbf{82.59} & \textbf{74.82} & \textbf{77.13} & \textbf{89.23} & \textbf{79.20} & \textbf{84.09} & \textbf{65.35} & \textbf{77.33*} \\ + \bottomrule + \end{tabular} + } +\end{table} + +DyPAM在所有三种骨干模型的常识推理任务上均取得统计显著的最优Macro-Avg性能。在LLaMA 3.2-3B上达到74.13\%,在Qwen3-8B上达到84.75\%,在Gemma3-4B上达到77.33\%。常识推理与数学推理上的一致性提升表明,DyPAM的位置注意力调制机制具有跨任务域的普适性。值得注意的是,在Gemma3-4B上,RoSA的Macro-Avg仅为66.88\%,远低于DyPAM的77.33\%,进一步验证了动态调制相对于静态维度选择的优势。 + +\subsubsection{跨模型规模的可扩展性} + +表~\ref{tab:ch4_dypam_scale}展示了DyPAM在Qwen3系列不同模型规模上的可扩展性分析。 + +\begin{table}[htp] + \centering + \caption{DyPAM与主要基线方法在不同模型规模上的数学推理性能比较(Macro-Avg准确率\%)。} + \label{tab:ch4_dypam_scale} + \small + \begin{tabular}{lcccc} + \toprule + \textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} & \textbf{Qwen3-8B} \\ + \midrule + LoRA & 64.06 & 66.64 & 75.60 & 80.37 \\ + OFT & \underline{65.96} & \underline{67.81} & 75.54 & 80.45 \\ + SHiRA & 63.95 & 64.65 & 73.33 & \underline{81.04} \\ + RoSA & 63.99 & 67.38 & \underline{77.92} & 81.29 \\ + \textbf{DyPAM} & \textbf{66.13} & \textbf{69.24} & \textbf{78.24} & \textbf{83.20} \\ + \bottomrule + \end{tabular} +\end{table} + +DyPAM在Qwen3系列四个规模(0.6B至8B)上均超越所有基线方法。随模型规模增大,DyPAM与基线之间的性能差距进一步扩大(0.6B上超过OFT 0.17个百分点,8B上超过RoSA 1.91个百分点),表明DyPAM能够更充分地利用大模型增加的表征容量来发挥位置感知调制的优势。 + +\subsection{消融实验与深入分析} +\label{subsec:ch4_ablation} + +\subsubsection{RoSA组件消融} + +表~\ref{tab:ch4_rosa_ablation}展示了RoSA各组件的消融分析,在Qwen2.5-7B常识推理任务上进行。 + +\begin{table}[htp] + \centering + \caption{RoSA消融实验结果(Qwen2.5-7B常识推理Micro-Avg)。} + \label{tab:ch4_rosa_ablation} + \small + \begin{tabular}{lc} + \toprule + \textbf{变体} & \textbf{Micro-Avg$\uparrow$} \\ + \midrule + RoSA(完整) & \textbf{85.9} \\ + RoSA-RoAEonly(移除DLS) & 84.8 \\ + RoSA-RoAE0.5($r_{\text{low}}=0.5$,含DLS) & 85.6 \\ + RoSA-Lr128(用LoRA$r$=128替代RoAE,含DLS) & 83.9 \\ + RoSA-Lr64(用LoRA$r$=64替代RoAE,含DLS) & 80.7 \\ + \bottomrule + \end{tabular} +\end{table} + +消融分析揭示:(1)移除DLS导致1.1\%的下降(85.9→84.8),证明动态层选择的贡献显著;(2)将$r_{\text{low}}$从0.25增至0.5(即扩大增强范围到一半维度)导致0.3\%下降(85.9→85.6),表明更集中地增强低频子空间更为有效;(3)用标准LoRA替代RoAE后性能大幅下降(85.9→83.9/80.7),说明RoPE感知的频率定向增强优于通用低秩适配。 + +\subsubsection{DyPAM组件消融} + +\begin{figure}[htp] + \centering + \includegraphics[width=0.9\linewidth]{assets/4_dypam_ablation.pdf} + \caption{DyPAM消融与超参数敏感性分析。(a)移除各组件后的性能变化;(b)调制强度$\alpha$的影响。} + \label{fig:ch4_dypam_ablation} +\end{figure} + +DyPAM的消融实验表明,每个核心组件在整体性能中发挥互补作用:移除任何单一组件均导致一致性的性能下降,表明DyPAM的性能提升源自各组件的联合设计而非孤立的架构选择。 + +\subsubsection{DLS层选择比例的敏感性} + +\begin{figure}[htp] + \centering + \includegraphics[width=0.45\linewidth]{assets/4_dls_sensitivity.pdf} + \caption{RoSA中层选择比例$k_{\text{ratio}}$的敏感性分析。} + \label{fig:ch4_dls_sensitivity} +\end{figure} + +对RoSA的DLS模块进行层选择比例$k_{\text{ratio}}$的敏感性分析。结果表明,$k_{\text{ratio}} \approx 0.5$时性能最佳。增大该比例反而略微降低性能,说明选择性地更新约一半的层比更新所有层更有效,这与层间异质性的假设一致。 + +\subsubsection{DyPAM调制强度的敏感性} + +对DyPAM的调制强度$\alpha$进行敏感性分析。适当的调制幅度显著优于过弱或过强的调制:$\alpha=0.3$附近取得最优性能。过小的$\alpha$限制了调制的表达能力,而过大的$\alpha$可能过度偏离预训练表示,破坏已学知识。 + +\subsection{可解释性分析} +\label{subsec:ch4_interpretability} + +\subsubsection{RoSA的层选择行为} + +\begin{figure}[htp] + \centering + \includegraphics[width=0.6\linewidth]{assets/4_layer_selection.pdf} + \caption{RoSA训练过程中各层被DLS选择的频率可视化(Qwen2.5-7B)。} + \label{fig:ch4_layer_sel} +\end{figure} + +对RoSA训练过程中DLS的层选择频率进行可视化分析。结果清晰地展现了层间的显著异质性:某些层被一致地识别为更重要并更频繁地被选择进行适配,而另一些层则很少被选中。这一观察从实证角度验证了层间异质性假设,也说明了DLS策略中利用-探索平衡机制的必要性——避免忽视那些选择频率较低但潜在有价值的层。 + +\subsubsection{DyPAM学习到的调制模式} + +\begin{figure}[htp] + \centering + \includegraphics[width=0.9\linewidth]{assets/4_bias_modulation.pdf} + \caption{DyPAM学习到的位置调制模式。(a)层级偏置在Query维度上的分布,展示异构且结构化的偏置变化;(b)层级调制范围,显示稳定受控的缩放行为。} + \label{fig:ch4_modulation_pattern} +\end{figure} + +对DyPAM学习到的层级偏置和调制范围进行可视化分析,揭示了两个关键发现: + +(1)\textbf{异构的结构偏置}。层级偏置在不同层和不同维度上展现出非均匀的变化模式,而非均匀的偏移。这种结构化的非均匀性表明,不同注意力维度在不同深度发展出了各自独特的位置偏好,与位置信息在各层被差异化利用的直觉一致。 + +(2)\textbf{受控的调制范围}。调制因子围绕1保持适度的方差,表明DyPAM进行的是精细化的微调而非大幅度的重塑。这种克制的调制行为在保留预训练注意力结构的同时提供了必要的适配灵活性。 + + + + + + + + +\section{本章小结} +\label{sec:ch4_summary} + +本章围绕维度级位置结构异质性($\mathcal{R}_{dim}$),在统一分析框架下提出了两种递进式的结构感知适配方法。 + +RoSA通过RoPE感知注意力增强模块(RoAE)选择性地增强Query/Key表示中功能关键的低频维度成分,并通过动态层选择策略(DLS)自适应地分配层间适配资源,实现了"维度内精准增强+层间动态选择"的双层级结构感知适配。在15个常识与数学推理基准上,RoSA在三种骨干模型上均取得了最优性能,同时保持了较低的参数开销。 + +DyPAM进一步将维度级适配从"静态选择"推进至"动态调制",引入输入条件化的维度级调制机制,使调制信号根据输入上下文动态生成;同时引入头级和层级结构偏置,实现多粒度的位置感知。DyPAM通过与RoPE维度对结构的严格对齐和有界调制因子的设计,在保留预训练知识的前提下实现了更精细化的适配。在三种新一代骨干模型和15个基准数据集上,DyPAM进一步超越了包括RoSA在内的所有基线方法。 + +从RoSA到DyPAM的递进演化验证了维度级位置结构异质性作为影响适配效果关键因素的假设,也展示了在统一框架下通过逐步深化结构感知能力来提升适配性能的方法论路径。 + +第三章和第四章分别从模块级功能异质性和维度级位置结构异质性出发,提出了乘性调制范式的结构感知适配方法。下一章将转向频谱级多尺度异质性和参数级容量分配异质性,探索组合式调制和结构分解调制两种新的调制形式,进一步丰富结构感知适配的方法体系。 + + + diff --git a/chap05.tex b/chap05.tex new file mode 100644 index 0000000..30c7d0e --- /dev/null +++ b/chap05.tex @@ -0,0 +1,685 @@ +% !TeX root = ../main.tex +% 第五章 多尺度结构建模与参数结构自适应学习方法 +\chapter{多尺度频谱感知与参数自适应的时空表征学习方法} +\label{chap:cascade_messa} + +\section{本章概述} +\label{sec:ch5_overview} + +前两章分别从模块级功能异质性($\mathcal{R}_{mod}$,第三章)和维度级位置结构异质性($\mathcal{R}_{dim}$,第四章)出发,提出了基于乘性调制的结构感知适配方法。这些方法的共同特点是在\emph{表示空间}中对中间表示流进行调制。本章将视角从表示空间转向\emph{参数空间},关注模型权重更新本身的结构特性,提出两种新的调制形式。 + +在将大语言模型适配到时空数据建模任务时,参数空间的结构异质性表现为两个互补的层面: + +\textbf{第一,频谱级多尺度异质性($\mathcal{R}_{spec}$)}。时空数据的动态变化同时包含多时间尺度成分。从参数更新的频谱视角来看,模型适配同样涉及全局性的平滑调整(低频成分)和局部性的精细修正(高频成分)。实证分析表明,权重更新的高频成分在频谱能量上占主导地位,但影响范围局限于少数参数区域;而低频成分虽然能量较小,却影响权重矩阵的大部分区域。这种能量-影响力失配揭示了从粗到细的适配模式——低频成分建立全局适配结构,高频成分在此基础上进行局部精修。现有PEFT方法通常采用单一结构假设(如纯低秩或纯频域),难以同时捕获这种异构的多尺度适配模式。 + +\textbf{第二,参数级容量分配异质性($\mathcal{R}_{param}$)}。面向多源时空数据的联合建模中,不同任务对模型参数容量的需求并不均匀。交通流量预测、区域功能分类、轨迹推理等任务可以共享部分适配参数(如通用的时空语义对齐),但也需要各自的专用参数支持任务特异性的精细化调整。如何在有限参数预算下,在共享与专用之间实现最优容量分配,构成参数级的结构异质性挑战。 + +针对上述两类异质性,本章提出两种方法: + +\textbf{(1)基于频谱级联的多尺度参数适配方法(CASCADE)}。CASCADE通过异构频域/空域专家(DCT低频专家、小波高频专家、空域残差专家)建模权重更新的多尺度结构,并引入级联频谱调制机制建立低频到高频的从粗到细依赖关系,辅以频谱复杂度感知路由实现自适应专家组合。CASCADE对应统一框架中的组合式调制形式(式~\ref{eq:ch1_compositional})。 + +\textbf{(2)基于共享-特有稀疏分解的多任务适配方法(MESSA)}。MESSA将任务适配分解为全局共享稀疏增量与任务特有稀疏增量,通过预算感知的软门控机制实现可微分的结构分配,最终通过一次性全局剪枝生成可部署的稀疏模型。MESSA对应统一框架中的结构分解调制形式(式~\ref{eq:ch1_structural})。 + +本章后续安排如下:第~\ref{sec:ch5_background}~节分析参数空间的结构异质性问题;第~\ref{sec:cascade}~节详述CASCADE方法;第~\ref{sec:messa}~节详述MESSA方法;第~\ref{sec:ch5_analysis}~节分析两种视角的关联与互补性;第~\ref{sec:ch5_experiments}~节给出实验验证;第~\ref{sec:ch5_summary}~节总结全章。 + + +\section{参数空间的结构异质性分析} +\label{sec:ch5_background} + +\subsection{权重更新的频谱特性} +\label{subsec:ch5_spectral} + +在标准PEFT框架下,给定预训练权重矩阵$\mathbf{W}_0 \in \mathbb{R}^{m \times n}$,适配操作引入加性权重更新$\Delta \mathbf{W}$,使得适配后的变换为$\mathbf{y} = (\mathbf{W}_0 + \Delta \mathbf{W}) \mathbf{x}$。不同PEFT方法通过对$\Delta \mathbf{W}$施加不同的结构约束来降低适配代价。 + +从频域视角来看,$\Delta \mathbf{W}$可以被视为定义在参数索引上的二维信号。通过施加适当的线性变换(如傅里叶变换、小波变换),可以将权重更新分解为与不同空间频率关联的成分。低频成分对应平滑、缓变的模式,跨越权重矩阵的大片区域;高频成分捕获集中于特定参数区域的快速变化。 + +\begin{figure}[htp] + \centering + \includegraphics[width=0.9\linewidth]{assets/5_spectral_analysis.pdf} + \caption{全量微调下权重更新的频谱特性。高频成分在频谱能量上占主导,但影响范围局限于少量参数;低频成分能量较小但影响权重矩阵的大部分区域。该模式在不同层和模块间保持一致。} + \label{fig:ch5_spectral} +\end{figure} + +对全量微调下权重更新的频谱分析揭示了一个重要发现:高频成分在频谱能量上占主导地位,但其影响范围往往局限于参数空间的有限子集;相反,低频成分虽然频谱能量较小,却影响着权重矩阵的大部分区域。这种能量-影响力失配具有明确的物理含义:大空间覆盖范围与低频谱能量对应着分布在大量参数上的平滑一致性变化,代表全局性结构适配;高频谱能量集中于有限参数子集则对应稀疏的局部化修正。 + +这一发现揭示了权重更新的\emph{从粗到细}适配模式:低频成分建立全局适配结构,高频成分在此基础上进行特定区域的精细修正。有效的适配需要同时建模这种异构频率成分及其依赖关系。 + +\subsection{多任务适配中的参数容量分配问题} +\label{subsec:ch5_capacity} + +\begin{figure}[htp] + \centering + \includegraphics[width=0.9\linewidth]{assets/5_task_activation.png} + \caption{多任务微调中不同任务在注意力模块各层的激活差异。红色表示任务A激活更强,蓝色表示任务B激活更强,揭示了不同层和模块对共享/专用适配的差异化需求。} + \label{fig:ch5_task_diff} +\end{figure} + +在实际的时空智能应用中,单一预训练模型通常需要同时服务多个下游任务。在严格的存储和推理效率约束下,如何在多个任务之间分配有限的适配参数预算,成为关键问题。 + +实证分析表明,不同任务在模型内部表现出显著的激活差异。某些层和模块的激活模式在任务间高度一致,适合共享适配参数;而另一些层和模块则表现出强烈的任务依赖性,需要专用参数支持。这种观察促使我们将多任务稀疏微调形式化为一个\emph{结构分配问题}。 + +形式上,考虑$T$个下游任务$\{\mathcal{T}_t\}_{t=1}^T$。每个任务$t$的适配通过稀疏更新$\Delta^{(t)}$实现,分解为共享成分和任务特有成分: +\begin{equation} +\Delta^{(t)} = \Delta_{\text{sh}} + \Delta_{\text{sp}}^{(t)}, +\label{eq:ch5_decomp} +\end{equation} +其中$\Delta_{\text{sh}}$为跨任务共享的稀疏更新,$\Delta_{\text{sp}}^{(t)}$为任务$t$的特有稀疏更新。所有任务的适配需满足统一的全局参数预算约束$B$。 + +现有方法在面对此问题时存在两个根本局限:(1)\textbf{任务共享挑战}——要么强制全部共享(无法捕获任务差异),要么完全独立(参数冗余);(2)\textbf{资源分配挑战}——缺乏全局分配机制,共享与专用参数无法在统一预算下联合竞争。 + +\subsection{对时空适配方法的启示} + +上述分析为时空适配方法的设计提供了以下启示: + +\textbf{(1)需要异构的参数化策略。}单一的结构假设(如纯低秩或纯频域)无法同时捕获全局平滑调整和局部精细修正。有效的方法应当为不同类型的更新模式提供各自适合的参数化方式。 + +\textbf{(2)需要跨频率的协调机制。}全局更新和局部更新并非独立,局部修正应当受全局结构的指导。需要显式建模这种从粗到细的依赖关系。 + +\textbf{(3)需要共享-专用的灵活分解。}多任务适配应当允许部分参数在任务间共享,同时保留足够的专用参数容量,且分配应当是数据驱动的而非人为预设的。 + +\textbf{(4)需要全局预算约束下的联合优化。}共享和专用参数应当在统一预算框架下竞争分配,避免孤立分配导致的次优解。 + +CASCADE和MESSA分别回应了上述启示的前两点和后两点。 + + +\section{基于频谱级联的多尺度参数适配方法} +\label{sec:cascade} + +基于上节对权重更新频谱特性的分析,本节提出基于频谱级联的多尺度参数适配方法(Coarse-to-Fine Spectral Cascading, CASCADE)。CASCADE的核心思想是:通过异构频域/空域专家分别建模不同尺度的适配模式,并通过级联调制建立从粗到细的跨频率依赖关系。 + +\begin{figure}[htp] + \centering + \includegraphics[width=0.85\linewidth]{assets/5_cascade_arch.pdf} + \caption{CASCADE方法框架图。CASCADE通过异构的频域和空域专家适配冻结的骨干模块,借助级联调制协调全局与局部更新,并通过频谱复杂度感知路由实现自适应专家组合。} + \label{fig:ch5_cascade_arch} +\end{figure} + +\subsection{框架概述} +\label{subsec:cascade_overview} + +如图~\ref{fig:ch5_cascade_arch}所示,CASCADE采用异构混合专家架构,在冻结的预训练骨干上引入三个互补的专家:(i)基于离散余弦变换(DCT)的低频专家,捕获全局平滑更新;(ii)基于小波细节子带的高频专家,建模局部精细修正;(iii)空域残差专家,处理频域难以表示的更新模式。 + +CASCADE进一步引入级联频谱调制机制,使低频更新条件化地指导高频修正的生成,建立显式的从粗到细依赖关系。同时,频谱复杂度感知路由模块基于输入特征动态组合不同专家的输出。 + +在统一分析框架下,CASCADE的适配操作形式化为: +\begin{equation} +\mathbf{y} = \mathbf{W}_0 \mathbf{x} + \sum_{e=1}^{E} w_e(\mathbf{x}) \cdot \Delta \mathbf{W}_e \mathbf{x}, +\label{eq:ch5_cascade_formulation} +\end{equation} +其中$w_e(\mathbf{x})$为输入依赖的路由权重,$\Delta \mathbf{W}_e$为第$e$个专家产生的结构化权重更新。三个专家分别在不同域中对$\Delta \mathbf{W}$施加互补的结构约束。 + +\subsection{异构频域专家设计} +\label{subsec:cascade_experts} + +\subsubsection{基于DCT的低频专家} + +低频专家旨在捕获跨越权重矩阵大片区域的全局平滑更新模式。这类模式通常源于语义对齐或全局推理行为的调整。 + +为引入全局平滑先验,该专家在离散余弦变换(DCT)域中参数化更新。设$\mathbf{S}_{\text{dct}} \in \mathbb{R}^{m \times n}$为DCT域系数矩阵。通过限制学习只在预定义的低频索引集$\mathcal{I}_{\text{dct}}$上进行: +\begin{equation} +\mathbf{S}_{\text{dct}}[i,j] = +\begin{cases} +s_k, & (i,j) \in \mathcal{I}_{\text{dct}}, \\ +0, & \text{otherwise}, +\end{cases} +\label{eq:ch5_dct_sparse} +\end{equation} +其中$\{s_k\}_{k=1}^{K_{\text{dct}}}$为与固定低频位置关联的可训练参数。索引集$\mathcal{I}_{\text{dct}}$通过选择距零频索引(0,0)曼哈顿距离最小的$K_{\text{dct}}$个位置获得。空域更新通过逆DCT变换重建: +\begin{equation} +\Delta \mathbf{W}_{\text{dct}} = \text{IDCT}(\mathbf{S}_{\text{dct}}). +\label{eq:ch5_dct_inverse} +\end{equation} + +通过限制学习低频系数,该专家对$\Delta \mathbf{W}_{\text{dct}}$施加全局平滑先验,以紧凑的参数化高效建模大尺度结构调整。 + +\subsubsection{基于小波的高频专家} + +低频专家捕获全局结构,但有效适配同样需要精细化的局部高频修正。为建模此类模式,高频专家在小波域中参数化更新,利用小波变换在空间和频率域上的联合局部化能力。 + +采用单层二维Haar小波基,定义四个子带:一个低频近似子带($\mathbf{LL}$)和三个细节子带($\mathbf{LH}$、$\mathbf{HL}$、$\mathbf{HH}$),分别对应不同方向的高频成分。为聚焦局部修正,丢弃近似成分,仅参数化细节子带。设$\mathcal{B}=\{\text{LH}, \text{HL}, \text{HH}\}$为细节子带集合,对每个$b \in \mathcal{B}$学习稀疏系数矩阵$\mathbf{B}_b$: +\begin{equation} +\mathbf{B}_b[i,j] = +\begin{cases} +s^{(b)}_k, & (i,j) \in \mathcal{I}_b, \\ +0, & \text{otherwise}, +\end{cases} +\label{eq:ch5_wavelet_sparse} +\end{equation} +其中$\mathcal{I}_b$为随机采样一次并在训练中保持不变的固定索引集。空域更新通过逆Haar变换重建: +\begin{equation} +\Delta \mathbf{W}_{\text{wav}} = \text{IHaar}(\mathbf{0}, \mathbf{B}_{\text{LH}}, \mathbf{B}_{\text{HL}}, \mathbf{B}_{\text{HH}}). +\label{eq:ch5_wavelet_inverse} +\end{equation} + +\subsubsection{空域残差专家} + +频域参数化虽然施加了有用的结构先验,但可能无法捕获某些不规则的更新模式。CASCADE包含一个轻量空域残差专家,直接在原始参数空间中以低秩分解参数化残差更新: +\begin{equation} +\Delta \mathbf{W}_{\text{spatial}} = \mathbf{B}\mathbf{A}, +\label{eq:ch5_spatial_update} +\end{equation} +其中$\mathbf{A} \in \mathbb{R}^{r \times n}$和$\mathbf{B} \in \mathbb{R}^{m \times r}$,$r$为较小的秩。该专家为频域专家无法充分表达的更新模式提供补偿。 + +\subsection{级联频谱调制机制} +\label{subsec:cascade_cascading} + +上述异构专家分别捕获权重更新的互补方面。然而,若将全局更新和局部更新视为独立成分,则忽略了它们之间的内在依赖——局部修正在实践中往往受全局结构的指导。为显式建模这种从粗到细的关系,CASCADE引入级联频谱调制机制。 + +具体地,将学习到的低频DCT系数展平为固定维度的条件化向量$\mathbf{z}$,该向量概括了全局适配模式,作为条件化网络的输入: +\begin{equation} +(\gamma_b, \beta_b)_{b \in \mathcal{B}} = g(\mathbf{z}), +\label{eq:ch5_film_params} +\end{equation} +其中$g(\cdot)$为轻量多层感知机,输出逐子带的标量调制参数。调制应用于小波细节子带系数: +\begin{equation} +\tilde{\mathbf{B}}_b = (1 + \gamma_b) \mathbf{B}_b + \beta_b, \quad b \in \mathcal{B}, +\label{eq:ch5_bandwise_film} +\end{equation} +其中$\gamma_b$和$\beta_b$为在子带$b$内所有位置间共享的标量参数。调制仅应用于$\mathcal{I}_b$中的采样系数位置。 + +该设计建立了显式的从粗到细依赖关系:全局低频结构引导局部修正的生成,确保局部化的精细调整与整体适配方向保持一致。 + +\subsection{频谱复杂度感知路由} +\label{subsec:cascade_routing} + +级联调制定义了不同更新成分之间的耦合方式,但这些成分的相对重要性可能因输入而异。CASCADE采用频谱复杂度感知路由机制,基于输入特征动态组合专家输出。 + +给定线性层的输入激活,通过池化获得序列级表示$\bar{\mathbf{x}}$。从该表示中提取两类互补的路由特征:轻量频谱统计特征$\bar{\mathbf{x}}_{\text{spec}}$(刻画输入的变化和振荡程度)和通过可学习线性投影获得的语义特征。两类特征通过线性投影融合: +\begin{equation} +\mathbf{h} = \mathbf{W}_{\text{spec}} \bar{\mathbf{x}}_{\text{spec}} + \mathbf{W}_{\text{sem}} \bar{\mathbf{x}}, +\label{eq:ch5_feature_fusion} +\end{equation} +并通过Softmax映射为专家权重: +\begin{equation} +\mathbf{w} = \text{softmax}(\mathbf{W}_{\text{out}} \mathbf{h}), +\label{eq:ch5_routing_weights} +\end{equation} +其中$\mathbf{w} \in \mathbb{R}^{E}$为每个专家分配的非负权重。 + +\subsection{训练目标} +\label{subsec:cascade_training} + +CASCADE在冻结骨干的基础上使用下游任务的标准监督目标进行端到端训练。整体训练目标包含任务损失和两个辅助正则化项: +\begin{equation} +\mathcal{L} = \mathcal{L}_{\text{task}} + \lambda_{\text{bal}} \mathcal{L}_{\text{bal}} + \lambda_{\text{orth}} \mathcal{L}_{\text{orth}}, +\label{eq:ch5_cascade_loss} +\end{equation} +其中$\mathcal{L}_{\text{bal}}$为路由负载均衡正则化,通过约束各专家路由权重的分布均匀性防止退化的路由解: +\begin{equation} +\mathcal{L}_{\text{bal}} = E \sum_{e=1}^{E} \left( \frac{1}{B} \sum_{b=1}^{B} w_e^{(b)} \right)^2, +\label{eq:ch5_load_balance} +\end{equation} +其中$w_e^{(b)}$为专家$e$在第$b$个样本上的路由权重,$B$为批次大小。$\mathcal{L}_{\text{orth}}$为频谱正交性正则化,鼓励频域专家捕获互补的频谱模式: +\begin{equation} +\mathcal{L}_{\text{orth}} = \left| \left\langle \mathrm{vec}(\mathbf{S}_{\text{dct}}), \mathrm{vec}([\mathbf{B}_{\mathrm{LH}}, \mathbf{B}_{\mathrm{HL}}, \mathbf{B}_{\mathrm{HH}}]) \right\rangle \right|. +\label{eq:ch5_orth_loss} +\end{equation} +该项通过最小化DCT系数向量与小波系数向量之间的内积绝对值,促使两类频域专家分别聚焦于互补的频谱模式。 + +CASCADE的主要超参数包括:低频DCT系数20K个、小波系数10K个、空域残差专家秩$r=48$、负载均衡和正交性损失权重均为0.01。CASCADE的整体训练流程如算法~\ref{alg:ch5_cascade}所示。 + +\RestyleAlgo{ruled} +\begin{algorithm}[htp] +\caption{CASCADE:从粗到细的频谱级联适配算法} +\label{alg:ch5_cascade} +\KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$} +\KwOut{适配后的输出$\mathbf{y}$} +计算基础输出 $\mathbf{y}_0 \leftarrow \mathbf{W}_0 \mathbf{x}$\; +\textbf{低频专家:}\; +构建稀疏DCT频谱$\mathbf{S}_{\text{dct}}$(式~\ref{eq:ch5_dct_sparse})\; +重建全局更新$\Delta \mathbf{W}_{\text{dct}}$(式~\ref{eq:ch5_dct_inverse})\; +\textbf{高频专家:}\; +构建稀疏小波细节系数$\{\mathbf{B}_b\}_{b\in\mathcal{B}}$(式~\ref{eq:ch5_wavelet_sparse})\; +计算调制参数$(\gamma_b,\beta_b)_{b\in\mathcal{B}}$(式~\ref{eq:ch5_film_params})\; +应用频段级FiLM调制$\tilde{\mathbf{B}}_b$(式~\ref{eq:ch5_bandwise_film})\; +重建局部更新$\Delta \mathbf{W}_{\text{wav}}$(式~\ref{eq:ch5_wavelet_inverse})\; +\textbf{空域残差专家:}\; +计算残差更新$\Delta \mathbf{W}_{\text{spatial}}$(式~\ref{eq:ch5_spatial_update})\; +\textbf{路由与聚合:}\; +计算专家权重$\mathbf{w}$(式~\ref{eq:ch5_routing_weights})\; +聚合更新 $\Delta \mathbf{W} \leftarrow \sum_{e=1}^{E} w_e \cdot \Delta \mathbf{W}_e$\; +\Return{$\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$} +\end{algorithm} + + +\section{基于共享-特有稀疏分解的多任务适配方法} +\label{sec:messa} + +CASCADE解决了单一适配中的频谱级多尺度异质性问题。本节进一步关注多任务场景下的参数级容量分配异质性,提出MESSA(Multi-task Efficient Shared-Specific Sparse Adaptation)方法。 + +\begin{figure}[htp] + \centering + \includegraphics[width=0.85\linewidth]{assets/5_messa_arch.pdf} + \caption{MESSA方法框架图。MESSA将适配分解为共享和任务特有的稀疏更新,通过预算感知的软门控学习稀疏结构,并通过软到硬的训练过程在统一参数预算下生成可部署的稀疏模型。} + \label{fig:ch5_messa_arch} +\end{figure} + +\subsection{框架概述} +\label{subsec:messa_overview} + +MESSA的核心思想是将多任务稀疏微调形式化为结构分配问题:参数组作为决策单元,被显式分配为冻结、跨任务共享或任务特有三种状态之一,且在统一全局预算约束下进行优化。 + +如图~\ref{fig:ch5_messa_arch}所示,MESSA包含三个关键设计:(1)共享-特有稀疏表示(SS-Sparse),将每个任务的适配分解为共享和任务特有的稀疏增量;(2)预算感知的软门控机制,通过可微分门控变量引导结构分配;(3)软到硬的结构学习策略,通过一次性剪枝将学习到的软结构转化为固定的可部署稀疏模型。 + +在统一分析框架下,MESSA的适配操作对应结构分解调制形式(式~\ref{eq:ch1_structural}): +\begin{equation} +\Delta^{(t)} = \sum_{g \in \mathcal{G}} \left( z^{\text{sh}}_g \cdot \Delta^{\text{sh}}_g + z^{\text{sp}}_{g,t} \cdot \Delta^{\text{sp}}_{g,t} \right), +\label{eq:ch5_messa_gated} +\end{equation} +其中$z^{\text{sh}}_g$和$z^{\text{sp}}_{g,t}$分别为共享和任务特有的软门控值,控制参数组$g$在共享与专用方向上的分配。 + +\subsection{共享-特有稀疏表示} +\label{subsec:messa_ss_sparse} + +\subsubsection{多任务共享-特有增量分解} + +MESSA将每个任务$t$的适配增量分解为共享成分和任务特有成分(式~\ref{eq:ch5_decomp})。共享增量$\Delta_{\text{sh}}$捕获跨任务的通用知识,任务特有增量$\Delta_{\text{sp}}^{(t)}$建模任务依赖的变化。 + +该分解的优势在于:第一,允许相关任务复用一组通用的稀疏更新,减少参数冗余;第二,保留足够的灵活性进行任务特有适配,避免强制完全共享的限制。 + +\subsubsection{行级结构化参数组} + +为实现结构化稀疏和高效的容量分配,MESSA将稀疏更新组织为参数组。对于权重矩阵$\mathbf{W} \in \mathbb{R}^{d_{\text{out}} \times d_{\text{in}}}$中的线性变换,每个输出行被视为一个独立的参数组。参数组$g$的参数代价为$s_g = d_{\text{in}}$。 + +行级分组在灵活性和结构化之间取得良好平衡:相比逐元素稀疏性,显著减少了结构决策数量;相比更粗粒度的层级分组,允许更精细的容量分配。在Transformer模型中,行级参数组自然对应输出神经元和注意力投影,适合作为选择性适配的基本单位。 + +\subsubsection{组级软门控} + +为实现可微分的结构分配,MESSA为每个参数组关联可学习的软门控。对于参数组$g$,引入共享门控$z^{\text{sh}}_g \in (0,1)$和任务特有门控$z^{\text{sp}}_{g,t} \in (0,1)$,分别调制共享和任务特有成分的贡献。 + +软门控作为离散结构决策的连续代理,允许梯度优化同时作用于参数值和结构分配变量。训练期间,参数组可以同时参与共享和任务特有更新,允许模型探索不同程度的跨任务共享。 + +\subsubsection{共享-特有重叠正则化} + +为防止共享和任务特有成分的过度同时激活(导致冗余适配和不清晰的结构分离),MESSA引入重叠正则化: +\begin{equation} +\mathcal{L}_{\text{overlap}} = \sum_{t=1}^T \sum_{g \in \mathcal{G}} z^{\text{sh}}_g \cdot z^{\text{sp}}_{g,t}, +\label{eq:ch5_overlap} +\end{equation} +鼓励每个参数组倾向于被分配给共享\emph{或}任务特有适配之一。 + +\subsection{预算感知的软到硬结构学习} +\label{subsec:messa_soft_to_hard} + +\subsubsection{预热阶段} + +训练初期,稀疏适配参数和结构门控尚不具备信息量。为避免不稳定的分配决策,MESSA引入预热阶段:冻结门控变量,仅优化候选池内的稀疏适配参数: +\begin{equation} +\mathcal{L}_{\text{warmup}} = \mathcal{L}_{\text{task}}. +\label{eq:ch5_warmup} +\end{equation} + +\subsubsection{预算感知的软学习} + +预热后,联合优化稀疏适配参数和结构门控。定义软门控下的预期适配代价: +\begin{equation} +\mathcal{C}_{\text{soft}} = \sum_{g \in \mathcal{G}} s_g \cdot z^{\text{sh}}_g + \sum_{t=1}^T \sum_{g \in \mathcal{G}} s_g \cdot z^{\text{sp}}_{g,t}, +\label{eq:ch5_soft_cost} +\end{equation} +通过惩罚超出目标预算$B$来施加预算约束: +\begin{equation} +\mathcal{L}_{\text{budget}} = \max(0, \mathcal{C}_{\text{soft}} - B). +\label{eq:ch5_budget} +\end{equation} + +该阶段的整体训练目标为: +\begin{equation} +\mathcal{L}_{\text{soft}} = \mathcal{L}_{\text{task}} + \mathcal{L}_{\text{budget}} + \lambda_{\text{overlap}} \mathcal{L}_{\text{overlap}}, +\label{eq:ch5_soft_objective} +\end{equation} +在任务性能、结构稀疏性和共享-特有分离之间取得平衡。 + + +\RestyleAlgo{ruled} +\begin{algorithm}[htp] +\caption{MESSA:软到硬的多任务稀疏微调算法} +\label{alg:ch5_messa} +\KwIn{冻结骨干模型$\mathcal{M}$,任务集合$\{\mathcal{T}_t\}_{t=1}^T$,全局预算$B$,训练步数$S$} +\KwOut{共享稀疏更新$\Delta_{\mathrm{sh}}$,各任务特有稀疏更新$\{\Delta_{\mathrm{sp}}^{(t)}\}_{t=1}^T$} +初始化$\Delta_{\mathrm{sh}}, \Delta_{\mathrm{sp}}^{(t)} \leftarrow \mathbf{0}$,对所有$t$\; +初始化所有参数组的软门控变量\; +基于行级权重范数构建候选池$\mathcal{C}$\; +设定预热步数$S_{\mathrm{warmup}}$和剪枝步$S_{\mathrm{prune}}$\; +\For{$s = 1$ \KwTo $S$}{ + 采样任务$t$和对应小批量数据\; + \If{$s \le S_{\mathrm{warmup}}$}{ + 冻结所有软门控\; + 在候选池$\mathcal{C}$内使用任务损失$\mathcal{L}_{\text{task}}$更新$\Delta_{\mathrm{sh}}$和$\Delta_{\mathrm{sp}}^{(t)}$(式~\ref{eq:ch5_warmup})\; + } + \Else{ + 使用软门控计算门控化更新(式~\ref{eq:ch5_messa_gated})\; + 使用预算感知目标$\mathcal{L}_{\text{soft}}$联合优化稀疏更新和门控变量(式~\ref{eq:ch5_soft_objective})\; + } + \If{$s = S_{\mathrm{prune}}$}{ + 按门控值对参数组排序\; + 在预算$B$约束下选择共享和任务特有参数组\; + 将软门控转为二值掩码,剪枝未选中组\; + 固定稀疏结构,进行剩余训练步的参数精调\; + } +} +\Return{$\Delta_{\mathrm{sh}}, \{\Delta_{\mathrm{sp}}^{(t)}\}_{t=1}^T$} +\end{algorithm} + +\subsubsection{一次性硬选择} + +预算感知软学习之后,通过一次性硬选择将学习到的软结构转化为固定的可部署稀疏结构。按门控值($z^{\text{sh}}_g$用于共享更新,$z^{\text{sp}}_{g,t}$用于任务特有更新)对参数组排序,依次选择得分最高的组直到满足全局预算约束。未选中组的更新被设为零,选中组的稀疏更新被固定用于推理。最终模型具有固定的稀疏结构,在推理时不引入额外开销。 + +\subsection{MESSA整体算法} +\label{subsec:messa_algorithm} + +MESSA的整体训练流程遵循软到硬的结构学习范式,如算法~\ref{alg:ch5_messa}所示。 + + +MESSA的主要超参数包括:参数预算2.5\%、门控预热比例5\%、在训练15\%处执行剪枝。候选池因子设为1.5,重叠允许比例为15\%。MESSA不修改骨干架构也不引入辅助模块,适合多任务部署场景。 + + +\section{频谱结构与稀疏结构的关联分析} +\label{sec:ch5_analysis} + +CASCADE和MESSA从不同角度应对参数空间的结构异质性挑战,两者之间存在深层的关联与互补性。 + +\subsection{统一框架下的定位} + +在结构感知调制统一框架中,CASCADE对应组合式调制(式~\ref{eq:ch1_compositional}),将权重更新分解为不同频段的成分进行独立参数化后重组;MESSA对应结构分解调制(式~\ref{eq:ch1_structural}),将适配参数分解为共享和专用两部分进行差异化分配。 + +两种调制形式反映了参数空间结构异质性的两个正交维度:CASCADE关注\emph{单一适配内部的多尺度频谱结构}——全局性的平滑调整与局部性的精细修正需要不同的参数化策略;MESSA关注\emph{多任务间的容量分配结构}——共享知识与专用知识需要在有限预算下进行最优分配。 + +\subsection{互补性分析} + +\textbf{(1)视角互补}。CASCADE从频谱分解的视角审视权重更新的内在结构,解决的是"如何表示不同尺度的适配模式"的问题;MESSA从任务分解的视角审视跨任务的参数分配,解决的是"如何在任务间分配适配容量"的问题。 + +\textbf{(2)适用场景互补}。CASCADE更适用于单一复杂任务的深度适配场景,其多尺度专家可以精细化地捕获不同层次的适配需求;MESSA更适用于多任务并行部署场景,其共享-特有分解与预算感知分配直接面向资源受限的多任务部署需求。 + +\textbf{(3)方法组合的可能性}。从原理上,CASCADE和MESSA的设计并不互斥。可以设想在MESSA的共享-特有框架内,对每个稀疏更新成分采用CASCADE的异构频域参数化,从而同时实现多尺度感知和跨任务分配。 + +\subsection{共同验证的核心观点} + +两种方法共同验证了一个核心观点:参数空间的结构异质性是影响适配效果的关键因素。无论是通过异构频域专家与级联调制来捕获多尺度适配模式(CASCADE),还是通过共享-特有分解与预算感知优化来实现跨任务容量分配(MESSA),显式地感知和利用参数空间的结构特性,都能显著提升参数高效微调的效能。 + + +\section{实验验证与结果分析} +\label{sec:ch5_experiments} + +本节通过大量实验系统评估CASCADE和MESSA的有效性。 + +\subsection{CASCADE实验验证} +\label{subsec:ch5_cascade_exp} + +\subsubsection{实验设置} + +\textbf{数据集与任务}。遵循LLM-Adapters设置,在常识推理(8个基准:BoolQ、PIQA、SocialIQA、ARC-Challenge、ARC-Easy、OpenBookQA、HellaSwag、WinoGrande)和数学推理(7个基准:MultiArith、GSM8K、AddSub、AQuA、SingleEq、SVAMP、MAWPS)两类任务上评估。训练数据包括Commonsense15K和Math10K。常识推理任务采用Micro-Avg准确率作为主要指标,数学推理任务同样报告Micro-Avg准确率。 + +\textbf{骨干模型}。采用Qwen3-4B、LLaMA 3.2-3B和Gemma3-4B三种预训练模型作为主要评估骨干。可扩展性实验使用Qwen3系列(0.6B、1.7B、4B)以评估方法在不同模型容量下的表现。 + +\textbf{基线方法}。与六种代表性PEFT方法进行比较:低秩方法(LoRA、AdaLoRA、BONE)、频域方法(FourierFT、LoCA)和MoE方法(FlyLoRA)。所有方法在可比参数预算下进行公平比较。 + +\textbf{实现细节}。在NVIDIA RTX 3090上使用BF16混合精度和DeepSpeed训练。采用AdamW优化器,学习率1e-4,余弦学习率调度,序列长度256。CASCADE配置:20K低频DCT系数、10K小波系数、空域残差专家秩$r=48$、负载均衡和正交性损失权重$\lambda_{\text{bal}}=\lambda_{\text{orth}}=0.01$。评估采用贪心解码,最大生成长度256 token,通过正则表达式提取答案计算准确率。 + +\subsubsection{常识推理性能} + +表~\ref{tab:ch5_cascade_common}展示了CASCADE在常识推理任务上的性能。 + +\begin{table}[htp] + \centering + \caption{CASCADE与基线方法在常识推理任务上的性能比较(Micro-Avg准确率\%)。*表示统计显著提升。} + \label{tab:ch5_cascade_common} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{1.05} + \begin{tabular}{l|lcccccccccc} + \toprule + \textbf{骨干} & \textbf{方法} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} \\ + \midrule + \multirow{7}{*}{\rotatebox{90}{\textbf{Qwen3-4B}}} + & LoRA & 66.88 & 82.97 & \underline{73.59} & 86.86 & 92.21 & \underline{83.60} & 85.37 & \underline{68.75} & 81.27 \\ + & AdaLoRA & \underline{67.34} & 82.64 & 73.44 & 87.03 & 92.89 & 82.00 & 79.99 & 67.88 & 78.89 \\ + & BONE & 66.15 & 81.61 & 72.62 & 85.24 & 92.55 & 75.40 & 78.85 & 68.11 & 77.78 \\ + & FourierFT & 66.57 & 80.30 & 73.54 & 86.01 & 92.09 & 82.40 & 79.59 & 63.14 & 78.01 \\ + & LoCA & 66.85 & 83.03 & 72.67 & 86.95 & \underline{93.27} & 80.60 & 84.33 & 66.69 & 80.66 \\ + & FlyLoRA & 66.51 & \underline{83.35} & 73.54 & \underline{87.20} & 93.06 & 78.20 & \underline{85.63} & 68.35 & \underline{81.33} \\ + & \textbf{CASCADE} & \textbf{67.74} & \textbf{83.46} & \textbf{75.49} & \textbf{87.88} & \textbf{93.64} & \textbf{86.40} & \textbf{85.75} & \textbf{71.98} & \textbf{82.22*} \\ + \midrule + \multirow{7}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}} + & LoRA & 61.41 & 78.62 & 66.79 & 68.26 & 84.05 & 70.20 & 79.49 & \underline{56.35} & \underline{74.05} \\ + & AdaLoRA & \underline{61.53} & 78.89 & 67.04 & \underline{69.71} & 83.63 & 69.60 & 79.31 & 54.78 & 73.96 \\ + & BONE & 60.61 & 76.17 & 66.53 & 67.24 & 79.88 & 63.20 & 79.28 & 50.04 & 72.61 \\ + & FourierFT & 60.92 & \underline{80.30} & 59.47 & 67.75 & 82.45 & 66.40 & 79.05 & 50.67 & 72.68 \\ + & LoCA & 61.07 & 78.51 & 64.12 & 66.47 & 82.37 & 67.20 & 77.07 & 55.88 & 72.31 \\ + & FlyLoRA & 59.02 & 78.94 & \underline{67.14} & 67.58 & \underline{84.22} & \underline{71.80} & \underline{79.66} & 52.49 & 73.64 \\ + & \textbf{CASCADE} & \textbf{62.66} & \textbf{80.69} & \textbf{67.40} & \textbf{69.97} & \textbf{84.68} & \textbf{73.60} & \textbf{79.94} & \textbf{62.59} & \textbf{75.25*} \\ + \midrule + \multirow{7}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}} + & LoRA & 64.34 & 78.07 & \underline{70.21} & 75.26 & \underline{87.37} & 75.60 & \underline{77.97} & \underline{61.88} & \underline{75.21} \\ + & AdaLoRA & \underline{64.86} & \underline{79.16} & 69.91 & 75.68 & 86.87 & 72.00 & 77.19 & 61.17 & 74.84 \\ + & BONE & 63.67 & 78.35 & 69.19 & \underline{76.11} & 86.95 & 70.60 & 73.97 & 48.22 & 72.37 \\ + & FourierFT & 64.22 & 77.42 & 68.68 & 74.32 & 87.33 & 72.00 & 74.49 & 50.75 & 72.68 \\ + & LoCA & 63.52 & 76.82 & 68.47 & 73.29 & 85.98 & 68.20 & 75.06 & 49.01 & 72.39 \\ + & FlyLoRA & 61.59 & 76.12 & 67.45 & 75.34 & 86.53 & \underline{77.60} & 77.88 & 58.72 & 74.15 \\ + & \textbf{CASCADE} & \textbf{65.81} & \textbf{80.36} & \textbf{73.39} & \textbf{77.39} & \textbf{88.97} & \textbf{79.00} & \textbf{78.47} & \textbf{64.09} & \textbf{76.59*} \\ + \bottomrule + \end{tabular} + } +\end{table} + +CASCADE在所有三种骨干模型上均取得了统计显著的最优Micro-Avg性能。在Qwen3-4B上达到82.22\%,超过最强基线FlyLoRA(81.33\%)0.89个百分点;在LLaMA 3.2-3B上达到75.25\%,超过LoRA(74.05\%)1.20个百分点;在Gemma3-4B上达到76.59\%,超过LoRA(75.21\%)1.38个百分点。这些一致性的提升表明,联合建模异构更新成分比依赖单一结构假设更为有效。 + +进一步分析各骨干模型的结果可以发现:在Qwen3-4B上,CASCADE在8个基准中的7个上取得最优或并列最优,仅在HellaSwag上略低于FlyLoRA(85.75\% vs 85.63\%),但差距极小且在OBQA上显著领先(86.40\% vs 78.20\%),体现了多尺度适配的全面优势;在LLaMA 3.2-3B上,CASCADE相比LoRA的提升在WinoGrande上最为显著(62.59\% vs 56.35\%,提升6.24个百分点),表明多尺度频谱分解对长程依赖建模有较大增益;在Gemma3-4B上,CASCADE在SIQA任务上的提升尤为突出(73.39\% vs 70.21\%),显示其对社会推理类任务的适配能力。 + +\subsubsection{数学推理性能} + +表~\ref{tab:ch5_cascade_math}展示了CASCADE在数学推理任务上的性能。 + +\begin{table}[htp] + \centering + \caption{CASCADE与基线方法在数学推理任务上的性能比较(Qwen3-4B,Micro-Avg准确率\%)。*表示统计显著提升。} + \label{tab:ch5_cascade_math} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{1.05} + \begin{tabular}{lcccccccc} + \toprule + \textbf{方法} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} \\ + \midrule + LoRA & \underline{77.50} & \underline{36.16} & \underline{83.80} & 26.77 & 85.83 & 55.90 & \underline{79.41} & \underline{58.53} \\ + AdaLoRA & 80.50 & 33.81 & 75.95 & 22.83 & 74.41 & 48.80 & 74.37 & 54.01 \\ + BONE & 79.50 & 31.69 & 78.99 & \underline{27.17} & 80.71 & 50.30 & 76.05 & 54.94 \\ + FourierFT & 68.67 & 31.08 & 76.46 & 23.62 & 78.54 & \underline{57.30} & 74.34 & 54.02 \\ + LoCA & 73.33 & 30.63 & 72.15 & 21.65 & 75.98 & 48.30 & 69.33 & 51.41 \\ + FlyLoRA & 79.67 & 35.33 & 81.52 & 22.83 & \underline{86.42} & 56.20 & 73.11 & 57.93 \\ + \textbf{CASCADE} & \textbf{81.33} & \textbf{37.00} & \textbf{86.08} & \textbf{27.56} & \textbf{87.60} & \textbf{57.90} & \textbf{80.25} & \textbf{60.29*} \\ + \bottomrule + \end{tabular} + } +\end{table} + +CASCADE在Qwen3-4B上取得了60.29\%的最优Micro-Avg性能,显著优于所有基线方法。相比次优方法LoRA(58.53\%),CASCADE提升了1.76个百分点。在7个数学推理基准中的6个上取得最优,表明其多尺度适配策略在数值计算和多步推理任务上同样有效。 + +\subsubsection{跨模型规模的可扩展性} + +表~\ref{tab:ch5_cascade_scale}展示了CASCADE在Qwen3系列不同模型规模上的常识推理性能。 + +\begin{table}[htp] + \centering + \caption{CASCADE与基线方法在不同模型规模上的常识推理性能比较(Micro-Avg准确率\%)。} + \label{tab:ch5_cascade_scale} + \small + \begin{tabular}{lccc} + \toprule + \textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} \\ + \midrule + LoRA & \underline{57.50} & \underline{66.25} & 81.27 \\ + AdaLoRA & 56.50 & 64.37 & 78.89 \\ + FlyLoRA & 54.37 & 62.12 & \underline{81.33} \\ + \textbf{CASCADE} & \textbf{58.07} & \textbf{66.75} & \textbf{82.22} \\ + \bottomrule + \end{tabular} +\end{table} + +CASCADE在所有模型规模上均取得最优性能,且在较小模型(0.6B)上的优势更为明显(超过次优方法0.57个百分点),表明CASCADE的多尺度频谱分解在参数容量有限时也能有效提取关键适配模式。 + +\subsubsection{消融与路由行为分析} + +\begin{figure}[htp] + \centering + \subcaptionbox{消融实验\label{fig:ch5_cascade_ablation_a}}{% + \includegraphics[width=0.48\linewidth]{assets/5_cascade_ablation_a.pdf}} + \hfill + \subcaptionbox{路由权重分布\label{fig:ch5_cascade_ablation_b}}{% + \includegraphics[width=0.48\linewidth]{assets/5_cascade_ablation_b.pdf}} + \caption{CASCADE的消融实验与路由行为分析。(a)移除各组件后的性能变化;(b)不同层中各专家的路由权重分布。} + \label{fig:ch5_cascade_ablation} +\end{figure} + +消融实验表明:(1)移除DCT低频专家后,Micro-Avg从82.22\%下降约0.8个百分点,证明全局性的平滑适配结构对于建立基础适配框架不可或缺;(2)移除小波高频专家导致约0.6个百分点的下降,说明局部精细修正在低频基础之上提供了必要的互补;(3)禁用级联频谱调制机制(即切断低频到高频的条件依赖,让各频段独立工作)进一步降低约0.5个百分点,突显了显式建模从粗到细依赖关系的重要性——高频调制需要以低频的全局结构为条件;(4)空域残差专家提供约0.3个百分点的一致性增益,补偿了频域变换难以表达的局部空间更新模式。上述结果表明CASCADE的四个组件各自独立贡献不可替代的适配功能。 + +路由权重的层间可视化揭示了一个有意义的模式:在Transformer的浅层(前1/3),DCT低频专家获得的平均路由权重显著高于其他专家,反映浅层偏好全局性的特征对齐;在中间层,三类专家的权重趋于均衡,表明中间表示同时需要多尺度的调整;在深层(后1/3),小波高频专家的权重明显增大,表明深层更需要对局部语义特征的精细修正。这种层间路由演化趋势与CASCADE预期的从粗到细适配行为高度一致,也从另一角度验证了级联调制机制的合理性。 + +\subsection{MESSA实验验证} +\label{subsec:ch5_messa_exp} + +\subsubsection{实验设置} + +\textbf{数据集与任务}。在五个多样化任务上评估多任务联合适配能力:BoolQ(布尔推理,Acc)、CodeAlpaca(代码生成,ICR)、MedQA(医学问答,Acc)、GSM8K(数学推理,EM)和HellaSwag(常识推理,Acc)。这五个任务涵盖了从事实判断、程序生成到领域知识和数学计算的异质推理场景,对多任务适配方法提出了全面的考验。报告三个聚合指标:Macro Average(宏平均)、Geometric Mean(几何平均,对低性能任务更敏感)和Worst-Task(最差任务性能,衡量任务间均衡性)。 + +\textbf{骨干模型}。采用Qwen3-4B、LLaMA 3.2-3B和Gemma3-4B三种架构差异显著的预训练模型,以评估方法的跨架构泛化能力。可扩展性实验使用Qwen3系列(0.6B、1.7B、4B)。 + +\textbf{基线方法}。包括低秩方法(LoRA、AdaLoRA,分shared和specific两种多任务设置)、稀疏方法(SHiRA,同样两种设置)和多任务专用方法(MTLoRA、MOELoRA)。其中shared设置为所有任务共享一组适配参数,specific设置为每个任务独立训练参数。所有方法在匹配的总参数预算(约2.25\%--2.70\%)下进行公平比较。 + +\textbf{实现细节}。在NVIDIA RTX 4090上使用BF16混合精度训练。采用AdamW优化器,学习率1e-4,余弦调度,采用基于epoch的混合任务采样策略。MESSA配置:参数预算2.5\%、候选池因子1.5、门控预热比例5\%、在训练15\%处执行一次性剪枝、重叠允许比例15\%。 + +\subsubsection{多任务总体性能} + +表~\ref{tab:ch5_messa_overall}展示了MESSA在多任务总体性能上的结果。 + +\begin{table}[htp] + \centering + \caption{MESSA与基线方法在多任务总体性能上的比较。Avg为宏平均,Geo为几何平均,Worst为最差任务性能。*表示统计显著提升。} + \label{tab:ch5_messa_overall} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{1.05} + \begin{tabular}{l|c|ccc|ccc|ccc} + \toprule + \multirow{2}{*}{\textbf{方法}} & \multirow{2}{*}{\textbf{参数(\%)}} & \multicolumn{3}{c|}{\textbf{Qwen3-4B}} & \multicolumn{3}{c|}{\textbf{LLaMA3.2-3B}} & \multicolumn{3}{c}{\textbf{Gemma3-4B}} \\ + \cmidrule(lr){3-5} \cmidrule(lr){6-8} \cmidrule(lr){9-11} + & & Avg & Geo & Worst & Avg & Geo & Worst & Avg & Geo & Worst \\ + \midrule + LoRA (shared) & 2.25 & 76.47 & 75.56 & 59.81 & 67.05 & 65.99 & 53.03 & 71.22 & 69.53 & 50.08 \\ + LoRA (specific) & 2.25 & \underline{76.66} & \underline{75.76} & 60.75 & 64.70 & 63.29 & 52.75 & \underline{71.86} & \underline{70.09} & 49.45 \\ + AdaLoRA (shared) & 2.50 & 74.82 & 73.94 & 58.24 & 63.02 & 62.10 & 51.18 & 65.39 & 62.85 & 42.27 \\ + AdaLoRA (specific) & 2.50 & 75.45 & 74.61 & 59.18 & 62.94 & 61.99 & 53.03 & 66.57 & 64.00 & 43.33 \\ + \midrule + SHiRA (shared) & 2.26 & 74.60 & 73.51 & 56.99 & 70.35 & 69.40 & 53.06 & 67.99 & 65.64 & 44.27 \\ + SHiRA (specific) & 2.26 & 76.62 & 75.67 & \underline{62.64} & 66.94 & 65.62 & 51.33 & 71.26 & 69.52 & \underline{50.86} \\ + \midrule + MTLoRA & 2.70 & \underline{76.81} & \underline{75.98} & 62.01 & \underline{71.95} & \underline{71.29} & \underline{58.08} & 71.60 & 69.84 & 50.24 \\ + MOELoRA & 2.26 & 76.07 & 75.27 & 60.91 & 70.96 & 70.24 & 55.42 & 70.52 & 68.78 & 48.67 \\ + \textbf{MESSA} & 1.86 & \textbf{78.01*} & \textbf{77.18*} & \textbf{62.79*} & \textbf{72.96*} & \textbf{72.42*} & \textbf{59.50*} & \textbf{72.40*} & \textbf{70.63*} & \textbf{51.33*} \\ + \bottomrule + \end{tabular} + } +\end{table} + +MESSA在所有三种骨干模型上均取得统计显著的最优多任务性能,且使用的可训练参数(1.86\%)少于所有基线方法。在Qwen3-4B上,MESSA的Avg达到78.01\%,超过最强基线MTLoRA(76.81\%)1.20个百分点;Worst-Task达到62.79\%,表明MESSA有效平衡了多任务间的性能。 + +从跨骨干分析来看,MESSA在不同架构上的优势具有一致性:在LLaMA 3.2-3B上,MESSA的Avg(72.96\%)和Geo(72.42\%)均显著领先次优方法MTLoRA(71.95\%/71.29\%),差距约1个百分点;在Gemma3-4B上,MESSA在Avg(72.40\%)和Worst-Task(51.33\%)上也取得最优。特别值得关注的是MESSA在Worst-Task指标上的表现:在Qwen3-4B上62.79\%、LLaMA 3.2-3B上59.50\%、Gemma3-4B上51.33\%,均为各自骨干下的最优值。这表明MESSA的共享-特有分解与预算感知分配机制不仅提升了平均性能,更有效地防止了对特定任务的过度偏好,从而在异质任务间实现了更均衡的资源分配。 + +另一个重要发现是MESSA的参数效率优势。MESSA仅使用1.86\%的可训练参数,少于所有基线方法(LoRA 2.25\%、SHiRA 2.26\%、MTLoRA 2.70\%),但性能全面领先。这一"更少参数,更优性能"的结果从侧面验证了预算感知稀疏分配的有效性——通过将有限预算精准分配到关键参数组,避免了低效参数的浪费。 + +\subsubsection{逐任务性能分析} + +表~\ref{tab:ch5_messa_pertask}进一步展示了MESSA在Qwen3-4B上五个任务的逐任务性能。 + +\begin{table}[htp] + \centering + \caption{MESSA与基线方法在各任务上的逐项性能比较(Qwen3-4B)。} + \label{tab:ch5_messa_pertask} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{1.05} + \begin{tabular}{lccccccc} + \toprule + \textbf{方法} & \textbf{BoolQ} & \textbf{CodeAlpaca} & \textbf{MedQA} & \textbf{GSM8K} & \textbf{HellaSwag} & \textbf{Avg} & \textbf{Geo} \\ + \midrule + LoRA (shared) & 86.79 & \underline{67.45} & 59.81 & 77.27 & 91.02 & 76.47 & 75.56 \\ + LoRA (specific) & \underline{87.89} & 67.40 & 60.75 & 76.06 & 91.20 & 76.66 & 75.76 \\ + AdaLoRA (shared) & 85.81 & 66.55 & 58.24 & 75.61 & 87.89 & 74.82 & 73.94 \\ + AdaLoRA (specific) & 85.02 & 66.75 & 59.18 & \underline{77.42} & 88.89 & 75.45 & 74.61 \\ + SHiRA (shared) & 86.79 & 64.65 & 56.99 & 74.85 & 89.70 & 74.60 & 73.51 \\ + SHiRA (specific) & 87.40 & 63.50 & \underline{62.64} & 77.73 & \underline{91.83} & 76.62 & 75.67 \\ + MTLoRA & 86.42 & 66.35 & 62.01 & \textbf{78.33} & 90.92 & \underline{76.81} & \underline{75.98} \\ + MOELoRA & 86.24 & \underline{67.65} & 60.91 & 75.61 & 89.92 & 76.07 & 75.27 \\ + \textbf{MESSA} & \textbf{88.07} & \textbf{68.30} & \textbf{62.79} & \textbf{78.33} & \textbf{92.57} & \textbf{78.01} & \textbf{77.18} \\ + \bottomrule + \end{tabular} + } +\end{table} + +逐任务分析揭示了MESSA在所有五个任务上均取得最优或并列最优的性能。特别地,在跨领域差异最大的任务对(如编程类CodeAlpaca与医学类MedQA)上,MESSA均显著优于所有基线,表明共享-特有稀疏分解有效地在异质任务之间实现了知识的选择性复用与差异化适配。 + +\subsubsection{跨模型规模的可扩展性} + +表~\ref{tab:ch5_messa_scale}展示了MESSA在Qwen3系列不同模型规模上的多任务性能。 + +\begin{table}[htp] + \centering + \caption{MESSA与基线方法在不同模型规模上的多任务性能比较。} + \label{tab:ch5_messa_scale} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{1.05} + \begin{tabular}{lcccccc} + \toprule + \multirow{2}{*}{\textbf{方法}} & \multicolumn{2}{c}{\textbf{Qwen3-0.6B}} & \multicolumn{2}{c}{\textbf{Qwen3-1.7B}} & \multicolumn{2}{c}{\textbf{Qwen3-4B}} \\ + \cmidrule(lr){2-3} \cmidrule(lr){4-5} \cmidrule(lr){6-7} + & Avg & Geo & Avg & Geo & Avg & Geo \\ + \midrule + LoRA (shared) & 58.97 & 55.91 & 69.75 & 68.42 & 76.47 & 75.56 \\ + LoRA (specific) & 60.66 & 58.12 & 69.67 & 68.30 & 76.66 & 75.76 \\ + SHiRA (shared) & 56.59 & 53.21 & 68.47 & 66.83 & 74.60 & 73.51 \\ + SHiRA (specific) & 60.74 & 57.64 & \underline{70.96} & \underline{69.76} & 76.62 & 75.67 \\ + MTLoRA & \underline{61.13} & \underline{58.39} & 70.05 & 68.61 & \underline{76.81} & \underline{75.98} \\ + \textbf{MESSA} & \textbf{61.77} & \textbf{58.65} & \textbf{71.93} & \textbf{70.18} & \textbf{78.01} & \textbf{77.18} \\ + \bottomrule + \end{tabular} + } +\end{table} + +MESSA在所有模型规模上均取得最优性能。随着模型规模从0.6B增大到4B,MESSA相对于基线的优势保持稳定(Avg差距约0.6--1.9个百分点),表明共享-特有分解的结构分配策略在不同参数容量下均能有效运作。 + +\subsubsection{消融与结构分析} + +\begin{figure}[htp] + \centering + \includegraphics[width=0.9\linewidth]{assets/5_messa_analysis.pdf} + \caption{MESSA的消融实验与结构分析。(a)各组件对多任务性能的贡献;(b)共享和任务特有更新在注意力模块间的分配比例。} + \label{fig:ch5_messa_analysis} +\end{figure} + +消融实验表明,移除MESSA的任何核心组件均导致一致性的性能下降,验证了联合设计的必要性。具体而言:(1)移除共享-特有分解(即退化为纯共享或纯特有设置)导致Avg下降约1.2--1.5个百分点,表明显式的结构分离对多任务适配至关重要;(2)移除预算感知软门控(改为固定随机结构)导致Avg下降约0.8个百分点,证明数据驱动的结构发现优于手工或随机选择;(3)跳过门控预热阶段(直接开始联合优化门控和参数)导致训练不稳定和约0.5个百分点的性能损失,验证了预热阶段对初始化稳定稀疏结构的必要性;(4)移除共享-特有重叠正则化后,共享和特有参数组的重合比例显著增加,导致有效参数利用率下降和约0.4个百分点的性能损失。 + +结构分析可视化了注意力模块间的共享与任务特有更新分配,揭示了有意义的功能分化模式。共享稀疏更新在Key投影中被最频繁地选择(约占共享更新的35\%),其次是Value投影(约28\%)和Query投影(约22\%),Output投影最少(约15\%)。这一分布可以从注意力机制的功能角色来理解:Key投影定义了与任务无关的"被查询"表示空间,自然适合作为跨任务共享的适配目标;而Query投影更多地反映当前任务的查询意图,因此更倾向于被分配为任务特有更新。这种自发涌现的结构分化进一步验证了MESSA让数据驱动结构发现的设计理念。 + +\subsection{面向时空场景的补充验证} +\label{subsec:ch5_st_validation} + +% TODO: 时空实验占位符 +为验证CASCADE和MESSA在时空数据建模场景下的有效性,本节计划进行以下补充实验: + +(1)\textbf{CASCADE时空适配实验}。在时空预测任务上,以大语言模型为骨干,对比CASCADE与LoRA等基线方法。重点验证:多尺度频谱分解是否能更好地捕获时空数据中的多时间尺度模式;路由权重是否反映出时空特征的层间演化规律。 + +(2)\textbf{MESSA多任务时空实验}。在联合多个城市时空任务(如交通预测、区域分类、轨迹推理)的场景下,对比MESSA与LoRA shared/specific设置。重点验证:共享-特有分解是否能有效识别跨时空任务的通用知识和任务特异性需求。 + +\emph{上述实验的详细设置与结果将在后续补充完善。} + + +\section{本章小结} +\label{sec:ch5_summary} + +本章将视角从表示空间转向参数空间,围绕频谱级多尺度异质性($\mathcal{R}_{spec}$)和参数级容量分配异质性($\mathcal{R}_{param}$),提出了两种结构感知适配方法。 + +CASCADE通过异构频域/空域专家建模权重更新的多尺度结构,并引入级联频谱调制建立从粗到细的跨频率依赖关系。在三种骨干模型和15个基准数据集上,CASCADE在常识与数学推理任务上均显著优于现有PEFT基线,验证了联合建模异构更新成分的有效性。 + +MESSA针对多任务场景,将适配分解为共享和任务特有的稀疏增量,通过预算感知的软到硬结构学习在统一参数预算下实现最优容量分配。在三种骨干模型和五个多样化任务上,MESSA以更少的参数量取得了全面领先的多任务性能,验证了显式建模共享-特有结构的价值。 + +CASCADE和MESSA分别丰富了统一框架中的组合式调制和结构分解调制形式,与第三章的乘性调制共同构成了完整的结构感知适配方法体系。至此,本文围绕四类结构异质性($\mathcal{R}_{mod}$、$\mathcal{R}_{dim}$、$\mathcal{R}_{spec}$、$\mathcal{R}_{param}$)提出的适配方法已全部介绍完毕。下一章将转向评测基础设施建设,为上述方法提供时空场景下的系统性评测支持。 diff --git a/chap06.tex b/chap06.tex new file mode 100644 index 0000000..28678e3 --- /dev/null +++ b/chap06.tex @@ -0,0 +1,665 @@ +% !TeX root = ../main.tex +% 第六章 面向时空智能的大模型评测体系与实验基础设施 +\chapter{面向时空智能的大模型评测体系与实验基础设施} +\label{chap:benchmark} + +\section{本章概述} +\label{sec:ch6_overview} + +前述章节从模块级功能异质性(第三章)、维度级位置结构异质性(第四章)、频谱级多尺度异质性与参数级容量分配异质性(第五章)四个层面,系统性地提出了面向时空数据结构异质性的表征学习适配方法。这些方法的有效性验证依赖于标准化的评测体系与高质量的实验基础设施。然而,当前时空智能领域的评测生态面临两方面挑战。 + +\textbf{第一,交通预测基准评测的可持续性挑战}。时空预测领域的模型迭代速度远超基准评测框架的更新速度。现有评测框架(如LibCity~\cite{Libcity}、DL-Traff~\cite{Dl-traff}、TorchSpatial~\cite{Torchspatial})依赖人工维护,在模型收录的可扩展性、评估流程的持续更新能力、以及评测设置的一致性等方面存在结构性瓶颈。这导致基准评测在横向覆盖度和纵向时效性上难以跟进快速发展的研究前沿。 + +\textbf{第二,大语言模型时空推理能力的评测空白}。随着大语言模型在时空数据分析中的应用日益增多,亟需评估其时空推理能力的专用数据集。现有问答数据集大多关注语义理解或地理信息的静态检索,缺乏同时包含空间位置与时间上下文、且答案对时空条件敏感的问答样本。这使得无法系统性地评测大语言模型在时空推理方面的实际能力与不足。 + +针对上述挑战,本章从评测基础设施的角度,构建支撑时空智能研究的两类核心工具: + +\textbf{(1)AgentCity:AI驱动的交通预测持续评测框架}。AgentCity是首个基于多智能体系统的自动化基准评测框架,将传统的人工基准维护流程转化为AI驱动的持续工作流。该框架通过文献检索、模型与数据集成、标准化评估三个阶段的协调运行,实现了交通预测模型的自动发现、复现与统一评估。AgentCity目前涵盖4类交通预测任务、26个公开数据集和74个代表性模型,提供可复现的统一评测排行榜。 + +\textbf{(2)POI-QA:时空敏感的兴趣点问答数据集}。POI-QA是面向大语言模型时空推理能力评测的专用数据集,基于真实车辆轨迹数据与高精度地理兴趣点信息构建。该数据集包含超过540万条中英文双语问答对,覆盖约40万个兴趣点位置和30天的连续轨迹数据,提供从粗粒度类别分类到细粒度名称生成的四级难度评测体系。 + +从论文方法论体系的角度来看,本章的两项工作与前述章节的关系体现在:AgentCity提供了系统性评测时空预测模型的标准化平台,为第三至五章方法在交通预测任务上的性能对比提供公正、可复现的评估基础;POI-QA则构建了评测大语言模型时空推理能力的细粒度数据集,为本文提出的PEFT方法在时空问答场景下的适配效果提供评测基准。 + +本章后续安排如下:第~\ref{sec:ch6_background}~节介绍时空数据类型与交通预测任务的统一抽象;第~\ref{sec:agentcity}~节详述AgentCity框架;第~\ref{sec:poiqa}~节详述POI-QA数据集;第~\ref{sec:ch6_experiments}~节给出实验验证与分析;第~\ref{sec:ch6_summary}~节总结全章。 + + +\section{时空数据与交通预测任务} +\label{sec:ch6_background} + +本节介绍时空预测领域中数据类型与预测任务的统一抽象,为后续评测框架的设计提供任务定义基础。 + +\subsection{时空数据的分类体系} +\label{subsec:ch6_data_types} + +交通预测数据不同于图像或文本等同质模态,其核心特征是将空间实体、关系结构与时间索引观测有机结合。根据数据的组织形式与语义层次,时空数据可以划分为三大类别: + +\textbf{(1)静态空间结构}。静态空间结构描述交通系统的固定空间上下文,包括定义空间域的地理单元(如传感器、路段、区域)及其之间的结构化关系(如网络连通性、空间邻接性)。此类数据提供了交通观测的空间组织基础,典型表示形式为地理单元属性矩阵$\mathbf{X} \in \mathbb{R}^{N \times D}$和单元关系矩阵$\mathbf{A} \in \mathbb{R}^{N \times N}$。 + +\textbf{(2)群体级时空动态}。群体级时空动态捕获定义在空间单元或其关系上的时变属性,如传感器或区域上的交通速度、流量、密度等度量。此类数据通常表示为时间索引张量:节点级$\mathbf{X} \in \mathbb{R}^{T \times N \times D}$、网格级$\mathbf{X} \in \mathbb{R}^{T \times I \times J \times D}$或出发地-目的地对$\mathbf{X} \in \mathbb{R}^{T \times N \times N \times D}$。 + +\textbf{(3)个体轨迹动态}。个体轨迹动态描述单次出行的细粒度移动行为,表示为时空状态的有序序列$\{(x_i, t_i)\}_{i=1}^{L}$,其中$x_i$为空间位置,$t_i$为时间戳,$L$为轨迹长度。 + +\subsection{交通预测任务定义} +\label{subsec:ch6_tasks} + +基于上述数据分类,本文考虑四类具有不同数据输入/输出结构的代表性交通预测任务: + +\textbf{交通状态预测}在固定空间单元集合上预测未来交通动态。输入为历史群体级动态$\mathbf{X} \in \mathbb{R}^{T_{\text{in}} \times N \times D}$,输出为未来单元级动态$\mathbf{y} \in \mathbb{R}^{T_{\text{out}} \times N \times D}$。 + +\textbf{轨迹位置预测}针对个体轨迹进行下一步位置预测。给定历史轨迹$[\text{loc}_1, \ldots, \text{loc}_n]$,预测下一位置$\text{loc}_{n+1}$。 + +\textbf{到达时间预测(ETA)}旨在估计轨迹的行程时长。输入为时空点序列$\{(x_i, t_i)\}_{i=1}^{L}$,输出为预估行程时间$\Delta t$。 + +\textbf{地图匹配}旨在推断与观测轨迹最匹配的受路网约束的路径。给定带噪声或稀疏的轨迹观测,输出与底层路网拓扑一致的有序路段序列$\{r_j\}_{j=1}^{K}$。 + +这四类任务的数据输入输出关系为时空预测基准评测提供了统一的任务接口定义。 + + +\section{AgentCity:AI驱动的交通预测持续评测框架} +\label{sec:agentcity} + +\subsection{问题分析与设计动机} +\label{subsec:agentcity_motivation} + +现有交通预测基准评测体系存在三个结构性局限。 + +\textbf{(1)有限的可扩展性}。交通预测文献持续快速增长,新模型采用多样化的框架、代码结构和数据接口。将这些异构实现人工集成到统一基准中是一项劳动密集型工作,使得基准覆盖范围往往滞后于研究进展。 + +\textbf{(2)静态的评估流程}。多数现有基准建立在固定数据集和评估流程之上,而真实交通系统随时间持续演化。将数据更新纳入现有基准通常需要额外人工操作,限制了长期持续评估能力。 + +\textbf{(3)不一致的评估设置}。原始论文中的报告结果通常基于针对特定数据集精心调优的配置,而基准实现往往使用默认或最小化调优的设置。这种差异导致复现结果偏离原始报告,降低了基准作为公平参考的可靠性。 + +上述分析表明,交通预测基准评测的核心瓶颈不再是标准化框架的缺失,而是缺乏一个\emph{持续}、\emph{可扩展}、\emph{评估设置一致}的自动化维护机制。 + +\subsection{框架总体设计} +\label{subsec:agentcity_overview} + +AgentCity是一个面向交通预测基准评测的多智能体框架。给定用户指定的关键词和约束条件,系统增量式地识别相关研究、集成模型与数据集、并在统一的评测协议下进行评估。 + +\begin{figure}[htp] + \centering + \includegraphics[width=0.95\linewidth]{assets/6_agentcity_overview.pdf} + \caption{AgentCity框架总览。基准评测构建分为三个阶段:文献检索、模型与数据集成、标准化评估。每个阶段由领导者智能体(Leader Agent)协调,调用专门化子智能体(Subagent)执行阶段特定操作。} + \label{fig:ch6_agentcity} +\end{figure} + +如图~\ref{fig:ch6_agentcity}所示,AgentCity将基准评测维护流程组织为三个顺序阶段:\emph{文献检索}(Literature Retrieval)、\emph{模型与数据集成}(Model and Data Integration)和\emph{标准化评估}(Standardized Evaluation)。每个阶段由一个专门的\emph{阶段领导者智能体}管理,负责规划阶段工作流、协调专门化\emph{子智能体}并验证中间结果。 + +为应对研究代码中常见的异构实现和不完整规格说明,AgentCity支持每个阶段内的迭代精化:当中间结果不满足预定义的验证标准时,相应的领导者智能体选择性地重新调用相关子智能体以改进结果。各阶段产生的结构化制品(包括元数据、配置文件和验证摘要)由全局协调器(Global Coordinator)记录并在阶段间传播。 + +\subsection{阶段一:文献检索} +\label{subsec:agentcity_stage1} + +文献检索阶段收集与给定交通预测任务相关的研究工作,产生候选模型的结构化集合,供下游集成与评估使用。该阶段由\emph{检索领导者智能体}管理,协调三类子智能体执行具体操作: + +\textbf{论文搜索器(Paper Searcher)}使用基于关键词的查询检索候选论文。查询关键词从用户输入或预定义的任务特定关键词集合中派生。可指定出版场所、时间范围等约束条件以界定搜索范围。 + +\textbf{论文评估器(Paper Evaluator)}检查每篇检索到的论文,判断其是否提供了后续模型与数据集成所需的信息。评估检查论文是否指定了预测任务、模型表述、输入输出定义、实验设置和评估指标。缺乏实现、数据准备或评估所需信息的论文在此阶段被排除。 + +\textbf{论文分析器(Paper Analyzer)}从保留的论文中提取后续阶段所需的信息,包括模型架构引用、代码仓库、数据集与预处理步骤描述、训练与评估设置以及报告的指标值。提取的信息被组织为结构化表示。 + +检索领导者智能体顺序执行搜索、评估和分析步骤。当结果集合不满足预定义标准时,领导者审查执行结果并重新执行相关步骤。 + +\subsection{阶段二:模型与数据集成} +\label{subsec:agentcity_stage2} + +模型与数据集成阶段将外部交通预测模型及其关联数据集进行复现,并与统一的任务接口对齐。该阶段由\emph{集成领导者智能体}管理,协调四类子智能体: + +\textbf{源代码收集器(Source Collector)}检索复现所需资源,包括模型实现、配置文件和数据集引用。分析代码库结构以识别模型定义、训练流水线、数据加载逻辑和外部依赖。 + +\textbf{模型与数据适配器(Model and Data Adapter)}执行核心集成工作。对于模型端,将架构定义、输入/输出格式和训练接口与基准的任务规格对齐;对于数据端,处理数据集获取、预处理对齐、特征构建和数据划分配置。 + +\textbf{配置组装器(Configuration Assembler)}构建统一配置文件,组合模型设置、数据集参数和训练选项。原始论文中的超参数和实验设置在可用时被纳入;当细节缺失时,应用基准定义的任务一致默认值。 + +\textbf{集成验证器(Integration Validator)}使用组装好的模型和数据集配置执行验证运行,验证模型初始化、数据加载和基本训练执行,并记录日志以评估集成完整性。 + +\subsection{阶段三:标准化评估} +\label{subsec:agentcity_stage3} + +标准化评估阶段在统一的训练和评估协议下评估集成的交通预测模型。该阶段由\emph{评估领导者智能体}管理,协调以下子智能体: + +\textbf{评估规划器(Evaluation Planner)}为每个模型-任务对指定评估配置,包括训练设置、评估指标和基准协议定义的超参数范围。 + +\textbf{评估执行器(Evaluation Executor)}使用指定配置运行模型训练与评估。记录性能指标、训练动态和运行时信息。 + +\textbf{结果收集器(Result Collector)}聚合多次运行的评估输出,根据任务特定指标识别最佳配置,并将结果组织为标准化记录。 + +评估领导者智能体协调规划、执行和结果收集,并在评估结果无效或不完整时重新调用相关步骤。 + +\subsection{实现与协调机制} +\label{subsec:agentcity_impl} + +AgentCity的实现围绕\emph{全局协调器}展开。协调器维护共享执行上下文,并按顺序派发阶段领导者智能体执行三个基准阶段。 + +\textbf{智能体协调与控制}。领导者智能体遵循统一控制模式:将每个阶段分解为可执行步骤,调用子智能体执行具体操作,并收集结构化输出。子智能体封装任务特定功能,如文献查询、源代码获取、代码适配、数据集准备、模型执行和结果聚合。 + +\textbf{跨阶段上下文传播}。全局协调器维护的共享执行上下文记录每个阶段产生的结构化制品,并在阶段间传播以支持后续执行。 + +\textbf{模型后端配置}。不同语言模型后端可根据任务需求分配给不同智能体。代码相关和诊断任务使用更强的后端,常规操作使用轻量级后端。后端选择通过系统配置指定,独立于整体工作流结构。 + +\subsection{平台部署与公开访问} +\label{subsec:agentcity_platform} + +AgentCity已部署为可公开访问的在线平台,提供交互式的基准评测查询与排行榜浏览功能。 + +\begin{figure}[htp] + \centering + \subcaptionbox{基准评测工作流界面\label{fig:ch6_platform_frontend}}{% + \includegraphics[width=0.48\linewidth]{assets/6_agentcity_frontend.png}} + \hfill + \subcaptionbox{排行榜与统计总览\label{fig:ch6_platform_leaderboard}}{% + \includegraphics[width=0.48\linewidth]{assets/6_agentcity_leaderboard.png}} + \caption{AgentCity平台界面。(a)文献检索与模型迁移批处理界面,支持关键词、年份和会议筛选;(b)基准主页展示整体统计、核心特性与任务排行榜。} + \label{fig:ch6_agentcity_platform} +\end{figure} + +如图~\ref{fig:ch6_agentcity_platform}所示,平台前端提供两大核心功能:文献检索与模型迁移批处理界面支持用户通过关键词、年份和会议筛选目标论文,并一键启动自动化集成流程;排行榜主页展示整体基准统计(74+模型、26数据集、100\%自动化)及各任务上的模型性能排名。 + + +\section{POI-QA:时空敏感的兴趣点问答数据集} +\label{sec:poiqa} + +\subsection{时空敏感问答的定义与挑战} +\label{subsec:poiqa_definition} + +时空推理在广泛的预测与决策任务中发挥着关键作用。在众多需要时空推理的领域中,兴趣点(Point of Interest, POI)推荐是一个典型且具有挑战性的任务。有效的POI预测要求模型具备分析历史行为模式、预测未来偏好、并在时间和位置约束下推荐合适POI的能力。 + +然而,现有问答数据集在时空敏感性方面存在明显不足。为明确评测标准,本文定义时空敏感问答需满足以下四项准则: + +\textbf{(i)时空存在性(Spatiotemporal Presence)}。问题中同时包含时间戳(如"周二晚间")和地理位置(如"某某路221号")。 + +\textbf{(ii)时空上下文敏感性(Context Sensitivity)}。对相似问题的回答会因时间和/或位置的不同而变化——改变时间或地点可以导致不同的答案。 + +\textbf{(iii)时空知识推理(Knowledge Reasoning)}。此类问题需要广泛的POI数据覆盖和时空推理能力。 + +\textbf{(iv)人类可读答案(Human-Readable Answer)}。答案应提供POI名称和具体地址,而非原始的经纬度坐标。 + +现有相关数据集的局限性体现在:SubjQA~\cite{bjerva2020subjqa}关注基于评论的属性导向问题,缺乏空间或时间信息;MapQA~\cite{li2025mapqa}支持地理查询但忽略时间上下文;TourismQA~\cite{contractor2021answering}虽包含与时间或地点相关的旅游评论问题,但缺乏时空推理能力。这些数据集均未考虑上述准则(ii)中的时空敏感性问题。 + +\subsection{数据集构建流程} +\label{subsec:poiqa_construction} + +POI-QA数据集的构建包含三个步骤:地理兴趣点标注、基于轨迹的POI映射和时空问答对生成。 + +\subsubsection{地理兴趣点标注} +\label{subsubsec:poiqa_poi} + +数据集选择中国成都市作为标注区域——该城市人口达数千万,具有高人口密度和丰富的区域经济活动特征,产生了大量且类型丰富的POI分布。具体标注流程包括四个核心步骤: + +\textbf{数据采集}。从百度地图和高德地图两大地图搜索引擎爬取POI数据。将成都划分为500$\times$500的网格系统,每个网格约300米见方,对每个网格中心点查询周边POI。 + +\textbf{数据清洗与标准化}。去除搜索引擎结果中的重复条目,将所有POI的地理坐标统一标准化为WGS84坐标系。 + +\textbf{坐标验证与误差控制}。计算同一POI在不同平台间的坐标偏差。偏差小于$10^{-4}$的直接保留;偏差在$10^{-4}$到$10^{-3}$之间的进行人工审核;偏差超过$10^{-3}$的因精度不足而排除。 + +\textbf{层级分类标注}。对所有收集的POI进行三级类别标注:19个大类、122个中类和959个小类。最终保留418,579个在数据时间范围内保持稳定的POI条目。 + +\subsubsection{基于轨迹的POI映射} +\label{subsubsec:poiqa_trajectory} + +POI映射包含三个步骤: + +\textbf{挖掘时空演化出行目标}。利用GAIA数据中的车辆位置记录,识别具有显著时空迁移模式的轨迹。通过筛选和过滤,成功提取超过600万条具有明确时空迁移模式的轨迹。 + +\textbf{对齐地理信息与POI}。对轨迹进行降采样,保留关键路口和拥堵点的定位信息;匹配起点和终点100米范围内的所有POI并按距离排序;使用最近POI对行程定位点进行路径模糊化处理;将时间戳简化为星期几和小时。 + +\textbf{人工验证}。雇用标注工作者对自动化程序产生的噪声数据进行人工验证。每条轨迹记录分配给至少5名不同的工作者评估,若超过60\%的评估者标记为问题记录则删除或修正。最终约20\%的记录被修正,获得5,417,335条高质量数据样本。 + +\subsubsection{时空问答对生成} +\label{subsubsec:poiqa_qa_gen} + +基于精确的轨迹-POI匹配记录,生成具有时空相关性的问答对。数据集提供中文简体和英文两个版本以支持多语言模型训练。 + +\begin{figure}[htp] + \centering + \includegraphics[width=0.9\linewidth]{assets/6_poiqa_illustration.png} + \caption{POI-QA数据集中的时空敏感问答示例。两条轨迹虽然出发时间相近,但出发点的空间差异导致不同的路线和目的地上下文,体现了数据集的强时空敏感性。} + \label{fig:ch6_poiqa_example} +\end{figure} + +\begin{figure}[htp] + \centering + \includegraphics[width=0.85\linewidth]{assets/6_poiqa_qa_synthesizing.png} + \caption{POI-QA问答对合成流程示意图。基于轨迹-POI匹配记录,使用结构化模板生成问答对:用``\textless\textgreater''标记POI名称,``()''标记类别层级,同时提供自然语言地址和经纬度坐标,并按距离递增顺序列出周边POI信息。} + \label{fig:ch6_poiqa_qa_synthesizing} +\end{figure} + +数据集支持两大类任务,覆盖四个难度级别: + +\begin{itemize} + \item \textbf{分类任务}:确定目的地附近POI的分类类别,包括大类分类(简单,19个类别)、中类分类(中等,122个类别)和小类分类(困难,959个类别)。 + \item \textbf{生成任务}:直接输出目的地附近POI的名称(极困难,超过40万个不同POI位置)。 +\end{itemize} + +数据集在三个方面对模型构成挑战:(1)地理知识处理——准确识别和分类POI;(2)时间信息理解——理解时间因素如何影响POI的可用性或相关性;(3)时空推理——结合地理和时间信息提供准确预测。 + +\subsection{评测模型与方法} +\label{subsec:poiqa_models} + +为全面评估POI-QA数据集的挑战性,选取两个最先进的开源大语言模型作为基座模型:Llama3.1-8B和Qwen2.5-7B。在此基础上,评估四种实验配置: + +\textbf{零样本(Zero-shot)}。直接使用基座模型在未见过的问答对上进行推理,评估模型的内在时空推理能力。 + +\textbf{LoRA微调}。采用低秩适配(LoRA)对基座模型进行参数高效微调,秩设置为16,使用AdamW优化器和余弦学习率调度器。 + +\textbf{检索增强生成(RAG)}。通过检索外部时空知识来增强模型输入,提供相关的POI信息作为推理上下文。 + +\textbf{RAG+LoRA}。将检索增强生成与LoRA微调相结合,同时利用外部知识检索和参数适配。 + +\begin{figure}[htp] + \centering + \includegraphics[width=0.9\linewidth]{assets/6_poiqa_rag_pipeline.png} + \caption{基于Dify平台的RAG检索增强生成工作流。系统首先使用DeepSeek-R1-32B将用户查询分解为POI检索关键词,随后在成都POI知识库中进行混合检索,经结果汇总后生成最终提示并调用目标LLM完成推理。} + \label{fig:ch6_poiqa_rag_pipeline} +\end{figure} + +评估指标包括命中率(HR@$k$)和归一化折损累计增益(NDCG@$k$),$k \in \{5, 10, 20\}$。对于生成任务,额外计算BLEU分数以评估词汇相似度。 + + +\section{实验验证与结果分析} +\label{sec:ch6_experiments} + +\subsection{AgentCity基准评测结果} +\label{subsec:ch6_agentcity_exp} + +\subsubsection{基准覆盖范围} + +AgentCity目前覆盖四类代表性交通预测任务。表~\ref{tab:ch6_benchmark_scope}总结了基准包含的数据集统计信息。整体上,AgentCity涵盖26个公开数据集,包含在传感器网络、区域划分、路网图和个体轨迹上定义的异构空间表示。 + +\begin{figure}[htp] + \centering + \includegraphics[width=0.85\linewidth]{assets/6_benchmark_dist.png} + \caption{AgentCity基准收录论文的分布分析。从左到右分别展示收录论文的发表会议分布、发表年份分布和交通预测任务类型分布,体现了基准在来源多样性、时效性和任务覆盖均衡性方面的特点。} + \label{fig:ch6_benchmark_dist} +\end{figure} + +图~\ref{fig:ch6_benchmark_dist}展示了AgentCity收录的74篇论文在三个维度上的分布特征。在会议分布上,收录论文涵盖KDD、NeurIPS、AAAI、IJCAI等多个顶级会议,体现了基准的权威性;在年份分布上,收录论文集中于2022--2025年,反映了基准对最新研究进展的及时跟进能力;在任务分布上,四类交通预测任务均有充分覆盖,其中交通状态预测类论文最多,与该领域的研究热度一致。 + +\begin{table}[htp] +\centering +\caption{AgentCity基准评测中的任务、数据集与评估指标。} +\label{tab:ch6_benchmark_scope} +\small +\resizebox{\linewidth}{!}{ +\begin{tabular}{l l l l} +\toprule +\textbf{任务} & \textbf{代表性数据集} & \textbf{时间跨度} & \textbf{评估指标} \\ +\midrule +交通状态预测 & METR-LA, PEMSD7, PEMS-BAY & 2012--2017 & MAE$\downarrow$, RMSE$\downarrow$ \\ +轨迹位置预测 & Foursquare\_NYC/TKY, Singapore & 2012--2017 & Acc@1$\uparrow$, Acc@5$\uparrow$ \\ +到达时间预测 & Beijing, Chengdu & 2013--2014 & MAE$\downarrow$, MAPE$\downarrow$, RMSE$\downarrow$ \\ +地图匹配 & Neftekamsk, Spaichingen等 & 2015 & RMF$\downarrow$, AL$\uparrow$ \\ +\bottomrule +\end{tabular}} +\end{table} + +\subsubsection{交通状态预测排行榜} + +表~\ref{tab:ch6_traffic_leader}展示了在METR-LA、PEMSD7和PEMS-BAY三个数据集上的交通状态预测排行榜结果。所有模型在统一评估协议下进行训练和评估,使用早停策略基于验证损失选择最佳检查点。 + +\begin{table}[htp] +\centering +\caption{交通状态预测排行榜(统一评估协议下)。} +\label{tab:ch6_traffic_leader} +\small +\resizebox{\linewidth}{!}{ +\begin{tabular}{l cc cc cc} +\toprule +\multirow{2}{*}{\textbf{模型}} & +\multicolumn{2}{c}{\textbf{METR-LA}} & +\multicolumn{2}{c}{\textbf{PEMSD7}} & +\multicolumn{2}{c}{\textbf{PEMS-BAY}} \\ +\cmidrule(lr){2-3} \cmidrule(lr){4-5} \cmidrule(lr){6-7} +& MAE$\downarrow$ & RMSE$\downarrow$ +& MAE$\downarrow$ & RMSE$\downarrow$ +& MAE$\downarrow$ & RMSE$\downarrow$ \\ +\midrule +STAEformer & 2.962 & 5.984 & 18.96 & 32.28 & 1.532 & 3.446 \\ +DCST & 3.090 & 6.334 & 19.39 & 32.72 & 1.561 & 3.483 \\ +DST2former & 3.095 & 6.240 & 19.67 & 32.61 & 1.639 & 3.587 \\ +STDMAE & 3.096 & 6.230 & 20.19 & 32.99 & 1.579 & 3.502 \\ +EasyST & 3.115 & 6.419 & 19.49 & 32.48 & 1.565 & 3.509 \\ +PatchSTG & 3.127 & 6.316 & 19.99 & 32.90 & 1.589 & 3.580 \\ +HiMSNet & 3.143 & 6.221 & 23.34 & 36.04 & 1.670 & 3.613 \\ +BigST & 3.218 & 6.359 & 21.11 & 34.18 & 1.622 & 3.538 \\ +DSTAGNN & 3.331 & 6.599 & 22.73 & 36.04 & 1.745 & 3.800 \\ +\bottomrule +\end{tabular}} +\end{table} + +\subsubsection{轨迹位置预测排行榜} + +表~\ref{tab:ch6_traj_leader}展示了在Foursquare\_NYC、Foursquare\_TKY和Singapore数据集上的轨迹位置预测结果。 + +\begin{table}[htp] +\centering +\caption{轨迹位置预测排行榜(统一评估协议下)。} +\label{tab:ch6_traj_leader} +\small +\resizebox{\linewidth}{!}{ +\begin{tabular}{l cc cc cc} +\toprule +\multirow{2}{*}{\textbf{模型}} & +\multicolumn{2}{c}{\textbf{Foursquare\_NYC}} & +\multicolumn{2}{c}{\textbf{Foursquare\_TKY}} & +\multicolumn{2}{c}{\textbf{Singapore}} \\ +\cmidrule(lr){2-3} \cmidrule(lr){4-5} \cmidrule(lr){6-7} +& Acc@1$\uparrow$ & Acc@5$\uparrow$ +& Acc@1$\uparrow$ & Acc@5$\uparrow$ +& Acc@1$\uparrow$ & Acc@5$\uparrow$ \\ +\midrule +ROTAN & 0.1302 & 0.2805 & 0.1897 & 0.3653 & 0.1631 & 0.3331 \\ +GNPRSID & 0.1591 & 0.3419 & 0.1658 & 0.3746 & 0.1539 & 0.3471 \\ +RNTrajRec & 0.1605 & 0.3231 & 0.1539 & 0.3305 & 0.1378 & 0.2978 \\ +DeepMove & 0.1572 & 0.3739 & 0.1800 & 0.3869 & 0.1298 & 0.3096 \\ +PLSPL & 0.1034 & 0.3211 & 0.1732 & 0.3596 & 0.1527 & 0.3294 \\ +CANOE & 0.1147 & 0.2883 & 0.1535 & 0.3485 & 0.1366 & 0.3089 \\ +LoTNext & 0.0856 & 0.2402 & 0.1322 & 0.3890 & 0.1365 & 0.3576 \\ +DCHL & 0.1009 & 0.3141 & 0.0706 & 0.2507 & 0.0889 & 0.2678 \\ +\bottomrule +\end{tabular}} +\end{table} + +\subsubsection{到达时间预测与地图匹配排行榜} + +表~\ref{tab:ch6_eta_leader}和表~\ref{tab:ch6_mm_leader}分别展示了到达时间预测和地图匹配任务的排行榜结果。 + +\begin{table}[htp] +\centering +\caption{到达时间预测排行榜。} +\label{tab:ch6_eta_leader} +\small +\resizebox{\linewidth}{!}{ +\begin{tabular}{l ccc ccc} +\toprule +\multirow{2}{*}{\textbf{模型}} & +\multicolumn{3}{c}{\textbf{Beijing}} & +\multicolumn{3}{c}{\textbf{Chengdu}} \\ +\cmidrule(lr){2-4} \cmidrule(lr){5-7} +& MAE$\downarrow$ & MAPE$\downarrow$ & RMSE$\downarrow$ +& MAE$\downarrow$ & MAPE$\downarrow$ & RMSE$\downarrow$ \\ +\midrule +HetETA & 125.67 & 0.105 & 222.91 & 190.56 & 0.113 & 308.56 \\ +DeepTTE & 224.46 & 0.208 & 351.74 & 317.38 & 0.220 & 429.09 \\ +MVSTM & 279.08 & 0.270 & 430.98 & 255.18 & 0.189 & 343.43 \\ +MulT-TTE & 280.36 & 0.274 & 432.43 & 465.59 & 0.381 & 580.25 \\ +DOT & 364.85 & 0.382 & 547.62 & 209.74 & 0.163 & 286.02 \\ +MetaTTE & 372.15 & 0.347 & 562.24 & 394.52 & 0.300 & 511.63 \\ +DutyTTE & 431.59 & 0.460 & 572.96 & 243.13 & 0.171 & 443.44 \\ +\bottomrule +\end{tabular}} +\end{table} + +\begin{table}[htp] +\centering +\caption{地图匹配排行榜。} +\label{tab:ch6_mm_leader} +\small +\resizebox{\linewidth}{!}{ +\begin{tabular}{l cc cc cc cc} +\toprule +\multirow{2}{*}{\textbf{模型}} & +\multicolumn{2}{c}{\textbf{Santander}} & +\multicolumn{2}{c}{\textbf{Spaichingen}} & +\multicolumn{2}{c}{\textbf{Neftekamsk}} & +\multicolumn{2}{c}{\textbf{Valky}} \\ +\cmidrule(lr){2-3} \cmidrule(lr){4-5} \cmidrule(lr){6-7} \cmidrule(lr){8-9} +& RMF$\downarrow$ & AL$\uparrow$ +& RMF$\downarrow$ & AL$\uparrow$ +& RMF$\downarrow$ & AL$\uparrow$ +& RMF$\downarrow$ & AL$\uparrow$ \\ +\midrule +FMM & 0.018 & 1.000 & 0.000 & 1.000 & 0.852 & 0.193 & 0.329 & 0.671 \\ +HMMM & 0.021 & 0.997 & 0.035 & 1.000 & 0.391 & 0.999 & 0.433 & 1.000 \\ +STMatching & 0.674 & 0.998 & 0.088 & 1.000 & 0.457 & 1.000 & 0.436 & 1.000 \\ +DeepMM & 0.981 & 0.019 & 0.947 & 0.053 & 0.889 & 0.111 & 0.909 & 0.091 \\ +L2MM & 1.132 & 0.057 & 1.632 & 0.158 & 0.778 & 0.222 & 2.455 & 0.182 \\ +\bottomrule +\end{tabular}} +\end{table} + +\subsubsection{复现保真度验证} + +为验证AgentCity的复现质量,将复现结果与原始论文报告的指标进行比较。表~\ref{tab:ch6_fidelity}展示了七个代表性模型的比较结果。复现结果与报告值之间的偏差普遍较小,表明AgentCity在无人工干预的情况下能够以合理的保真度复现已发表的交通预测模型。 + +\begin{table}[htp] +\centering +\caption{报告结果与AgentCity复现结果的比较。} +\label{tab:ch6_fidelity} +\small +\resizebox{\linewidth}{!}{ +\begin{tabular}{l l cc cc c} +\toprule +\multirow{2}{*}{\textbf{模型}} & \multirow{2}{*}{\textbf{数据集}} & +\multicolumn{2}{c}{\textbf{论文报告}} & +\multicolumn{2}{c}{\textbf{AgentCity复现}} & +\multirow{2}{*}{\textbf{偏差(\%)}} \\ +\cmidrule(lr){3-4} \cmidrule(lr){5-6} +& & MAE & RMSE & MAE & RMSE & \\ +\midrule +DSTAGNN & PEMSD4 & 19.30 & 31.46 & 19.90 & 31.29 & 0.85 \\ +LightST & PEMSD7 & 20.78 & 33.95 & 21.99 & 34.59 & 3.38 \\ +RSTIB & PEMSD7 & 19.84 & 33.90 & 20.37 & 33.40 & 0.06 \\ +STDMAE & METR-LA & 3.00 & 5.98 & 3.09 & 6.23 & 3.79 \\ +LSTTN & METR-LA & 2.96 & 5.92 & 3.08 & 6.12 & 3.60 \\ +AutoSTF & PEMS-BAY & 1.55 & 3.51 & 1.54 & 3.44 & -1.58 \\ +DCST & PEMS-BAY & 1.55 & 3.50 & 1.56 & 3.48 & -0.20 \\ +\bottomrule +\end{tabular}} +\end{table} + +\subsubsection{与通用代码智能体的比较} + +将AgentCity的复现结果与两个通用代码智能体SWE-agent和OpenHands进行对比。所有智能体使用相同的复现设置、相同的代码仓库和数据集、以及相同的语言模型后端。表~\ref{tab:ch6_agent_compare}展示了比较结果。在所有评估的模型-数据集对上,AgentCity的复现结果与原始报告值的偏差最小,表明面向交通预测领域的专门化工作流设计优于通用代码智能体的复现效果。 + +\begin{table}[htp] +\centering +\caption{不同代码智能体的复现一致性比较。Gap\%为复现结果与原始报告的综合偏差百分比。} +\label{tab:ch6_agent_compare} +\small +\resizebox{\linewidth}{!}{ +\begin{tabular}{l ccc ccc} +\toprule +\multirow{2}{*}{\textbf{来源}} & +\multicolumn{3}{c}{\textbf{STDMAE (PEMSD7)}} & +\multicolumn{3}{c}{\textbf{LSTTN (METR-LA)}} \\ +\cmidrule(lr){2-4} \cmidrule(lr){5-7} +& MAE$\downarrow$ & RMSE$\downarrow$ & Gap\%$\downarrow$ +& MAE$\downarrow$ & RMSE$\downarrow$ & Gap\%$\downarrow$ \\ +\midrule +论文报告 & 18.65 & 31.44 & 0.00 & 2.96 & 5.92 & 0.00 \\ +SWE-agent & 31.96 & 45.87 & 55.38 & 4.50 & 9.84 & 61.49 \\ +OpenHands & 21.79 & 34.55 & 12.48 & 6.55 & 11.80 & 106.64 \\ +\textbf{AgentCity} & \textbf{20.19} & \textbf{32.99} & \textbf{6.17} & \textbf{3.08} & \textbf{6.12} & \textbf{3.60} \\ +\bottomrule +\end{tabular}} +\end{table} + + +\subsection{POI-QA基准评测结果} +\label{subsec:ch6_poiqa_exp} + +\subsubsection{分类任务结果} + +表~\ref{tab:ch6_cls_hr}展示了分类任务在三个粒度级别上的HR@$k$结果。 + +\begin{table}[htp] +\centering +\caption{分类任务的HR@\{5,10,20\}结果。\textbf{加粗}和\underline{下划线}分别表示最优和次优结果。} +\label{tab:ch6_cls_hr} +\small +\resizebox{\linewidth}{!}{ +\begin{tabular}{l|ccc|ccc|ccc} +\toprule +\multirow{2}{*}{\textbf{模型}} +& \multicolumn{3}{c|}{\textbf{大类}} & \multicolumn{3}{c|}{\textbf{中类}} & \multicolumn{3}{c}{\textbf{小类}} \\ +\cmidrule(lr){2-4} \cmidrule(lr){5-7} \cmidrule(lr){8-10} +& HR@5 & HR@10 & HR@20 +& HR@5 & HR@10 & HR@20 +& HR@5 & HR@10 & HR@20 \\ +\midrule +Llama3.1-8B (zero-shot) +& 0.0664 & 0.1001 & 0.0917 +& 0.0281 & 0.0481 & 0.0695 +& 0.0222 & 0.0350 & 0.0372 \\ +Qwen2.5-7B (zero-shot) +& 0.1017 & 0.1775 & 0.1650 +& 0.0451 & 0.0784 & 0.0814 +& 0.0263 & 0.0467 & 0.0673 \\ +\midrule +Llama3.1-8B (LoRA) +& 0.1239 & 0.1880 & 0.2067 +& 0.0590 & 0.1041 & 0.1241 +& 0.0445 & 0.0687 & 0.0797 \\ +Qwen2.5-7B (LoRA) +& 0.1950 & 0.3222 & 0.3509 +& 0.1004 & 0.1627 & 0.1871 +& 0.0611 & 0.1062 & 0.1250 \\ +\midrule +Llama3.1-8B (RAG) +& 0.1237 & 0.1770 & 0.2089 +& 0.0593 & 0.1155 & 0.1328 +& 0.0461 & 0.0721 & 0.0848 \\ +Qwen2.5-7B (RAG) +& 0.2099 & \underline{0.3821} & 0.3815 +& 0.0967 & 0.1876 & 0.2008 +& 0.0650 & 0.1107 & 0.1218 \\ +\midrule +Llama3.1-8B (RAG+LoRA) +& \underline{0.2189} & 0.3784 & \underline{0.4356} +& \underline{0.1736} & \underline{0.2966} & \underline{0.3379} +& \underline{0.1092} & \underline{0.2009} & \underline{0.2324} \\ +Qwen2.5-7B (RAG+LoRA) +& \textbf{0.2339} & \textbf{0.4062} & \textbf{0.4698} +& \textbf{0.1812} & \textbf{0.2987} & \textbf{0.3577} +& \textbf{0.1288} & \textbf{0.2185} & \textbf{0.2586} \\ +\bottomrule +\end{tabular}} +\end{table} + +实验结果表明:(1)零样本性能一致较低,确认了时空推理对于开箱即用的大语言模型仍具挑战性。(2)LoRA和RAG均能提升模型性能——以$k=10$为例,LoRA分别为Llama和Qwen带来0.05和0.09的HR@10平均提升,RAG通过整合外部时空知识实现了更大的提升幅度(0.06和0.13)。(3)RAG+LoRA的组合获得最佳结果,在HR@10和NDCG@10上分别达到零样本基线的2.5倍和3.9倍。 + +\subsubsection{开放世界生成任务结果} + +表~\ref{tab:ch6_gen_results}展示了开放世界生成式问答任务的结果。该任务更具挑战性,要求模型不仅推理复杂时空约束,还需生成格式准确的POI名称。 + +\begin{table}[htp] +\centering +\caption{开放世界生成式问答任务结果。} +\label{tab:ch6_gen_results} +\small +\resizebox{\linewidth}{!}{ +\begin{tabular}{l|ccc|ccc|c} +\toprule +\multirow{2}{*}{\textbf{模型}} +& \multicolumn{3}{c|}{\textbf{命中率}} +& \multicolumn{3}{c|}{\textbf{NDCG}} +& \multirow{2}{*}{\textbf{BLEU}} \\ +\cmidrule(lr){2-4} \cmidrule(lr){5-7} +& HR@5 & HR@10 & HR@20 +& NDCG@5 & NDCG@10 & NDCG@20 \\ +\midrule +Llama3.1-8B (zero-shot) +& 0.0075 & 0.0112 & 0.0146 +& 0.0149 & 0.0244 & 0.0297 +& 0.0332 \\ +Qwen2.5-7B (zero-shot) +& 0.0119 & 0.0199 & 0.0234 +& 0.0213 & 0.0390 & 0.0442 +& 0.0254 \\ +\midrule +Llama3.1-8B (LoRA) +& 0.0144 & 0.0241 & 0.0282 +& 0.0320 & 0.0512 & 0.0589 +& 0.2941 \\ +Qwen2.5-7B (LoRA) +& 0.0220 & 0.0394 & 0.0459 +& 0.0464 & 0.0798 & 0.0940 +& 0.3082 \\ +\midrule +Llama3.1-8B (RAG) +& 0.0142 & 0.0232 & 0.0294 +& 0.0338 & 0.0537 & 0.0640 +& 0.4125 \\ +Qwen2.5-7B (RAG) +& 0.0226 & 0.0441 & 0.0496 +& 0.0484 & 0.0850 & 0.1048 +& 0.5321 \\ +\midrule +Llama3.1-8B (RAG+LoRA) +& \underline{0.0331} & \underline{0.0584} & \underline{0.0690} +& \underline{0.0725} & \underline{0.1276} & \textbf{0.1509} +& \underline{0.7729} \\ +Qwen2.5-7B (RAG+LoRA) +& \textbf{0.0394} & \textbf{0.0616} & \textbf{0.0714} +& \textbf{0.0770} & \textbf{0.1289} & \underline{0.1508} +& \textbf{0.7911} \\ +\bottomrule +\end{tabular}} +\end{table} + +零样本设置下的HR@10仅为0.01左右,即使最佳配置(RAG+LoRA)也仅达到约0.06的HR@10。尽管严格排名指标较低,但RAG与LoRA结合时的BLEU分数较高(约0.79),表明生成输出在语义上往往接近标签,即使未完全匹配。这一发现凸显了在生成式时空问答中控制幻觉与确保输出准确性的必要性。 + +\subsubsection{人类参照评估} + +表~\ref{tab:ch6_human}报告了在人类改写子集上的评估结果。该子集包含由众包工作者改写的1,000个测试问题,用于评估模型对自然用户查询的泛化能力。 + +\begin{table}[htp] +\centering +\caption{人类改写子集上的评测结果。} +\label{tab:ch6_human} +\small +\resizebox{\linewidth}{!}{ +\begin{tabular}{l|ccc|ccc|c} +\toprule +\multirow{2}{*}{\textbf{任务}} +& \multicolumn{3}{c|}{\textbf{命中率}} +& \multicolumn{3}{c|}{\textbf{NDCG}} +& \multirow{2}{*}{\textbf{BLEU}} \\ +\cmidrule(lr){2-4} \cmidrule(lr){5-7} +& HR@5 & HR@10 & HR@20 +& NDCG@5 & NDCG@10 & NDCG@20 \\ +\midrule +分类:大类 +& 0.3493 & 0.5644 & 0.6701 +& 0.6518 & 0.7774 & 0.8432 +& - \\ +分类:中类 +& 0.2891 & 0.4150 & 0.4693 +& 0.5119 & 0.6875 & 0.7861 +& - \\ +分类:小类 +& 0.1833 & 0.3035 & 0.3481 +& 0.4411 & 0.6012 & 0.7140 +& - \\ +\midrule +生成:POI名称 +& 0.1548 & 0.1611 & 0.1984 +& 0.2096 & 0.2667 & 0.2924 +& 0.8655 \\ +\bottomrule +\end{tabular}} +\end{table} + +人类表现结果揭示了当前模型与人类能力之间的显著差距。在小类分类任务上,人类达到HR@10=0.57,而最佳模型仅为0.22。从模板问题到改写问题的性能下降也十分显著——HR平均下降约70\%,NDCG平均下降约85\%。这表明当前大语言模型在面对自然表述的时空推理问题时,泛化能力仍有较大提升空间。 + +\subsection{基于本文方法的时空评测适配实验} +\label{subsec:ch6_our_methods} + +本节初步探讨将前述章节提出的PEFT方法应用于POI-QA时空问答任务的可行性。在POI-QA的评测框架中,标准LoRA被用作参数高效微调的基线方法。本文提出的结构感知适配方法可以作为LoRA的替代或增强方案,在相同参数预算下实现更优的时空推理性能。 + +具体而言,第三章的HyCAM方法通过上下文注意力调制,可以为POI问答中的多任务适配(分类与生成)提供任务感知的注意力分配;第四章的RoSA和DyPAM方法通过位置结构感知的维度级调制,可以增强模型对时空位置编码的利用效率;第五章的CASCADE方法通过多尺度频谱适配,可以同时捕获时空推理中的全局模式与局部细节。 + +% 此处为后续实验预留位置。当完成实验后,将补充具体的对比数据,展示本文方法相对于标准LoRA在POI-QA数据集上的性能提升。 + + +\section{本章小结} +\label{sec:ch6_summary} + +本章从评测基础设施的角度,构建了支撑时空智能研究的两类核心工具。 + +AgentCity作为首个AI驱动的交通预测持续评测框架,通过多智能体工作流实现了文献检索、模型集成与标准化评估的自动化。该框架目前覆盖4类交通预测任务、26个数据集和74个模型,在复现保真度上显著优于通用代码智能体。AgentCity将基准评测维护从一次性人工操作转变为可持续的AI驱动流程,为时空预测模型的公正评估提供了标准化平台。 + +POI-QA作为时空敏感的兴趣点问答数据集,系统性地评测了大语言模型的时空推理能力。该数据集包含540万条双语问答对和四级难度评测体系,揭示了当前最先进模型在时空推理方面的显著不足——即使采用RAG+LoRA的最佳配置,细粒度生成任务的性能仍远低于人类水平。这一发现为本文提出的结构感知PEFT方法在时空推理任务上的进一步应用提供了明确的改进方向。 + +从论文整体体系来看,本章的两项工作与前述章节形成闭环:第三至五章从方法论层面解决了时空数据结构异质性驱动的表征学习问题,本章则从评测生态层面提供了方法验证的基础设施支撑。AgentCity提供标准化的交通预测评测平台,POI-QA提供面向LLM时空推理的细粒度评测数据集,二者共同构成了完整的时空智能评测体系。 diff --git a/chap07.tex b/chap07.tex new file mode 100644 index 0000000..6290ca9 --- /dev/null +++ b/chap07.tex @@ -0,0 +1,36 @@ +\chapter*{总结与展望} + +\subsubsection{本文工作总结} + +城市时空系统在空间组织形式、动态演化规律以及任务功能需求等方面呈现出显著的结构复杂性特征。这种复杂性不仅体现在观测数据的多尺度变化与多源耦合关系之中,也进一步映射为模型在统一表征学习过程中所面临的多层级结构适配问题。围绕这一科学问题,本文以时空数据的结构特性为研究出发点,对模型适配过程中所涉及的关键结构差异进行了系统归纳,构建了结构感知调制的统一分析框架,从模块功能组织、表示维度结构、多尺度动态模式以及参数容量分布等不同层级刻画时空数据诱导的结构异质性,并据此形成具有一致形式的结构化建模思路。 + +在方法研究方面,本文围绕多层级结构异质性逐步展开,形成了由表示空间到参数空间递进发展的适配策略体系。在模块级层面,通过上下文条件化的注意力调制机制,引导模型在多任务场景下实现知识共享与任务特化表达之间的协调;在维度级层面,通过位置结构感知的表示调制方法增强模型对空间依赖关系与时空位置编码的利用效率;在参数组织层面,结合多尺度频谱建模与容量分配机制,使模型能够在有限参数预算下同时捕获全局演化趋势与局部细粒度模式。上述方法从不同侧面探索了结构角色驱动的模型适配路径,体现了由数据结构特性引导模型能力发挥的建模思路。 + +在评测与验证层面,本文进一步构建了面向时空智能研究的实验基础设施体系。通过设计基于多智能体协同的交通预测持续评测框架,实现了交通预测模型从文献发现到统一评估的自动化工作流,为相关方法提供了可复现且可扩展的验证环境。同时,基于真实轨迹行为与地理兴趣点信息构建了大规模时空敏感问答数据集,对当前模型在复杂城市场景中的时空推理能力进行了系统评测。实验结果表明,尽管现有基础模型在通用任务中已展现出较强能力,但在细粒度时空推理问题上仍存在明显性能瓶颈,而结构感知的适配策略在提升模型表现方面具有一定潜力。 + +总体而言,本文围绕城市时空系统的结构复杂性这一核心问题,从统一分析框架构建、多层级适配方法设计到评测体系支撑三个层面开展研究,形成了较为完整的技术路径与研究闭环。相关工作为基础模型在复杂时空智能任务中的高效应用提供了系统性的理论参考与方法探索,也为后续城市智能建模研究奠定了进一步发展的基础。 +\subsection{主要创新点} + +围绕城市时空数据表征学习与基础模型高效适配这一核心问题,本文从结构特性分析、方法体系构建以及评测基础设施设计等方面开展了系统研究,主要创新性工作体现在以下三个方面。 + +\textbf{创新点一:提出了面向时空数据结构复杂性的统一分析框架。} + +针对复杂城市时空任务中模型适配困难来源缺乏系统性认识的问题,本文从表示学习过程出发,对时空数据在模型内部诱导的结构差异进行了层级化归纳与形式化刻画。通过从模块功能组织、表示维度结构、多尺度动态模式以及参数容量分布等多个层面分析结构异质性对模型建模过程的影响,本文构建了一个具有统一视角的结构感知分析框架。该框架将以往分散于具体任务或模型设计中的经验性现象上升为结构层面的机制性认识,有助于更清晰地理解复杂时空任务中模型适配难点的来源,并为后续结构感知建模方法的设计提供了具有指导意义的理论分析基础。 + +\textbf{创新点二:构建了面向城市多任务时空建模的多层级结构感知参数高效适配方法体系。} + +围绕结构异质性对模型表征能力的影响,本文从表示空间到参数空间逐层展开研究,形成了具有内在一致性的结构角色驱动适配策略。在模块级层面,通过上下文条件化的注意力调制机制协调跨任务知识共享与任务特化表达;在维度级层面,通过位置结构感知的动态表示调制增强模型对空间依赖关系的建模能力;在更高层级的参数组织层面,结合多尺度频谱建模与容量分配机制,使模型能够在有限参数预算下同时刻画全局演化趋势与局部细粒度模式。该方法体系体现了由时空数据结构特性引导模型能力发挥的建模范式,为基础模型在复杂城市任务中的高效适配提供了系统性技术路径。 + +\textbf{创新点三:构建了面向时空智能研究的持续评测基础设施与细粒度时空推理数据资源。} + +为解决交通预测基准难以持续更新以及大语言模型缺乏时空推理评测数据的问题,本文提出了AI驱动的交通预测持续评测框架AgentCity,实现了模型发现、复现与统一评估的自动化工作流;同时构建了大规模时空敏感问答数据集POI-QA,从真实轨迹行为出发系统评测模型在复杂城市场景中的时空推理能力。上述工作在方法研究与实验验证之间建立了稳定的评测支撑环境,为后续相关研究提供了可复现、可扩展的实验基础。 + +\subsection{未来工作展望} + +尽管本文围绕时空数据结构特性驱动的表征学习建模开展了系统研究,但面向更复杂的城市智能场景,相关理论与方法仍具有进一步拓展空间。未来研究可从模型范式层面对时空基础模型的构建展开探索。在现有通用预训练模型基础上的结构感知适配策略之外,有必要进一步研究原生面向时空数据的统一预训练框架,通过在大规模轨迹数据、路网结构数据及城市运行观测数据上的联合学习,增强模型对时空动态规律的内在表征能力,从而为多类型城市任务提供更加稳健的基础模型支撑。 + +随着城市运行环境中多源数据的持续积累,多模态时空信息融合将成为重要研究方向。真实场景下的时空行为往往同时受到地理结构、语义事件及环境因素的综合影响,例如文本信息、遥感影像与感知数据等均可能对时空模式产生显著作用。如何在统一表示空间中实现多模态信息的协同建模,并在保持模型计算效率的前提下提升其对复杂城市现象的理解能力,是未来值得深入探索的问题。 + +从应用角度看,开放环境中的时空推理与决策能力仍有较大提升空间。相关实验结果表明,当前模型在面对自然语言表达、复杂约束条件及细粒度空间推理任务时仍存在明显性能差距。未来可进一步研究面向长期行为预测与动态交互决策的建模机制,使模型能够在不断变化的城市环境中实现更稳定的推理与自适应调整,从而推动时空智能技术向真实应用场景的深入发展。 + +此外,评测体系与实际系统运行之间的持续联动也具有重要研究价值。随着AI驱动评测框架的逐步成熟,未来可探索将离线基准评测、在线数据更新与真实系统反馈相结合,构建具有持续演化能力的评测生态,从而更加全面地刻画模型在复杂城市系统中的长期性能表现与泛化能力。通过在模型设计、数据资源建设与评测机制完善等方面的协同推进,有望逐步形成更加系统化和可落地的城市时空智能研究范式。 diff --git a/deepresearch/Gemini-deep-research-1.txt b/deepresearch/Gemini-deep-research-1.txt new file mode 100644 index 0000000..d897085 --- /dev/null +++ b/deepresearch/Gemini-deep-research-1.txt @@ -0,0 +1,204 @@ +第二章 时空表征学习与大模型建模方法研究现状 +2.1 时空数据建模与表征学习研究 +2.1.1 时空数据建模问题类型与应用场景 +城市时空数据是刻画现实物理世界动态演化过程的基础信息载体,其本质是人类活动、自然物理环境以及人造基础设施在时间和空间维度上的映射。随着城市物联传感网络(IoT)、移动互联网终端以及地球观测卫星的普及,时空数据呈现出多源异构、高维动态以及海量流式的特征。在应用场景层面,时空数据建模问题主要涵盖交通流量与需求预测、城市气象与环境监测、人类活动轨迹追踪、公共安全与流行病预警,以及城市资源调度等核心领域 1。这些问题在底层逻辑上,均要求模型能够敏锐捕捉地理空间拓扑(如路网连接、区域邻接、功能区分布)与时间序列动态(如周期性、趋势性、突发性)之间的复杂耦合关系。 +不同场景下的时空数据可以进一步抽象为若干类核心的表征对象。第一类是具有显式图结构的传感网时空序列,例如交通传感器采集的速度、流量和占有率数据,或是气象站点记录的温度与降水序列 4。这类数据的物理意义明确,时空结构表现为固定传感器节点在时间轴上的连续观测。第二类则是蕴含丰富语义信息的离散时空事件序列或语义轨迹,例如用户的兴趣点(POI)访问记录、共享单车的起讫点(OD)流、以及带有地理标签的社交媒体签到数据 1。第三类为连续的栅格或视觉图像数据,如遥感卫星影像和街景图像,主要用于宏观的土地利用分类与微观的城市形态识别 6。 +在这些复杂的城市计算场景中,时空系统的演化呈现出高度的非线性与不确定性。一个区域的状态不仅受到其局部历史状态的自回归影响,还受到全局空间拓扑的约束、跨区域空间溢出效应的波及,以及外部环境因素(如天气、节假日、大型活动)的共同驱动。这种复杂的时空依赖关系,对时空智能建模的表征提取能力、多源信息融合能力以及泛化推演能力提出了极高的要求。 +2.1.2 传统时空建模方法 +早期的时空建模研究主要依赖于经典的统计学理论与传统机器学习方法。在时间维度的时间序列分析中,自回归移动平均模型(ARIMA)及其变体(如包含季节性因素的 SARIMAX)被广泛应用于捕获时间序列的线性依赖与周期性演变规律 7。这类模型基于平稳性假设,通过差分操作提取数据的固有趋势,在短期交通流预测或简单的气象指标外推中取得了初步成效。 +在空间维度的建模中,考虑到地理学第一定律所揭示的“空间自相关性”,以及地理学第二定律所强调的“空间异质性”,地理加权回归(Geographically Weighted Regression, GWR)作为一种经典的局部回归技术被广泛采用。GWR 通过在回归方程中引入空间坐标位置作为权重函数,放宽了传统普通最小二乘法(OLS)全局回归对空间平稳性的严苛假设,从而能够有效建模空间变异关系 8。为了进一步融合时空维度的动态特征,研究者提出了时空地理神经网络加权回归(GTNNWR)模型,利用人工神经网络(ANN)来非线性地估计时空非平稳性,有效提升了复杂地理过程(如空气质量分布、海洋硅酸盐浓度变化)的拟合精度与解释性 10。 +此外,在涉及动态系统状态追踪的应用中,卡尔曼滤波(Kalman Filter)及其非线性扩展算法(如无迹卡尔曼滤波 Unscented Kalman Filter、集合卡尔曼滤波 Ensemble Kalman Filter)在时空动力学系统的状态估计与数据同化中发挥了不可替代的作用 11。这类状态空间方法能够通过观测方程与状态转移方程,在存在不确定性噪声的环境下持续更新系统的最优估计。 +尽管上述传统方法在特定的平稳或弱非平稳假设下具备严谨的数学可解释性,但它们在面对高维、非线性且包含海量噪声的现代城市时空大数据时,逐渐暴露出表征能力不足、特征工程极其繁琐、难以自动提取深层抽象特征,以及难以向超大规模路网规模化扩展的严重瓶颈。 +2.1.3 深度学习驱动的时空表征学习方法 +为克服传统统计模型的局限性,深度表示学习(Deep Representation Learning)逐渐取代手工特征工程,成为时空计算领域的核心范式。早期的深度学习探索多采用卷积神经网络(CNN)与循环神经网络(RNN/LSTM/GRU)的串联或并联组合。研究者通常将城市空间划分为均匀的欧几里得网格(如图像像素),利用 CNN 提取空间邻域特征,随后送入 RNN 捕获时间依赖 13。然而,城市路网及传感器分布通常呈现不规则的非欧几里得图结构,强行将其映射为网格会破坏真实的地理拓扑关系。 +近年来,时空图神经网络(STGNN)的兴起为非欧时空数据的表征学习带来了突破性进展。STGNN 将传感器或地理区域建模为图的节点,将物理连接或属性相似性建模为图的边。代表性工作 DCRNN(Diffusion Convolutional Recurrent Neural Network)创造性地将交通流的动态传播建模为有向图上的随机游走扩散过程,并与序列到序列(Seq2Seq)的编码器-解码器架构结合,有效捕获了复杂的非对称时空相关性 4。与此同时,STGCN(Spatio-Temporal Graph Convolutional Networks)则在频域上定义了图卷积算子,通过完全的卷积结构(1D Temporal CNN + Graph GCN)替代了耗时的 RNN 循环计算,大幅提升了训练效率与长序列建模能力,有效缓解了梯度消失问题 16。 +随着研究的深入,如何处理动态变化的图拓扑结构成为新的挑战。Graph WaveNet 针对传统模型高度依赖预定义邻接矩阵的缺陷,引入了自适应图学习机制(Adaptive Graph Learning),能够在未提供显式空间拓扑图的情况下,通过节点嵌入向量的双向内积自发学习潜在的空间依赖关系;同时,该模型采用扩张因果卷积(Dilated Causal Convolutions),在不显著增加网络深度的前提下,以指数级扩大了时间感受野,极大地增强了长程时间依赖的建模能力 17。此外,多变量时间序列预测模型(如 StemGNN)将图傅里叶变换(GFT)与离散傅里叶变换(DFT)结合,在联合的谱域空间中同时捕获变量间的空间交互与时间演变规律,无需预设任何拓扑先验 18。这些深度表征模型的繁荣,标志着时空数据建模正式迈入了特征自动学习的新阶段。 +2.1.4 时空建模中的结构复杂性问题 +尽管 STGNN 及其变体在各类基准测试中取得了显著成功,但在面对极端复杂且高度异质的城市巨系统时,现有深度学习范式依然受制于时空数据内在的结构复杂性与异质性。真实的城市时空数据并不是均匀分布的数值流,而是在多个维度上呈现出显著的结构角色分化,具体表现为以下四个层级: +1. 多任务功能异质性:城市系统中往往存在多任务高度共存的场景(如同时预测交通流、空气质量、能耗与事件风险)。这些任务间既存在共享的底层物理因果规律,又存在相互冲突的特定特征表示与容量需求 10。传统 STGNN 通常采用硬共享(Hard-parameter Sharing)的底层网络,容易导致严重的任务间负迁移(Negative Transfer)与知识干扰。 +2. 位置结构依赖与表示各向异性:时空事件发生的时间周期性与空间相对位置,赋予了输入序列中不同元素完全不同的语义权重。然而,多数现存的图注意力机制(GAT)或标准自注意力网络,在特征聚合时未能有效区分维度空间内的频率属性,导致关键的位置结构信息在层层传递中被过度平滑(Over-smoothing),丧失了表示的各向异性分辨力。 +3. 多尺度动态模式:城市时空规律同时包含高频的局部突变(如交通事故引起的瞬时拥堵)与低频的全局演变(如城市级早晚高峰周期、长期气象演变) 5。单一感受野的卷积或同质化的注意力窗口难以兼顾跨尺度的频谱特征,导致模型极易陷入优先拟合低频信息的“频谱偏置”(Spectral Bias)陷阱 20。 +4. 多源差异与容量分配冲突:跨模态的时空数据(如文本语义、遥感栅格、轨迹向量)在信息密度与信噪比上存在天壤之别 6。深度模型在内部参数矩阵的容量分配上通常是静态的、人工指定的,无法根据数据源的异质性自适应地进行参数拓扑发现与资源调度。 +上述结构异质性深刻地揭示了一个科学问题:任何试图用均匀的、同质化的网络结构(无论是深度图卷积还是标准 Transformer)去“同等地”对待所有时空输入特征的尝试,都会不可避免地导致模型容量的浪费或关键结构信号的淹没。这一问题不仅是传统 STGNN 的瓶颈,也为后续引入具有更强表示能力的大语言模型(LLM),并对其进行结构化感知适配提供了直接且根本的动机。 +________________ +2.2 基础模型与大语言模型表征机制研究 +2.2.1 Transformer 表示学习机制 +大语言模型之所以能够引发人工智能领域的范式革命,其底层架构 Transformer 功不可没。Transformer 彻底摒弃了 RNN 的序列递归计算范式,利用自注意力(Self-Attention)机制和前馈神经网络(Feed-Forward Network, FFN)建立了全局的长程依赖关系。在统一的表示符号体系下,给定第 $\ell$ 层 Transformer 的输入隐藏表示 $\mathbf{H}^{(\ell-1)} \in \mathbb{R}^{T \times d}$(其中 $T$ 为序列长度,$d$ 为表示维度),自注意力模块首先通过线性投影生成 Query、Key 和 Value 矩阵:$\mathbf{Q}^{(\ell,h)}$、$\mathbf{K}^{(\ell,h)}$、$\mathbf{V}^{(\ell,h)}$($h$ 为多头注意力的头索引)。随后,通过点积缩放计算注意力权重矩阵,并施加 Softmax 操作,实现当前 Token 对上下文全局信息的加权聚合。 +从模型内部的模块功能角色分化来看,近年来的机制可解释性研究表明:自注意力模块更偏向于执行上下文信息的路由与整合(Contextual Integration),负责在序列中不同元素之间建立动态的信息通道;而前馈网络模块(FFN)则更像是一个海量的局部知识存储器(Knowledge Repository),其庞大的参数矩阵编码了训练语料中蕴含的事实性知识与模式规律。这种模型内部模块级(Module-level)的角色分化,为后续针对不同时空任务实施差异化的表征流调制提供了坚实的微观理论基础 21。 +2.2.2 预训练基础模型与表示迁移学习 +随着底层计算算力的指数级增长与海量无标注互联网数据的积累,基于 Transformer 构建的预训练基础模型(Foundation Models)展现出了空前强大的表示迁移能力 23。在自然语言处理(NLP)领域,以 BERT(双向编码器表示)、GPT-3 及 ChatGPT(生成式预训练 Transformer)为代表的模型通过大规模自监督预训练(如掩码语言建模 MLM、下一词预测 NTP),学习到了高度泛化的通用语法、语义乃至常识世界模型 24。这种“预训练-微调”(Pretrain-Finetuning)范式,叠加指令微调(Instruction Tuning)与基于人类反馈的强化学习(RLHF),使得模型具备了卓越的零样本泛化与少样本学习能力。 +这种范式的成功迅速向其他数据模态扩散,催生了时空基础模型(STFM)的初步探索 26。时空基础模型试图通过掩码重构(如随机掩盖部分传感器读数并要求模型预测)或对比学习方法,在海量无标注的城市交通传感流、多源气象观测以及全城人类移动轨迹数据上提取通用的时空分布不变性特征。这类自监督预训练极大地降低了下游专门化时空任务对昂贵标注样本的依赖。然而,单纯从零开始训练(Train-from-scratch)一个千亿参数级别的时空大模型面临着数据模态不一、算力成本极高的问题。因此,直接利用已具备强大认知能力的通用 NLP 大语言模型,并将其泛化至时空域,成为了一条更具前景的技术路径。 +2.2.3 大语言模型在复杂任务建模中的潜力 +大语言模型在参数规模跨越百亿甚至千亿级别后,涌现(Emergence)出了上下文学习(In-context Learning)、思维链(Chain of Thought, CoT)推理以及零样本逻辑推演等革命性能力 24。更深刻的是,最近的表征探针(Representation Probing)研究发现,LLM 并不单纯是概率性的“随机鹦鹉”;其庞大的高维参数空间内部,实际上自发形成并潜藏了对真实物理世界的时间、空间、甚至地理坐标系统的同态映射表征 27。 +在涉及复杂系统演算、长程关联反思以及跨域知识融合的场景中,大语言模型展现出了远超传统专用时空神经网络的潜力。认知科学与神经科学研究表明,空间认知(Spatial Cognition)是智能体进行高级逻辑与数学推理的关键底层能力支撑,而自然语言处理能力反而是构建在此之上的表层功能 28。因此,LLM 内部展现出的时空记忆(Spatial Memory)、几何拓扑抽象归纳以及导航推理能力,为其在跨领域的城市系统规划、长期交通态势演化以及复杂公共安全因果推理中,提供了一个极具通用性的认知基座。这表明,LLM 不仅能“读懂”文本,更能通过适当的对齐策略“理解”蕴含物理规律的时空数字序列。 +2.2.4 大模型在时空智能领域的初步探索 +在上述潜力的驱动下,学术界已开始积极探索将大语言模型直接应用于时空智能任务。代表性的探索工作包括 UrbanGPT,该框架首次尝试将轻量级的时空依赖编码器与大语言模型的指令微调范式无缝结合。通过构建时空指令集,UrbanGPT 在极端数据稀缺的零样本场景下,实现了对跨城市、跨模态现象的准确预测 30。类似地,TransLLM 提出了一个统一的基础框架,通过强化学习训练基于实例级别的提示路由机制(Prompt Routing),将时空图网络提取的复杂拓扑特征转化为结构化嵌入,并作为上下文引导 LLM 在交通预测与调度任务中进行数值推理 19。此外,CityGPT、UrbanLLaVA 等多模态工作则进一步拓展了时空数据的边界,实现了宏观城市视觉、微观街景图像与时空轨迹数值的联合认知建模 34。 +然而,现阶段的探索仍主要呈现出一种“外部拼接”与“浅层对齐”的特征。大多数方法仅仅将 LLM 视为静态的黑盒知识引擎,或采用全局一致的指令微调(Instruction Tuning)机制。这类方法未能在微观层面触及大模型内部注意力机制与权重更新机制同“时空数据高度结构化特征”之间的深刻矛盾。大模型原本为处理一维的、相对同质的自然语言而设计,当其面临具有强时空周期性、复杂图拓扑以及跨尺度波动的多任务时空流时,如果不对其内部参数表示进行深度的结构角色干预,极易导致时空拓扑信息的丢失、表示维度的坍塌以及多任务间的知识干扰。 +________________ +2.3 参数高效适配与结构建模方法研究(核心分析框架) +基于 2.1.4 节的分析,城市时空数据具有极强的多层次结构角色异质性。而传统的基础模型或大语言模型,在结构设计上往往假定各层、各注意力头以及各表示维度具有高度的均匀分布。这种数据端的“结构异质”与模型端的“均匀同质”之间产生了严重的供需错配。这一矛盾对 LLM 在时空领域的深入应用提出了特殊要求。 +针对上述挑战,本文提出结构角色感知的表征适配统一分析框架,将时空数据的结构特征与大语言模型内部的功能层级进行深度映射与对齐。在统一的理论视角下,结构感知的表示调制可以形式化为如下母式算子: + + +$$\tilde{\mathbf{Z}} = \mathcal{M}_\theta(\mathbf{Z} \mid \mathbf{X}, \mathcal{R})$$ +其中: +* $\mathbf{Z}$ 表示模型内部待调制的目标对象,根据结构层级的不同,它可以是注意力层的隐藏表示 $\mathbf{H}^{(\ell)}$、注意力投影子空间 $\mathbf{Q}^{(\ell)} / \mathbf{K}^{(\ell)}$,或是权重矩阵的参数更新量 $\Delta\mathbf{W}$。 +* $\mathcal{M}_\theta$ 表示结构感知调制算子(Structure-aware Modulation Operator),负责执行非均匀的变换。 +* $\mathbf{X}$ 表示输入的时空上下文信息序列。 +* $\mathcal{R} = \{\mathcal{R}_{mod}, \mathcal{R}_{dim}, \mathcal{R}_{freq}, \mathcal{R}_{param}\}$ 表示四类多层级的结构角色信息,分别对应模型模块级、表示维度级、信号频谱级与参数结构级的异质性先验。 +下文将围绕这一统一理论框架,系统综述大语言模型的参数高效适配技术,并深度剖析其向结构化建模演进的研究脉络。 +2.3.1 参数高效微调方法 +当基础预训练模型的参数规模从数亿膨胀至千亿级别时,针对各类细分时空下游任务进行全参数微调(Full Fine-Tuning)的计算开销与显存成本是工程上不可接受的;并且在数据量不足的情况下极易引发灾难性遗忘(Catastrophic Forgetting)23。因此,参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)应运而生,并迅速成为大模型适配的主流范式 36。PEFT 的核心哲学是:冻结庞大的预训练骨干网络参数 $\Theta_0$,仅在模型架构中插入、拼接或修改极少量的可训练适配参数 $\Theta_a$,使得最终应用于目标任务的模型参数可统一表示为 $\Theta = \Theta_0 + \Delta \Theta$ 38。 +目前主流的 PEFT 技术可大致划分为三类: +1. 附加型微调(Additive PEFT):如 Adapter 技术,在 Transformer 层的自注意力模块或 FFN 模块之后插入小型的多层感知机(MLP)瓶颈网络;以及前缀微调(Prefix Tuning)或提示微调(Prompt Tuning),通过在序列输入前端追加可学习的连续向量,引导模型生成特定响应。 +2. 选择型微调(Selective PEFT):例如 BitFit,仅微调网络中所有的偏置项(Bias),冻结所有权重矩阵。 +3. 重参数化微调(Reparameterized PEFT):其中最具代表性且应用最广的即为低秩自适应(Low-Rank Adaptation, LoRA) 24。LoRA 建立在一个核心假设之上:即模型在适应下游任务时,其权重更新矩阵 $\Delta \mathbf{W}$ 具有极低的内在秩(Intrinsic Rank)。因此,LoRA 将高维权重增量分解为两个低秩矩阵的乘积 $\Delta \mathbf{W} = \mathbf{B}\mathbf{A}$(其中 $\mathbf{A} \in \mathbb{R}^{r \times d_{in}}$,$\mathbf{B} \in \mathbb{R}^{d_{out} \times r}$,$r \ll \min(d_{in}, d_{out})$),从而成百上千倍地减少了训练参数的规模。后续衍生出的 DoRA(权重分解低秩适配)和 AdaLoRA(自适应低秩适配)进一步提升了表达能力并实现了基于重要性得分的动态秩分配 39。 +然而,必须指出的是,包括 LoRA 在内的经典 PEFT 方法在本质上属于均匀适配策略。在应用于时空计算时,它们机械地对所有选定的 Transformer 层或投影矩阵(如 $W_q, W_v$)施加全局均等的低秩约束。这种同质化的参数更新完全无视了时空多任务场景下,模型不同模块、不同频域需要吸收的知识类型及其密度存在天壤之别这一关键事实。均匀适配严重限制了模型在复杂城市多任务协同中的表征能力上限,迫切需要引入更加细粒度的结构感知机制。 +2.3.2 多任务学习与知识路由机制(模块级异质性 $\mathcal{R}_{mod}$) +城市时空系统天然是一个多任务并行环境。在这一环境中,交通流预测、事件发生概率估计、POI推荐等任务不仅需要在有限的参数空间内共享底层物理表征,还要应对彼此之间存在的“负迁移”(Negative Transfer)与目标冲突。为了解决多任务知识的融合与抗干扰问题,学术界开始探索将结构路由引入深度模型内部。 +在预训练语言模型领域,混合专家模型(Mixture-of-Experts, MoE)是实现网络结构稀疏化与模块级角色分化的经典架构范式 41。MoE 将 Transformer 中标准的前馈网络替换为多个并行的异构“专家”子网络,并通过一个可学习的门控路由网络(Router),针对当前输入的特征或 Token 动态激活少数最匹配的专家 22。近期的神经元层面机理研究进一步证实了这种模块分化的存在:在进行多任务微调时,LLM 内部会分化出高度特化的“任务特异性神经元”(Task-specific Neurons),这些神经元在特定层内聚集,主导了特定任务的泛化能力;而且在推理更为复杂的多模态时空问题时,高层与底层的模型模块会表现出明显不同的路由激活率(RoE) 21。同时,诸如 Mixture-of-LoRAs (MoA) 的架构展示了利用显式路由策略,动态融合多个独立训练的领域适配低秩模块的可行性,有效缓解了多任务干扰 45。 +从本文的统一分析框架看,上述方法揭示了 Transformer 架构在应对多任务时的模块功能角色差异(Module-level Specialization)。面对时空数据的多任务功能异质性,应当构建以 $\mathcal{R}_{mod}$ 为导向的乘性调制机制(Multiplicative Modulation): + + +$$\mathcal{M}_\theta(\mathbf{Z}) = \mathbf{Z} \odot \mathbf{S}_\theta(\mathbf{X}, \mathcal{R}_{mod})$$ +通过直接选定注意力层的输出隐藏表示作为调制对象 $\mathbf{Z} = \mathbf{H}_{att}^{(\ell)}$,并以输入上下文 $\mathbf{X}$ 结合任务模块标识 $\mathcal{R}_{mod}$ 为条件生成调制门控 $\mathbf{S}_\theta$,可以直接对表示流进行细粒度的增强与抑制,实现任务相关信号的路由放大与干扰信号的遮蔽。这一模块角色感知的表征适配思想构成了本文第三章(HyCAM 多任务表征适配方法)的方法学基础与理论起点。 +2.3.3 表示各向异性与结构感知学习(维度级异质性 $\mathcal{R}_{dim}$) +随着对大语言模型内部表征几何空间结构的深入解析,研究人员发现了一个普遍且严重削弱模型判别能力的现象——表示各向异性(Representation Anisotropy)46。大量研究表明,无论是单语还是多语言 Transformer 模型,其输出的 Token 嵌入向量并没有均匀分布在整个隐向量空间中,而是高度聚集在一个狭窄的锥形区域内。并且,这种空间分布往往被极少数方差极大的“离群维度”(Outlier Dimensions)所主导 47。 +这种各向异性的根本原因,部分归咎于交叉熵损失函数(Cross-entropy Loss)中 Softmax 算子的优化偏置,以及 Adam 优化器二阶动量对高频词汇的推移作用 49。这就导致高频词和低频词在表征空间产生系统性的位移与漂移,使得通过余弦相似度计算特征距离的机制失效,极大削弱了模型对长尾现象(例如非热门 POI、偏远区域路段)的语义区分能力 50。为缓解此问题,研究者提出了诸如余弦正则化、拉普拉斯正则化、频谱控制(Spectrum Control)以及句法平滑优先(Syntactic Smoothing)等在训练阶段消除频率偏差的各向同性修正方法 48。 +然而,在时空计算域,频率偏差与维度分化未必完全是负面的。时空序列中的位置编码(例如目前大模型广泛采用的旋转位置编码 RoPE)本身就蕴含了隐式的频率结构约束。最新的研究发现,在注意力计算中,不同的表示维度事实上承担着截然不同的时空结构建模功能:低频维度往往受扰动较小,倾向于捕获全局的长程语义依赖与时间周期规律(如历史同期的流量模式);而高频维度则极度敏感,聚焦于刻画局部时空邻域的非平稳突变细节 40。 +面对时空相对位置结构与时间周期的强依赖性,如果适配过程依然不加区分地统一更新所有维度,势必造成重要低频结构的破坏与高频噪声的放大。因此,基于维度角色 $\mathcal{R}_{dim}$ 的适配策略要求对注意力计算中的 Query 和 Key 投影子空间表示 $\mathbf{Z} = \{\mathbf{Q}_{low}^{(\ell)}, \mathbf{K}_{low}^{(\ell)}\}$(或针对具体 head 的表示 $\mathbf{Z} = \{\mathbf{Q}^{(\ell,h)}, \mathbf{K}^{(\ell,h)}\}$)实施频率敏感的选择。不同的表示维度承担不同的结构建模功能,适配过程必须具有非均匀的各向异性(Anisotropic Adaptation)。这一维度角色感知的高效位置调制与适配机制,构成了本文第四章(RoSA 与 DyPAM 方法)探索的内核。 +2.3.4 多尺度学习与频谱建模方法(频谱级异质性 $\mathcal{R}_{freq}$) +时空数据的另一个核心结构特征是其动态演化模式的多尺度属性(Multi-scale Properties)。一场交通事故可能仅在几分钟内影响局部的数个路口(表现为极高频的时空剧烈分量),而城市级的产业功能调整或宏观气象变化则呈现出跨度数月甚至数年的大范围平滑演变(表现为超低频的时空缓变分量)。深度神经网络(DNN)在拟合此类包含复杂高低频信息的真实物理映射时,普遍受制于一个致命弱点——“频谱偏置”(Spectral Bias)20。理论分析指出,采用梯度下降训练的深度网络总是优先且极快地拟合数据的低频(平滑)分量,而对高频(震荡突变)特征的捕捉极其缓慢且困难 52。 +为缓解这一难题,基于变换域(Transform Domain)的多尺度频谱分析被广泛引入时空预测模型。基于离散傅里叶变换(DFT)和离散小波变换(DWT)的方法,能够有效将时空信号在不同尺度上进行解耦分离。例如,StemGNN 算法结合了图傅里叶变换(捕捉跨传感器空间交互频率)与一维离散傅里叶变换(捕捉时间依赖),在统一的谱域内进行多变量时间序列预测,取得了超越纯空域方法的卓越表现 18。此外,近年来备受瞩目的傅里叶神经算子(Fourier Neural Operator, FNO)通过在频域内学习算子映射,成功构建了高泛化性的非线性偏微分方程近似求解器,在海面温度演变、降水预测等复杂的动态时空系统建模中展现了在不规则网格与多分辨率下的灵活性 54。 +将视角转向大模型参数微调空间,最新的特征值几何分析同样揭示出:LLM 在预训练和微调过程中的权重演化(Representation Collapse & Expansion)存在着基于本征谱结构(Eigenspectrum)的多阶段非单调相变 57。这意味着,模型内部的参数更新模式本身就具有频谱级异质性(Spectrum-level Heterogeneity)。全局平滑的任务语义对齐依赖于低频参数更新,而特定的时空微观局部行为修正则强依赖高频参数更新。据此,可以通过构建以 $\mathcal{R}_{freq}$ 为条件的组合调制算子(Compositional Modulation): + + +$$\mathcal{M}_\theta(\mathbf{Z}) = \sum_e \pi_e(\mathbf{X}, \mathcal{R}_{freq}) \cdot \phi_e(\mathbf{Z})$$ +其中调制对象为权重更新矩阵 $\mathbf{Z} = \Delta \mathbf{W}$。$\phi_e$ 代表异构的频域更新专家(如模拟低频全局平滑更新的离散余弦变换 DCT 专家,与模拟高频局部细化的离散小波变换 Wavelet 专家),$\pi_e$ 为由输入特征驱动的自适应路由权重。这种由粗到细(Coarse-to-fine)、多尺度结构驱动的频谱级参数更新建模机制,奠定了本文第五章前半部分(CASCADE 级联适配方法)的理论基石。 +2.3.5 模型结构优化与容量分配方法(参数级异质性 $\mathcal{R}_{param}$) +在更高的系统与架构层级,如何在异构的多个时空任务间合理分配模型内部有限的参数容量(Capacity Allocation),是一个极具挑战性的拓扑结构问题。传统的时空网络(包括早期的 STGNN 与部分 ST-LLM)往往依赖专家的直觉经验,采用手动设定的静态网络连接图和硬共享模块。这种静态设计无法动态适应当今海量多源异构数据集在信息复杂度和特征冗余度上的差异。 +为克服人工设计的局限,神经网络架构搜索(Neural Architecture Search, NAS)技术被创新性地引入到时空图神经网络的设计中 5。诸如 AutoCTS 以及轻量级的 SearchLight 框架,通过定义分层的宏观(跨层拓扑连接)与微观(节点内部卷积、注意力算子组合)搜索空间,利用可微架构搜索(DARTS)或强化学习的方式,自动寻找在预测精度与计算开销之间取得最优平衡的时空操作序列与拓扑架构 17。这些研究证明了:针对特定的时空任务分布,模型中并不存在普适的静态最优结构,结构拓扑本身必须是任务相关且可微分学习的。 +对于大语言模型的高效适配而言,参数空间内的稀疏性约束与容量分配尤为关键。多任务 LLM 适配的本质,是在有限的显存微调预算下,解决异质任务在共享参数空间中的冲突(Capacity Bottleneck)。因此,我们需要在参数拓扑空间中实施结构分解调制(Structural Decomposition): + + +$$\mathcal{M}_\theta(\mathbf{Z}) = \mathbf{Z} + \sum_k \mathbf{G}_k \odot \Delta\mathbf{Z}_k$$ +针对某一特定任务 $\tau$ 的总参数增量 $\mathbf{Z} = \Delta \mathbf{W}^{(\tau)}$,我们将其解耦为跨任务的共享结构(Shared Structure) $\Delta \mathbf{W}_{sh}$ 与任务专属结构(Task-specific Structure) $\Delta \mathbf{W}_{sp}^{(\tau)}$。在此基础上,以 $\mathcal{R}_{param}$ (即预算阈值与任务标识)为约束,引入预算感知的结构门控机制(Budget-aware Structural Gating $g_{g}^{sh}, g_{g}^{sp,\tau}$),通过软门控到硬掩码的退火机制,实现不同结构间参数拓扑的自动路由与分离。这种从参数级异质性出发的隐式神经架构搜索与结构自动发现机制,构成了本文第五章后半部分(MESSA 容量分配方法)探讨的核心议题。 +表 2-1 总结了基于结构角色感知的表征适配统一分析框架中的四类异质性、挑战及其与本文提出方法的对应关系。 +时空结构特征维度 + 面临的核心建模挑战 + 对应的 LLM 适配层级与结构角色 + 形式化的主要调制对象 (Z) + 理论演进与关联本文方法 + 多任务功能异质性 + 跨任务负迁移、知识组织冲突、模块冗余 + 模块级结构适配 ($\mathcal{R}_{mod}$) + $\mathbf{H}_{att}^{(\ell)}$ (注意力隐藏输出) + 知识动态路由 / 混合专家协同机制 (HyCAM) + 位置结构依赖 + 时空频率偏差、关键长程语义平滑淹没 + 维度级结构适配 ($\mathcal{R}_{dim}$) + $\mathbf{Q}^{(\ell,h)}, \mathbf{K}^{(\ell,h)}$ (子空间表示) + 频率敏感选择 / 输入条件各向异性调制 (RoSA/DyPAM) + 多尺度动态模式 + DNN 频谱偏置、高频局部突变难以捕捉 + 频谱级结构适配 ($\mathcal{R}_{freq}$) + $\Delta \mathbf{W}$ (全参数更新量) + 频域基函数分解 / 粗细粒度级联更新 (CASCADE) + 多源差异与容量冲突 + 参数利用率低、静态拓扑无法兼顾异质任务 + 参数级结构适配 ($\mathcal{R}_{param}$) + $\Delta \mathbf{W}_{sh}, \Delta \mathbf{W}_{sp}^{(\tau)}$ (参数增量分解) + 隐式架构自动搜索 / 稀疏结构拓扑分配 (MESSA) + 表 2-1:基于结构角色感知的时空表征适配统一分析框架总结。 +________________ +2.4 时空智能数据集与评测基础设施研究 +在理论层面不断提出更为先进的大模型结构适配方法之余,支撑大语言模型时空表征学习可持续演进的另一项关键议题,是建立客观、完备且自动化的实验与评测基础设施。随着技术范式的转移,现有的城市计算基准测试正在经历从传统的“判别式点对点数值评估”向具备复杂交互能力的“生成式智能体评估”范式的快速演进。 +2.4.1 时空预测与分析数据集 +过去十年中,传统的时空智能基准主要聚焦于网格结构或图结构的时间序列判别式任务,如交通流量预测、时空缺失插值与异常事件检测。这些数据集以高度规范化、结构化的数值矩阵格式为主。例如,广泛使用的交通流公开数据集 PEMS 系列、METR-LA 等极大推动了早期 STGNN 模型架构的繁荣 6。近期的 SustainDC 等数据集则提供了涵盖全球不同地理位置、数据中心架构以及气候条件的历史负载与能源分布,被用于评估多智能体强化学习算法在异构城市环境下的能源调度优化能力 61。 +然而,随着跨模态与跨域城市智能应用需求的激增,这类孤立的、仅支持单一回归预测任务评估的数据集逐渐成为限制多模态基础模型向更高阶智能演进的瓶颈。不同领域(如气象、路网、经济活动)的数据在采集频率与空间对齐格式上千差万别,亟需建立如 UDL 等标准化的城市数据清洗流水线,以促进统一数据结构下的多模态融合(Multi-modal Fusion),从而为训练城市多模态基础大模型(如 UrbanLLaVA 等)提供大规模的多源语料支撑 35。 +2.4.2 面向推理与决策的时空任务数据 +与传统的数值回归任务不同,大语言模型赋能的系统通过自然语言进行指令交互,更为注重逻辑推理深度、长视距环境规划以及对多维约束的遵循。近期涌现的基准测试反映了这种需求上的本质变化。例如,TravelPlanner 出行规划基准准则,不再仅仅评估模型预测路线的重合度,而是引入了更为立体的“约束通过率”(Constraint Pass Rate,评估计划是否违背用户特定的时间和预算约束)以及“交付率”(Delivery Rate)等宏观决策评估维度 64。 +在更为细粒度的逻辑判别上,STARK(Spatiotemporal Reasoning Framework)基准测试深入探讨了模型如何将空间物理几何约束(例如判断轨迹是否横穿某一多边形、相交、或被包含)与复杂的艾伦区间时间逻辑关系(如两个事件的时间段发生重叠、先后相遇等)进行有机结合 65。研究结果表明,无论是通用的大语言模型(LLM)还是专门强化逻辑推演的语言模型(LRM,如 OpenAI 的 o3 系列),虽然在基础的空间理解上取得了长足进步,但在处理跨时间点、涉及多维度约束的综合事件关联与空间定位任务时,仍然面临巨大的挑战 65。这些强调细粒度 Reasoning(推理)的评测场景,对模型在隐向量空间内准确捕获基于低频维度的长程语义拓扑结构(即应对前述 $\mathcal{R}_{dim}$ 级异质性)提出了最为严酷的现实检验。 +2.4.3 城市仿真环境与智能体平台 +随着 LLM Agent(大语言模型智能体)概念在人工智能界的全面爆发,高阶的时空应用正在快速转变为知识密集型、流程多变的动态交互系统。时空智能体(Spatial-Temporal Agents)不再单纯被动地接受输入进行单次预测,而是需要具备主动规划能力——动态编排复杂的 GIS 分析工具链、自主解析遥感图像、融合开放街景视觉输入,并根据环境的实时反馈不断修正执行路径(Reflection) 6。 +以 UAgentEnv 为代表的交互式城市仿真环境,开始尝试将原本笼统的“城市推理能力”严格分解为时空理解(Understanding)、预测(Forecasting)、规划(Planning)与反思(Reflection)四个功能维度。这使得评测模式突破了单一结果的比拼,深入到了基于中间过程的高细粒度诊断诊断(Process-based Diagnostics)中 68。此外,像 FLAME(面向城市视觉语言导航的智能体)和 AutoHealth(针对复杂健康轨迹不确定性建模的多智能体系统)等平台架构,进一步展示了在存在大量噪声的动态环境中,协调多个具备不同专长的 Agent 处理异构模态数据并进行鲁棒决策的巨大应用价值 69。 +2.4.4 现有评测体系的局限性 +尽管相关基准数据集及模拟器生态正在快速扩张,但针对系统化评估“大语言模型内部结构适配算法是否有效”,现有的评估基础设施仍存在明显的短板与局限性: +首先,绝大多数评测数据集依然是离线脱机(Offline Static)的,测试集在构建后便固定不变,缺乏能够支持多步骤动态演化、支持模型持续交互,并能够基于评测结果自动迭代生成新挑战的闭环自动化 Benchmark 平台。其次,主流 NLP 推理数据集鲜少涉及基于真实城市路网和兴趣点(POI)的微观拓扑推理,专门用于验证高阶空间几何拓扑计算与长时序周期性关联的 QA(问答)语料库,在规模、难度层级分化和标注质量上远落后于常识推理领域 66。 +大语言模型在城市系统中诸如时空状态反思、长程行动编排等高阶能力上的普遍挣扎(如对空间错觉的妥协),表明仅依靠模型参数结构架构调优是远远不够的。为了形成“方法推演 - 数据验证 - 系统应用”的完整研究闭环,必须建立一套统一化且高度自动化的时空智能大模型评测平台与高质量 POI 空间推理语料库。这一数据系统建设层面的深刻迫切需求,直接确立了本论文第六章中构建 AgentCity 评测基础设施与 POI-QA 推理数据库的核心定位与贡献价值。 +________________ +2.5 本章小结 +本章系统梳理了时空数据建模与大语言模型(LLM)在深度表征学习融合过程中的演进历程与核心痛点。通过追溯从传统统计学习(ARIMA、GWR)到早期深度时空图网络(STGNN),再到预训练基础模型(Foundation Models)与近期时空大语言模型(ST-LLM)的技术发展脉络,本文明确指出现有方法在应对真实城市巨系统演化时面临的根本瓶颈:模型内部均匀同质的参数设计范式,与时空数据天然具备的“多尺度动态模式、高低频位置结构依赖、跨任务功能异质以及多源异构”等四类结构角色异质性之间,存在不可调和的宏观供需错配。 +在广泛综述参数高效微调(PEFT)、多任务动态知识路由、表示层各向异性分析、频谱偏置机理以及隐式神经架构搜索等前沿表征理论的基础上,本章创新性地抽象并构建了结构角色感知的表征适配统一分析框架。该框架将大语言模型在复杂时空环境下的适配机制形式化为以输入与结构角色信息 $\mathcal{R}$ 为条件的非均匀调制算子 $\tilde{\mathbf{Z}} = \mathcal{M}_\theta(\mathbf{Z} \mid \mathbf{X}, \mathcal{R})$。这一统一理论视角,成功将零散的各类微调技术提炼至模型模块级($\mathcal{R}_{mod}$)、内部表示维度级($\mathcal{R}_{dim}$)、参数更新频谱级($\mathcal{R}_{freq}$)与网络容量拓扑级($\mathcal{R}_{param}$)四个层层递进的结构层次。最后,本章通过审视现有城市智能预测数据集与智能体仿真评测体系的局限性,论证了开发针对时空推理定制化数据集与支持闭环交互评测平台的紧迫性。 +尽管本章构建的统一分析框架在理论层面严格界定了时空适配所面临的四级结构异质性维度,但在具体的计算微观层面,关于框架中的第一层级——即在多城市任务高度并发且发生剧烈知识组织冲突的场景下,如何具体捕捉大模型 Transformer 架构中注意力输出与前馈网络之间的模块级角色异质性( $\mathcal{R}_{mod}$ ),并设计出高效的动态表示流知识路由网络,这一核心机制问题尚未得到解答。针对这一模块级异质性建模挑战,本研究将在下一章(第三章:模块角色感知的多任务时空表征学习方法,基于 HyCAM 架构)中展开深入的技术剖析与系统化的实验验证。 +引用的著作 +1. Full article: Representation learning for geospatial data - Taylor & Francis, 访问时间为 三月 16, 2026, https://www.tandfonline.com/doi/full/10.1080/19475683.2025.2552157 +2. Spatial-Temporal Graph Neural Networks - Emergent Mind, 访问时间为 三月 16, 2026, https://www.emergentmind.com/topics/spatial-temporal-graph-neural-networks-stgnns +3. [2504.02009] Urban Computing in the Era of Large Language Models - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/abs/2504.02009 +4. Decoupled Dynamic Spatial-Temporal Graph Neural Network for Traffic Forecasting - VLDB Endowment, 访问时间为 三月 16, 2026, https://www.vldb.org/pvldb/vol15/p2733-shao.pdf +5. [2303.14483] Spatio-Temporal Graph Neural Networks for Predictive Learning in Urban Computing: A Survey - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/abs/2303.14483 +6. A Comprehensive Survey of Agentic AI for Spatio-Temporal Data[v1 ..., 访问时间为 三月 16, 2026, https://www.preprints.org/manuscript/202601.2236 +7. From Fourier to Koopman: Spectral Methods for Long-term Time Series Prediction - Journal of Machine Learning Research, 访问时间为 三月 16, 2026, https://jmlr.csail.mit.edu/papers/volume22/20-406/20-406.pdf +8. Spatiotemporal Characteristics and Influencing Factors of Urban Heat Island Based on Geographically Weighted Regression Model: A Case Study of Urumqi City - MDPI, 访问时间为 三月 16, 2026, https://www.mdpi.com/2073-445X/12/11/2012 +9. Integration framework of the Kalman Filter with the GWR model - ResearchGate, 访问时间为 三月 16, 2026, https://www.researchgate.net/figure/ntegration-framework-of-the-Kalman-Filter-with-the-GWR-model_fig2_340561944 +10. GNNWR: An Open-Source Package of Spatiotemporal Intelligent Regression Methods for Modeling Spatial and Temporal Non-Stationar - GMD, 访问时间为 三月 16, 2026, https://gmd.copernicus.org/preprints/gmd-2024-62/gmd-2024-62-manuscript-version2.pdf +11. Kalman filter control of a model of spatiotemporal cortical dynamics - PubMed, 访问时间为 三月 16, 2026, https://pubmed.ncbi.nlm.nih.gov/18310806/ +12. Multivariate Kalman filtering for spatio-temporal processes - PMC - NIH, 访问时间为 三月 16, 2026, https://pmc.ncbi.nlm.nih.gov/articles/PMC9303052/ +13. Full article: Advances in spatiotemporal graph neural network prediction research - Taylor & Francis, 访问时间为 三月 16, 2026, https://www.tandfonline.com/doi/full/10.1080/17538947.2023.2220610 +14. Spatiotemporal Graph Convolutional Network for Multi-Scale Traffic Forecasting - MDPI, 访问时间为 三月 16, 2026, https://www.mdpi.com/2220-9964/11/2/102 +15. Pre-training Enhanced Spatial-temporal Graph Neural Network for Multivariate Time Series Forecasting - ResearchGate, 访问时间为 三月 16, 2026, https://www.researchgate.net/publication/362690434_Pre-training_Enhanced_Spatial-temporal_Graph_Neural_Network_for_Multivariate_Time_Series_Forecasting +16. [1709.04875] Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecasting - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/abs/1709.04875 +17. SearchLight: Neural Architecture Search for Lightweight Spatio-Temporal Graph Neural Networks - IEEE Xplore, 访问时间为 三月 16, 2026, https://ieeexplore.ieee.org/iel8/6287639/10820123/11173578.pdf +18. Spectral Temporal Graph Neural Network for Multivariate Time-series Forecasting - NIPS, 访问时间为 三月 16, 2026, https://proceedings.nips.cc/paper_files/paper/2020/file/cdf6581cb7aca4b7e19ef136c6e601a5-Paper.pdf +19. [2508.14782] TransLLM: A Unified Multi-Task Foundation Framework for Urban Transportation via Learnable Prompting - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/abs/2508.14782 +20. Addressing Spectral Bias of Deep Neural Networks by Multi-Grade... - OpenReview, 访问时间为 三月 16, 2026, https://openreview.net/forum?id=IoRT7EhFap +21. Towards Understanding Multi-Task Learning (Generalization) of LLMs via Detecting and Exploring Task-Specific Neurons - ACL Anthology, 访问时间为 三月 16, 2026, https://aclanthology.org/2025.coling-main.200.pdf +22. Mixture of Experts Explained - Hugging Face, 访问时间为 三月 16, 2026, https://huggingface.co/blog/moe +23. Parameter-Efficient Continual Fine-Tuning: A Survey - arXiv, 访问时间为 三月 16, 2026, https://www.arxiv.org/pdf/2504.13822 +24. [论文评述] Urban Computing in the Era of Large Language Models - Moonlight, 访问时间为 三月 16, 2026, https://www.themoonlight.io/zh/review/urban-computing-in-the-era-of-large-language-models +25. 大语言模型综述与展望, 访问时间为 三月 16, 2026, http://dianda.cqvip.com/Qikan/Article/Detail?id=7200506757 +26. Foundation Models for Spatio-Temporal Data Science: A Tutorial and Survey - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2503.13502v1 +27. [2310.02207] Language Models Represent Space and Time - arXiv.org, 访问时间为 三月 16, 2026, https://arxiv.org/abs/2310.02207 +28. Full article: Evaluating and enhancing spatial cognition abilities of large language models, 访问时间为 三月 16, 2026, https://www.tandfonline.com/doi/full/10.1080/13658816.2025.2490701 +29. A Survey of Large Language Model-Powered Spatial Intelligence Across Scales: Advances in Embodied Agents, Smart Cities, and Earth Science - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2504.09848v1 +30. UrbanGPT: Spatio-Temporal Large Language Models - arXiv.org, 访问时间为 三月 16, 2026, https://arxiv.org/html/2403.00813v3 +31. [2403.00813] UrbanGPT: Spatio-Temporal Large Language Models - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/abs/2403.00813 +32. UrbanGPT, 访问时间为 三月 16, 2026, https://urban-gpt.github.io/ +33. TransLLM: A Unified Multi-Task Foundation Framework for Urban Transportation via Learnable Prompting - arXiv.org, 访问时间为 三月 16, 2026, https://arxiv.org/html/2508.14782v1 +34. CityGPT: Empowering Urban Spatial Cognition of Large Language Models - ResearchGate, 访问时间为 三月 16, 2026, https://www.researchgate.net/publication/394256647_CityGPT_Empowering_Urban_Spatial_Cognition_of_Large_Language_Models +35. UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2506.23219v1 +36. Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2410.19878v3 +37. [2410.19878] Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies, 访问时间为 三月 16, 2026, https://arxiv.org/abs/2410.19878 +38. [2504.21099] A Survey on Parameter-Efficient Fine-Tuning for Foundation Models in Federated Learning - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/abs/2504.21099 +39. A Survey on Parameter-Efficient Fine-Tuning for Foundation Models in Federated Learning - arXiv.org, 访问时间为 三月 16, 2026, https://arxiv.org/pdf/2504.21099 +40. NeurIPS 2025 San Diego Spotlights, 访问时间为 三月 16, 2026, https://neurips.cc/virtual/2025/loc/san-diego/events/spotlights-2025 +41. [2501.09636] LLM-Based Routing in Mixture of Experts: A Novel Framework for Trading, 访问时间为 三月 16, 2026, https://arxiv.org/abs/2501.09636 +42. Mixture of Experts in Large Language Models †: Corresponding author - arXiv.org, 访问时间为 三月 16, 2026, https://arxiv.org/html/2507.11181v1 +43. Towards Understanding Multi-Task Learning (Generalization) of LLMs via Detecting and Exploring Task-Specific Neurons - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2407.06488v2 +44. Learning to Route Dynamic Experts in Existing Multi-modal Large Language Models | OpenReview, 访问时间为 三月 16, 2026, https://openreview.net/forum?id=vtT09dYPGI +45. Mixture-of-LoRAs: An Efficient Multitask Tuning Method for Large Language Models - ACL Anthology, 访问时间为 三月 16, 2026, https://aclanthology.org/2024.lrec-main.994.pdf +46. When Text Embedding Meets Large Language Model: A Comprehensive Survey - arXiv.org, 访问时间为 三月 16, 2026, https://arxiv.org/html/2412.09165v4 +47. [2306.00458] Exploring Anisotropy and Outliers in Multilingual Language Models for Cross-Lingual Semantic Sentence Similarity - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/abs/2306.00458 +48. Anisotropy Is Inherent to Self-Attention in Transformers - ACL Anthology, 访问时间为 三月 16, 2026, https://aclanthology.org/2024.eacl-long.3.pdf +49. Output Embedding Centering for Stable LLM Pretraining - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2601.02031v1 +50. Is anisotropy really the cause of BERT embeddings not being semantic? - ResearchGate, 访问时间为 三月 16, 2026, https://www.researchgate.net/publication/372933806_Is_anisotropy_really_the_cause_of_BERT_embeddings_not_being_semantic +51. Mitigating Frequency Bias and Anisotropy in Language Models - Emergent Mind, 访问时间为 三月 16, 2026, https://www.emergentmind.com/papers/2410.11462 +52. [2212.03416] On Spectral Bias Reduction of Multi-scale Neural Networks for Regression Problems - arXiv.org, 访问时间为 三月 16, 2026, https://arxiv.org/abs/2212.03416 +53. When Spatio-Temporal Meet Wavelets: Disentangled Traffic Forecasting via Efficient Spectral Graph Attention Networks | Request PDF - ResearchGate, 访问时间为 三月 16, 2026, https://www.researchgate.net/publication/372666845_When_Spatio-Temporal_Meet_Wavelets_Disentangled_Traffic_Forecasting_via_Efficient_Spectral_Graph_Attention_Networks +54. [2601.01813] Spatio-temporal modeling and forecasting with Fourier neural operators, 访问时间为 三月 16, 2026, https://arxiv.org/abs/2601.01813 +55. Spatio-temporal modeling and forecasting with Fourier neural operators - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2601.01813 +56. A wavelet method for the characterization of spatiotemporal patterns, 访问时间为 三月 16, 2026, https://faculty.ecnu.edu.cn/picture/article/421/35/30/8c8a961d4dd3a88761c298e618a0/b365481f-8014-4692-a2bb-1b6e1a1fb82f.pdf.x +57. Tracing the Representation Geometry of Language Models from Pretraining to Post-training - arXiv.org, 访问时间为 三月 16, 2026, https://arxiv.org/html/2509.23024v1 +58. Graph Neural Architecture Search - IJCAI, 访问时间为 三月 16, 2026, https://www.ijcai.org/proceedings/2020/0195.pdf +59. (PDF) Graph Neural Architecture Search: A Survey - ResearchGate, 访问时间为 三月 16, 2026, https://www.researchgate.net/publication/363496961_Graph_Neural_Architecture_Search_A_Survey +60. Understanding and Simplifying Architecture Search in Spatio-Temporal Graph Neural Networks | OpenReview, 访问时间为 三月 16, 2026, https://openreview.net/forum?id=4jEuiMPKSF +61. Datasets Benchmarks 2024 - NeurIPS, 访问时间为 三月 16, 2026, https://neurips.cc/virtual/2024/events/datasets-benchmarks-2024 +62. UrbanDataLayer: A Unified Data Pipeline for Urban Science - NeurIPS, 访问时间为 三月 16, 2026, https://proceedings.neurips.cc/paper_files/paper/2024/file/0db7f135f6991e8cec5e516ecc66bfba-Paper-Datasets_and_Benchmarks_Track.pdf +63. UrbanDataLayer: A Unified Data Pipeline for Urban Science - OpenReview, 访问时间为 三月 16, 2026, https://openreview.net/forum?id=6vFy6H4mTI +64. Urban Computing in the Era of Large Language Models - arXiv.org, 访问时间为 三月 16, 2026, https://arxiv.org/html/2504.02009v1 +65. Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2505.11618v1 +66. USTBench: Benchmarking and Dissecting Spatiotemporal Reasoning of LLMs as Urban Agents - arXiv.org, 访问时间为 三月 16, 2026, https://arxiv.org/html/2505.17572v1 +67. Full article: An autonomous GIS agent framework for geospatial data retrieval - Taylor & Francis, 访问时间为 三月 16, 2026, https://www.tandfonline.com/doi/full/10.1080/17538947.2025.2458688 +68. USTBench: Benchmarking and Dissecting Spatiotemporal Reasoning Capabilities of LLMs as Urban Agents | OpenReview, 访问时间为 三月 16, 2026, https://openreview.net/forum?id=ETzBStUFJy +69. FLAME: Learning to Navigate with Multimodal LLM in Urban Environments - AAAI.org, 访问时间为 三月 16, 2026, https://ojs.aaai.org/index.php/AAAI/article/download/32974/35129 +70. Yong Li's research works | Tsinghua University and other places - ResearchGate, 访问时间为 三月 16, 2026, https://www.researchgate.net/scientific-contributions/Yong-Li-2164034175 \ No newline at end of file diff --git a/deepresearch/Gemini-deep-research-2.txt b/deepresearch/Gemini-deep-research-2.txt new file mode 100644 index 0000000..7f24fa3 --- /dev/null +++ b/deepresearch/Gemini-deep-research-2.txt @@ -0,0 +1,180 @@ +第二章 时空数据建模与大语言模型参数高效适配文献综述 +时空数据建模在理解、预测和管理城市动态、智能交通网络、气候变化以及复杂物理系统演化中扮演着不可替代的核心角色。随着人工智能研究范式的深刻演进,该领域经历了一场从基于统计学特征工程和经典深度学习专有网络架构,向以大语言模型(Large Language Models, LLMs)为核心的时空基础模型(Spatio-Temporal Foundation Models, STFMs)的跨越式发展。然而,尽管大语言模型在自然语言处理领域展现出惊人的零样本泛化能力,其在处理跨模态、高维度、非平稳且蕴含复杂物理拓扑的时空数值信号时,依然面临着严重的参数膨胀、隐空间表示退化(如各向异性现象)以及多维空间位置感知匹配不足等严峻挑战。因此,如何设计参数高效适配(Parameter-Efficient Fine-Tuning, PEFT)机制,并深入洞察时空大模型内部结构的表征动力学特征,成为当前实现统一结构适配理论的关键所在。本章将严格围绕上述学术脉络,对中英文经典文献(涵盖领域内优秀学位论文的理论积淀)及截至2026年的前沿文献进行详尽、深入的调研与全景式梳理,以期为统一结构适配理论的构建提供坚实、严密的综述基础。 +2.1 经典时空数据建模方法与理论反思回顾 +在大型预训练基础模型普及之前,时空数据建模高度依赖于为特定任务(如交通流量预测、降水临近预报、人群轨迹推演)量身定制的深度神经网络。对这一阶段经典文献与理论模型的回顾,不仅有助于揭示时空数据的本质物理与数学特征,更为后续探讨大语言模型的跨域对齐与结构先验注入提供了关键的理论坐标。 +2.1.1 欧氏空间假设下的网格与序列建模群 +早期的时空预测方法主要建立在欧几里得空间假设之上,通过将复杂的物理空间强制划分为规则的二维或三维网格(Euclidean Grids),进而借助计算机视觉领域的卷积神经网络(CNN)与自然语言处理领域的循环神经网络(RNN)进行时空依赖提取。在这一发展阶段,最具代表性的奠基性工作之一是ST-ResNet模型 1。该模型创新性地引入了深度残差卷积网络(Deep Residual CNN),专门针对城市系统中不同时间跨度的人流进出模式进行解耦建模。ST-ResNet通过设计三个并行的残差模块,分别捕获时空数据中的邻近性(Closeness)、周期性(Period)和趋势性(Trend),并在网络末端融合了诸如外部气象条件、节假日效应等环境异构因素,从而在网格级别的城市人群流量预测上取得了当时的最优性能 3。 +与ST-ResNet侧重于空间残差特征提取不同,ConvLSTM等衍生模型致力于将CNN的局部空间感知能力与长短期记忆网络(LSTM)的动态时序记忆能力进行算子级别的无缝融合 2。在气象降水预报等场景中,此类模型验证了空间网格状态可以通过循环递归特征映射进行有效的时间维度推演。然而,这类方法在本质上面临着空间表达域的极大局限性。真实世界的时空数据(例如交通路网中的传感器节点、城市兴趣点之间的交互轨迹)往往呈现高度非欧几里得(Non-Euclidean)的流形分布。强制将这些具有复杂图拓扑结构的信号映射为规则的欧氏网格,不仅会导致关键空间连接特征的严重丢失,还会因为网格的稀疏性引入海量的无效计算 3。这种对欧氏空间假设的路径依赖,最终催生了基于图论的时空建模范式的全面兴起。 +2.1.2 非欧拓扑驱动的图神经网络工作群 +为了克服网格模型在表达复杂空间结构时的内在局限,学术界迅速转向利用图神经网络(Graph Neural Networks, GNNs)对非欧几里得时空数据(如智能交通传感器网络、人群移动轨迹拓扑)进行联合建模 4。基于GNN的时空建模工作群在2018至2022年间逐渐占据了该领域的统治地位,形成了丰富的理论体系与架构分支 5。 +其中,扩散卷积循环神经网络(Diffusion Convolutional Recurrent Neural Network, DCRNN)是这一方向的开创性与代表性工作。DCRNN创造性地将交通流在路网中的动态演化建模为有向图上的物理扩散过程,利用随机游走(Random Walk)算法计算扩散卷积算子,并将其深度嵌入到门控循环单元(GRU)的内部结构中 1。这种机制使得DCRNN能够极为有效地捕获传感器节点间的空间非对称性(例如上游拥堵对下游的影响远大于下游对上游的影响)和时间动态性,在METR-LA和PEMS-BAY等基准数据集上取得了显著的性能跃升 2。 +继DCRNN之后,Graph WaveNet模型进一步突破了GNN对预定义物理图结构(如真实道路距离)的刚性依赖。该模型引入了自适应邻接矩阵(Adaptive Adjacency Matrix)机制与空洞因果卷积(Dilated Causal Convolution)1。自适应邻接矩阵允许模型在训练过程中通过节点嵌入自动学习并挖掘数据中隐式的空间依赖关系,从而弥补了物理图在反映实际交通动力学时的偏差。同时,空洞因果卷积的引入使得模型能够以极少的层数呈指数级扩大时间维度的感受野。实证研究表明,在进行60分钟等较长周期的时序预测时,Graph WaveNet的长程特征捕捉能力远超传统的RNN基线模型 8。 +在此基础上,注意力机制(Attention Mechanism)逐渐渗透入图时空建模的各个环节。诸如ASTGCN(Attention Based Spatial-Temporal Graph Convolutional Networks)和STGAT(Spatial-Temporal Graph Attention Networks)等代表性模型,利用空间注意力和时间注意力机制,针对不同节点和不同时间步的特征进行动态的权重分配与特征聚合 2。然而,这些专有深度图模型尽管在特定城市的特定任务上将拟合精度推向了极致,但其架构高度依赖于特定数据集的大规模监督信号与平稳的分布假设。当面临跨城市迁移(Cross-city transfer)或零样本(Zero-shot)预测场景时,这类模型往往遭遇严重的灾难性失效,凸显了其泛化能力的系统性脆弱。 +2.1.3 复杂系统视域下的结构复杂性理论探讨 +经典模型在泛化性上面临的理论瓶颈,促使研究者重新回到统计学与生态学领域,对时空分布的内在规律进行更为本质的理论探讨,这些探讨常见于领域内优秀的博士学位论文中。时空数据的“结构复杂性”(Structural Complexity)本质上包含了空间异质性(Spatial Heterogeneity)、多尺度依赖以及时间非平稳性 9。 +在基于对数高斯考克斯过程(Log-Gaussian Cox Processes)等空间动力学模型的优秀学位论文分析中,信息在时空网络中的传递效率和结构复杂度,被证明直接受限于空间尺度参数(Scale Parameter)与强度场的协方差衰减速率 9。研究指出,利用香农熵(Shannon Entropy)和雷尼熵(Rényi Entropy)可以对时空点过程中的全局不均匀性进行严格的理论量化 9。传统GNN模型在处理这些高度复杂的结构时,往往因为网络深度的增加而不可避免地产生图过度平滑(Over-smoothing)现象,或者由于感受野的局部性而无法捕获全局的系统交互律 14。这一深层的理论瓶颈,结合现实场景中时空标记数据稀缺所导致的泛化性危机,表明单纯依靠叠加图卷积算子已触及能力天花板,从而为引入具备全局感受野、海量常识先验和零样本推理能力的大语言模型铺平了道路 10。 +2.2 大语言模型在时空数据领域的引入与前沿探索 +大语言模型展现出的海量世界知识储备、强大的上下文推理能力以及令人瞩目的零样本泛化性能,为打破传统时空数据科学的困境提供了颠覆性的发展路径。时空数据科学的整体工作流(包括传感感知、数据管理与知识挖掘)正经历一场从“面向特定任务的孤立小模型”向“通用时空基础模型(STFMs)”的范式转移 15。 +2.2.1 时空基础模型的发展脉络与系统管线 +最新前沿研究倾向于将时空基础模型的构建视为一个严密的、端到端的系统管线(Pipeline),这标志着领域研究从零散的模型拼接走向系统化的架构设计 16。该管线主要涵盖数据统一整合(Data Harmonization)、基础模型设计(Primitive Model Design)、训练目标设定(Training Objectives)以及迁移适配(Transfer Adaption)四个关键生命周期阶段 16。 +与早期仅仅将自然语言文本输入到时空编码器进行粗糙对齐的模型不同,现代STFMs致力于在更高维度的隐语义空间内统一时间(例如时间序列的时间戳模式)、空间(如地理坐标、轨迹流向网络)与文本(如城市知识图谱、突发事件记录)的异构表示。例如,前沿模型ST-LINK针对长周期预测中的特征坍缩问题,设计了专门的时空注意力机制(SE-Attention)和多尺度融合特征网络(MRFFN)。通过这种机制,模型将语言大模型的表征空间与时空动力学规律深度结合,显著增强了LLM在动态环境下的空间感知稳定性和长期预测鲁棒性 17。 +2.2.2 面向时空模态的LLM迁移适配工作群 +为了将预训练于海量一维离散自然语言语料的LLM成功且无损地应用于连续、异质、多维的时空领域,截至2026年的文献中涌现出四类主流的迁移适配(Transfer Adaption)工作群:提示工程、跨域对齐、监督微调与特征增强 16。这四类机制从不同维度解决了LLM适应物理世界的模态鸿沟问题。 + + +适配机制工作群 (Adaptation Cluster) + 核心原理与解决挑战 + 领域代表性工作及机制详述 + 提示工程 (Prompt Engineering) + 原理:利用硬提示(指令)或软提示(连续向量)激活或重编程LLM内在推理能力。 + + +挑战:解决目标域数据极度稀缺的问题,实现跨城市、零样本泛化。 + UniST:采用提示赋能框架实现城市级通用时空预测 16; + + +WeatherGFM:通过上下文学习(In-context Learning)微调气象气流特征实现全球天气预测泛化 16; + + +Time-LLM:利用文本原型对齐嵌入重编程大模型进行时序预测 16。 + 跨域对齐 (Cross-Domain Alignment) + 原理:将时间序列、传感器网络或视频流的潜在嵌入空间直接与LLM的预训练视觉/语言词表空间进行投影对齐。 + + +挑战:消除连续数值信号与离散语言符号间的语义壁垒。 + TimeCMA:基于多阶段跨模态对齐策略提升大语言模型的纯时间序列分析能力 16; + + +Path-LLM:通过对齐与融合机制学习多模态轨迹路径的拓扑特征 16; + + +UrbanCLIP:利用网络图像与文本对比学习构建文本增强的城市区域表征空间 16。 + 监督微调 (Supervised Fine-Tuning) + 原理:利用精心构建的特定领域指令跟随数据(Instruction-following data)对LLM的局部参数进行微调。 + + +挑战:将LLM通用的常识逻辑映射为特定时空环境下的决策动作或精准预报。 + Video-LLaMA:通过音频-视觉混合指令微调提升时间序列视频的理解深度 16; + + +LLMLight:将LLM微调为复杂的时空交通信号控制多智能体代理,实现基于环境反馈的实时路网调度 16。 + 特征增强 (Feature Enhancement) + 原理:在LLM的输入层或隐藏层强制注入外部结构化时空知识(如知识图谱、坐标位置信息)。 + + +挑战:修正LLM因缺乏物理空间约束而产生的“地理位置幻觉”或不符合常理的空间推演。 + UrbanGPT:将独立的时空依赖编码器作为特征外挂模块与指令微调深度融合,大幅提升零样本场景精度 19; + + +ST-LLM+:利用图增强算子将路网拓扑约束注入大模型,显著提升交通状态识别准确率 16。 + 以UrbanGPT为例,该模型深刻洞察到城市传感数据在实际应用中普遍面临的零样本稀缺困境,创新性地将用于提取时序依赖的时空编码器与指令微调(Instruction-tuning)范式深度融合 19。它没有把时间和空间仅仅作为检索时的独立过滤条件,而是让LLM理解两者在城市动力学中不可分割的依存关系,从而在多个跨域公共基准测试中以压倒性优势超越了传统的最先进基线模型 18。 +2.2.3 城市时空智能评估基准的代际演进 +评估一个大语言模型是否真正具备“时空智能”,单纯依赖如均方根误差(RMSE)或平均绝对误差(MAE)等最终预测结果指标已不再能反映其真实能力边界。截至2026年,时空评测体系正向“基于过程的诊断”(Process-based diagnostics)转变,重点考察模型在时空理解(Understanding)、预测(Forecasting)、规划(Planning)与反馈反思(Reflection)四个维度的深层因果推理能力 20。 +在这一代际演进中,代表性的评估基准工作群包括USTBench、STARK以及POI-QA: USTBench构建了一个高度交互式的城市仿真环境(UAgentEnv),摒弃了将任务压缩为多项选择题的粗糙做法。它通过细粒度的问答对(QA pairs)深度分解时空推理过程,例如严格测试LLM对物理空间距离(Distance)、区域邻接性(Adjacency)等几何关系的多级逻辑链条推理 20。STARK基准则走得更远,它结合了经典空间代数与时间逻辑框架,在多模态传感器输入下构建了26种复杂的时空推理挑战场景。其评测揭示了当前LLM即使在代码解释器(Code Interpreter)辅助下,在需要算法计算与物理世界知识耦合的Tier-3级别任务中依然表现吃力 22。 +此外,POI-QA数据集致力于揭露模型在日常空间寻路与兴趣点序列排列上的缺陷。该研究通过高精度清洗真实车辆轨迹数据与地理POI数据,构建了需要高度时空敏感性的双语问答任务。实证评估暴露出极具冲击力的现实:即便经过检索增强生成(RAG)和LoRA深度优化的先进百亿参数开源模型(如Qwen2.5-7B),在最基础的任务上其前十命中率(HR@10)仅为0.41,远远落后于普通人类的0.56基准 24。这深刻地表明,LLM在处理连续时空动态性时仍面临表征错位的根本性缺陷,为结构适配理论的发展指明了紧迫的方向。 +2.3 面向时空任务的大语言模型参数高效适配(PEFT)技术 +将动辄百亿甚至千亿参数体量的大语言模型直接应用于垂直领域的特定时空任务(如交通流量精细预测、气象云图解析或微观轨迹恢复),不仅面临显存与算力开销的灾难性瓶颈,还会引发严重的预训练知识灾难性遗忘(Catastrophic Forgetting)现象 27。参数高效微调(PEFT)技术通过冻结大模型主体网络,仅训练并更新极小比例(通常小于1%)的旁路或附加参数,实现了成本压缩与能力保留的完美平衡 27。面向复杂多变的时空数据,PEFT技术路线逐渐从简单的空域模块插桩,演化到基于谱论的频域提取,再进一步向稀疏张量分解与隐式神经架构搜索前沿迈进。 +2.3.1 空域PEFT与多任务自适应微调机制 +空域参数高效微调的早期实践多依赖于适配器网络(Adapter)和低秩自适应(Low-Rank Adaptation, LoRA)。在需要捕捉视频流等密集时空序列的任务中,诸如ST-Adapter(Spatio-Temporal Adapter)和AIM模型,通过在预训练视觉Transformer(ViT)的标准注意力块中插入高度定制化的轻量级适配层,实现了对时间序列和空间位移信号的同时捕捉 29。实验表明,这种保留全局预训练先验并在局部插桩微调的方法,其在下游时空分类或追踪任务上的性能甚至全面超越了暴力消耗资源的全参微调 29。 +为了进一步应对时空演化中复杂的动态关联性(例如视觉目标跟踪中背景信息、前景目标及边界模糊区域在时间轴上的剧烈表征变化),研究者提出了混合专家系统(MoE)与参数高效微调相结合的TMoE架构 31。代表性模型SPMTrack利用该机制将特征关系建模的感受野从传统的相邻单帧图像对,大幅拓展到跨越长序列的全局时空上下文中。这种机制不仅使可训练参数规模保持在极低水平,还确保了模型能根据不同尺度的运动状态动态激活相应的专家模块,保证了多尺度特征捕捉的极高灵活性 31。 +而在多任务学习(Multi-Task Learning, MTL)的时空场景下(如利用单一LLM同时处理降雨量预测、城市车流估计与空气污染推演),跨域知识在不同任务间的负迁移(Negative Transfer)是一大顽疾。为此,基于Fisher信息的稀疏表示微调网络被提出 32。这类方法通过在多任务教师-学生(Teacher-Student)反馈框架中引入Fisher惩罚项,促使模型在稀疏子空间中智能共享正相关特征,并隔离互相冲突的任务维度,从而为构建大一统的时空通用智能提供了可行的参数共享基础。 +2.3.2 频域驱动的参数演化工作群 +随着分析进入深水区,传统基于空域的PEFT(特别是典型的LoRA架构)逐渐显露出其数学表达能力上的系统性局限。简单的低秩分解矩阵难以捕捉预训练权重中高秩的细节关联,且由于在空域操作,很难有效分离参数中蕴含的基础结构与特定噪声。由此,利用正交变换进入频域空间进行参数更新的机制在2024至2026年间迅速崛起,成为PEFT领域最引人注目的前沿方向 34。 +大量实证研究与理论证明,大模型中具有高度通用性、任务无关的核心基础知识(被称为“Learngene”)呈现出高度集中的特性,它们主要编码在模型权重矩阵的低频分量(Low-frequency components)中 35。基于这一深刻洞察,频域微调工作群提出了一系列利用离散余弦变换(DCT)和傅里叶变换(DFT)重构微调范式的创新框架: +1. LoCA (Location-aware Cosine Adaptation): 针对低秩适配表达能力受限的问题,LoCA创造性地引入逆离散余弦变换(iDCT)。与在整个矩阵上盲目求解低秩近似不同,LoCA通过有限差分梯度逼近技术,在DCT生成的频域谱图上动态寻找并精细调整那些信息量最密集的特定频率位置。该研究在理论上证明了,相较于包含复数运算且实现复杂的逆离散傅里叶变换(iDFT),iDCT不仅有效降低了计算负荷,还能通过有选择的频段微调实现超越传统LoRA的最优表达精度 36。 +2. FRONT (FRequency dOmain kNowledge Transfer): 这一前沿框架进一步将频域理论推向极致。FRONT通过DCT算法精准剥离大模型的低频“Learngene”,允许下游模型通过极其简单的频率截断(Truncation)或零填充(Padding)操作,即可在任意参数规模的模型之间无缝继承知识。令人瞩目的是,这种基础的跨尺度微调过程完全是非训练式(Training-free)的。配合低开销的谱正则化器进行精细调整,FRONT不仅在语言任务上缩减了平均40.5%的训练浮点运算量(FLOPs),更有力规避了空域重构时常见的模型坍塌风险 35。 +在具体处理二维云图或三维时空体特征时,引入傅里叶或小波分析的频域视觉Transformer(FD-ViTs)同样展现了压倒性优势,它们能有效抑制多尺度时空信号融合过程中常见的频谱混叠(Spectral Aliasing)和高频细节(如微表情、瞬时极端天气)丢失问题 37。 +2.3.3 稀疏分解与预算感知的联合优化策略 +为了进一步突破LoRA固有低秩假设对优化灵活性的制约,基于鲁棒主成分分析(Robust Principal Component Analysis, RPCA)的稀疏张量分解微调路径为时空LLM适配提供了新的求解视角 40。 +传统的稀疏微调方法往往依赖工程师手动设计的启发式分配规则或硬性的剪枝阈值,这在面对高度非平稳的时空数据时极易发生过度剪枝。而以RoSA和CAP(Budget-aware PEFT)为代表的分解框架,通过在网络优化的前向反向传播过程中同步执行RPCA联合优化,自动将模型权重更新项解耦为两个部分:捕捉全局平缓演变规律的低秩成分(Low-rank component),以及负责捕捉极端突变方向的极度稀疏但幅值巨大的向量更新(Sparse high-magnitude updates)40。 +这种(低秩+稀疏)的双轨并行机制能够在一个严格设定的总参数预算(Budget-aware,例如限定仅可更新4000万或1.6亿参数)下自动寻优 40。在处理城市交通或气象监测等任务时,这种机制赋予了模型极强的物理抗干扰能力:时空数据中难以预测的突发性高频脉冲信号(如突发交通事故引发的局部拥堵激增、短时强降水)能够被稀疏高幅值模块精准接管,而全局性、周期性的常态化时空变化趋势则由低秩模块平滑拟合。这一理论机制不仅摆脱了手工分配的脆弱性,还在多项基准评测中显著提升了模型抵御环境噪声侵蚀的鲁棒性 41。 +2.3.4 基于大语言模型反思的隐式神经架构搜索(NAS) +参数高效适配的最前沿探索已经跨越了单纯对给定网络权重矩阵进行数学变换的范畴,延伸到了利用人工智能对网络计算子结构自身进行自动化改造的神经架构搜索(Neural Architecture Search, NAS)领域 43。然而,传统的NAS方法受制于组合爆炸,搜索特定时空网络算子往往需要消耗成百上千张GPU的巨大算力,这阻碍了其与大规模LLM微调的融合。 +近年来,闭环隐式搜索机制(Closed-loop pipeline)通过直接利用大语言模型本身的强大代码生成(Code Generation)能力与自动诊断反思能力,开创了低成本架构优化的新纪元 45。例如,前沿工作LLM-NAS框架构建了一个马尔可夫链式(Markov chains)的历史反馈记忆系统(Historical Feedback Memory)。在该系统中,LLM化身为架构设计师(Agent),在每一轮微调结构尝试失败后,会生成严格的诊断三元组(Diagnostic Triple:识别结构错误、提出修改建议、记录反馈结果)45。 +通过引入抽象语法树(AST)驱动的变异引擎,LLM能够预先过滤掉那些语法错误、维度不匹配或根本无法训练的无效架构修改,极大缓解了冷启动(Cold-start)难题 46。在此优化过程中,时空预测所必需的复杂空间多头注意力、因果空洞卷积等算子组合规则,以及边缘计算设备严格的显存与计算约束,被自动内化为LLM架构搜索的隐式先验知识(Implicit prior)。这种机制使得在单一消费级GPU上(如RTX 4090),经过几千次迭代便能高效设计出专属于特定时空任务的高效微调网络架构,确立了硬件感知的低预算时空PEFT新范式 45。 +2.4 时空大模型的内在表示机制与结构动力学 +尽管一系列参数高效微调技术有效降低了时空大模型落地的工程门槛,但LLM内部极其复杂的隐空间表示(Latent Space Representations)究竟如何随着微调演化,以及大语言模型原始基于语言符号的特征分布在面对连续多维的时空流形数据时会产生怎样的几何扭曲,成为决定模型理论能力上限的最核心科学问题。 +2.4.1 LLM表示的各向异性分布与功能性解码 +在模型内在表征的探讨中,各向异性(Anisotropy)是基于Transformer架构自回归大语言模型中广泛存在的一种核心内部表示现象。海量的探针文献压倒性地证明,LLM隐藏层的激活值表征分布呈现出极其显著的各向异性——即表征空间中存在极少数的“异常维度”(Outlier Dimensions),这些极少部分维度占据了整体特征矩阵中压倒性的方差比例和极端的激活幅值,而其余绝大部分维度则处于低方差的冗余状态 48。 +在早期的自然语言处理理论中,研究者普遍认为这种现象源自词汇频率的极度不平衡(长尾分布),以及交叉熵损失函数中Softmax操作引起的固有几何漂移。因此,长期以来的主流做法是将这些高方差异常视为亟待消除的“表示退化”伪影,通过各种正则化手段试图强制模型的表征空间走向各向同性(Isotropy),以期在余弦相似度上符合人类直觉 51。 +然而,针对特定大规模复杂推理任务的最新前沿理论彻底推翻了这一经验主义直觉。研究者提出了一种精确且具有小批量计算稳定性(Mini-batch computation stability)的可微各向同性度量新标准——IsoScore,并基于此开发了I-STAR正则化技术 49。颠覆性实验结论指出:在大多数深刻依赖上下文语境的表征任务中,主动降低表征的各向同性(即允许模型保持甚至增强各向异性),反而能够系统性地提升模型的下游任务性能表现 49。 +在时空大模型的特定语境下,这一理论发现具有深远的启发意义。各向异性维度不再被视为需要被修剪和抑制的噪声,而是作为“内在可解释的功能单元”(Intrinsic Interpretable Functional Units)而客观存在 48。例如,在对高度复杂的城市交通轨迹网络或气象时间序列进行建模时,时空数据本身就具有极强的偏态分布。那些被模型隐式学习到的高方差异常维度,很可能正是用于精确承载并表征特定时空突变极端事件(如节假日核心商圈人流的脉冲式激增、台风路径的突发偏折)的关键几何方向信号。这种对各向异性的全新功能性解码,为评估时空适配层的特征保留度提供了全新的数学标尺。 +2.4.2 多维旋转位置编码(RoPE)的局限与突破 +时空大语言模型的另一个致命结构瓶颈在于空间与时间的位置感知注入机制。目前标准的大语言模型几乎全面采用旋转位置编码(Rotary Positional Embedding, RoPE)。该编码机制通过将绝对位置坐标巧妙映射为复平面上的旋转角度,诱导模型在自注意力打分时能够内在地响应相对距离偏移,从而在处理一维长文本序列时表现出极强的长度外推(Extrapolation)能力和泛化鲁棒性 54。 +然而,当RoPE试图直接向多维数据(如多模态图像生成、2D网格交通地图甚至3D视频时空流)进行数学扩展时,遭遇了极其根本的结构性阻碍 54。 首先,传统的多维RoPE设计机械地将整体特征维度沿不同空间轴(例如横向X轴与纵向Y轴、或空间维度与时间维度)进行均匀切割,并强制复用同一套频率谱段。这种设计隐含了一个极其脆弱的物理假设:即各个坐标轴方向上的时空动力学衰减速率和信号复杂度是相似且可比的。这在非平稳的异质时空域中是完全失效的。 其次,标准构造在数学上强制实行严格的逐轴独立(Axis-wise independence),在相关矩阵中表现为分块对角结构(Block-diagonal structures)。这种正交隔离切断了多维时空中不可或缺的跨维交互耦合(例如沿物理对角线方向发生的流体扩散、或者空间形态随时间演化的时空旋涡现象)54。 +为了彻底打破这一基础架构僵局,2025年以来的前沿研究提出了诸如HARoPE(Head-wise Adaptive Rotary Positional Encoding)等开创性的多维位置编码重构方法。HARoPE通过在不同的大模型注意力头(Attention Heads)上实现自适应的频率分量动态指派,打破了各维度之间的僵硬正交限制。它允许不同注意力头依据其感受野的特性,自主捕捉多尺度、各向异性且深度耦合的时空动力学特征 54。这对于亟需精准处理异构时序依赖与非线性空间几何变形的时空基础模型而言,无疑是一次深入算子架构底层的关键性理论突破 57。 +2.4.3 跨越尺度的谱分析与特征演化轨迹 +为了从更宏观的全局理论层面剖析时空LLM在训练过程中的黑盒学习机制,前沿研究创造性地引入了大规模谱图理论与非线性流形动力学分析 39。 +在针对数十亿乃至上百亿参数规模模型(如OLMo、Pythia)自回归训练全过程的监测中,研究通过精确测量流形表示的有效秩(RankMe)与特征谱衰减系数(Eigenspectrum decay, $\alpha_{\text{ReQ}}$),揭示了模型表示流形随训练深入,必然经历三个非单调的几何相变阶段 58: +1. 预热坍缩期(Warmup phase):在初期,由于海量参数的初始寻优,模型的表示空间发生迅速的维度坍缩。 +2. 寻熵扩张期(Entropy-seeking phase):伴随着对大规模时空序列n-gram级记忆的形成,流形的有效维度产生爆炸式显著扩张,特征谱变得异常丰富,尝试拟合一切可能的局部模式。 +3. 寻压固化期(Compression-seeking phase):在这一决定模型泛化能力的终极阶段,流形发生了选择性的各向异性合并。模型仅沿着几个主导的、与核心任务最相关的特征维度保留高方差信号,同时猛烈收缩并抛弃其他无用的高维噪声信息。这一阶段的完成标志着时空特征向本质物理动力学规律的彻底提纯 58。 +在这一理论框架指导下,针对含有大量高频噪声和微小周期性波动的特殊时空数据(如睡眠状态下的微表情时间序列、包含局部涡流的微小尺度气象云图连续帧),研究者通过在微调架构中融合轻量级多尺度时序卷积网络与小波变换分析(Wavelet Analysis),展现了极强的局部特征解构力 39。小波分析由于能够同时在不同时间尺度和频带上提取局部震荡特征,完美弥补了传统傅里叶变换在深层卷积映射时容易发生的相位信息丢失问题。这种频域与空域双路解析的先进理论手段,正逐步与大语言模型的多模态对齐接口实现深度结合,正在构筑下一代具备极致抗噪能力与物理可解释性的时空谱表征大一统架构 39。 +2.5 本章小结 +本章作为全文理论框架的重要基石,系统且全面地梳理了时空数据挖掘领域从经典统计深度学习模型直至时空大语言模型(STFMs)宏大叙事的发展脉络,并在此基础之上,深度剖析了面向LLM的参数高效适配技术演进路线及模型表征的内部动力学机理。 +首先,本章回顾了包括ST-ResNet、DCRNN与Graph WaveNet等在内的早期经典方法。这些探索无可辩驳地证实了准确捕获时空数据非欧几里得拓扑结构依赖的绝对必要性;然而,其极强的特定任务绑定特性以及对大规模带标注数据的严重饥渴,从复杂系统生态异质性理论的角度暴露了传统架构的泛化能力深渊。随着以UrbanGPT、UniST及Time-LLM为代表的大语言模型被强势引入该领域,前沿研究通过提示工程赋能、跨域嵌入对齐以及深度监督微调等丰富的工作群,初步打破了自然语言的离散符号逻辑与时空连续数值信号之间的表征壁垒。同时,以USTBench、POI-QA为代表的基准测试集演进,宣告了该领域评估重心正经历从唯终端预测精度论向全过程因果逻辑时空推理能力的根本性跨越。 +面对千亿参数微调所引发的算力海啸与灾难性遗忘危机,本章细致解构了参数高效微调(PEFT)技术跨越式的代际演进。从依靠插桩或路由机制的空域自适应(如MoE多专家机制与Fisher稀疏跨任务共享),发展至基于DCT和RPCA算法的频域特征提取与稀疏-低秩联合张量分解。这些前沿策略有效抽离出大模型底层的低频常识“Learngene”,并在极其严苛的存储算力预算下,实现了抗突变干扰的时空信号精确更新。更为前瞻性的是,结合大语言模型自身代码反思闭环机制的隐式神经架构搜索(NAS),正以惊人的低成本打破时空微调网络手工设计的经验瓶颈。 +最后,本章从大模型表征演化的最底层拓扑逻辑出发,对表示分布的各向异性特征及其物理对应进行了颠覆性的理论再发现。前沿研究确证,在时空连续域适配中放任甚至刻意利用适度的各向异性(Outlier Dimensions),并结合打破传统正交封锁、具备多头自适应耦合能力的多维旋转位置编码(如HARoPE),辅以涵盖小波与傅里叶机制的深层流形谱动力学分析,能够最大程度地释放巨量模型在非平稳多尺度时空场景下的因果发现潜能。 +综上所述,经典网络对时空拓扑先验的深刻洞察与大语言模型前沿参数高效适配理论的有机交融互鉴,为理解时空模型表征本质提供了全景式的理论视野。这不仅廓清了当前领域面临的核心计算瓶颈与认知盲区,更为本论文后续提出并建立泛化、健壮的“统一结构适配理论”提供了无比坚实且不可或缺的学术支撑体系。 +引用的著作 +1. Deep Multi-View Channel-Wise Spatio-Temporal Network for Traffic Flow Prediction - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2404.15034v1 +2. 6G conditioned spatiotemporal graph neural networks for real time traffic flow prediction, 访问时间为 三月 16, 2026, https://pmc.ncbi.nlm.nih.gov/articles/PMC12855894/ +3. Spatiotemporal Graph Convolutional Network for Multi-Scale Traffic Forecasting - MDPI, 访问时间为 三月 16, 2026, https://www.mdpi.com/2220-9964/11/2/102 +4. (PDF) Spatio-Temporal Graph Neural Networks: A Survey - ResearchGate, 访问时间为 三月 16, 2026, https://www.researchgate.net/publication/367432032_Spatio-Temporal_Graph_Neural_Networks_A_Survey +5. NeurIPS Poster Terra: A Multimodal Spatio-Temporal Dataset Spanning the Earth, 访问时间为 三月 16, 2026, https://neurips.cc/virtual/2024/poster/97768 +6. An Overview of Spatiotemporal Network Forecasting: Current Research Status and Methodological Evolution - MDPI, 访问时间为 三月 16, 2026, https://www.mdpi.com/2227-7390/14/1/18 +7. Reinforced Spatio-Temporal Attentive Graph Neural Networks for Traffic Forecasting - IEEE Xplore, 访问时间为 三月 16, 2026, https://ieeexplore.ieee.org/ielaam/6488907/9138535/9003261-aam.pdf +8. Full article: Advances in spatiotemporal graph neural network prediction research - Taylor & Francis, 访问时间为 三月 16, 2026, https://www.tandfonline.com/doi/full/10.1080/17538947.2023.2220610 +9. Analysis and Modeling of Spatio-Temporal Point Processes. Information Theory-Based Approaches and Risk Assessment - DIGIBUG Principal, 访问时间为 三月 16, 2026, https://digibug.ugr.es/bitstream/handle/10481/108888/75183.pdf?sequence=4&isAllowed=y +10. Spatiotemporal Data Analysis: A Review of Techniques, Applications, and Emerging Challenges - ResearchGate, 访问时间为 三月 16, 2026, https://www.researchgate.net/publication/380646944_Spatiotemporal_Data_Analysis_A_Review_of_Techniques_Applications_and_Emerging_Challenges +11. Measuring habitat complexity and spatial heterogeneity in ecology - PMC - NIH, 访问时间为 三月 16, 2026, https://pmc.ncbi.nlm.nih.gov/articles/PMC9804605/ +12. Balancing structural complexity with ecological insight in Spatio‐temporal species distribution models - Kent Academic Repository, 访问时间为 三月 16, 2026, https://kar.kent.ac.uk/99523 +13. Structural Complexity and Informational Transfer in Spatial Log-Gaussian Cox Processes, 访问时间为 三月 16, 2026, https://pmc.ncbi.nlm.nih.gov/articles/PMC8469185/ +14. Managing spatio-temporal heterogeneity of susceptibles by embedding it into an homogeneous model: A mechanistic and deep learning study - PMC, 访问时间为 三月 16, 2026, https://pmc.ncbi.nlm.nih.gov/articles/PMC11476686/ +15. [2503.13502] Foundation Models for Spatio-Temporal Data Science: A Tutorial and Survey - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/abs/2503.13502 +16. LMissher/Awesome-Spatio-Temporal-Foundation-Models - GitHub, 访问时间为 三月 16, 2026, https://github.com/LMissher/Awesome-Spatio-Temporal-Foundation-Models +17. ST-LINK: Spatially-Aware Large Language Models for Spatio-Temporal Forecasting, 访问时间为 三月 16, 2026, https://arxiv.org/html/2509.13753v1 +18. UrbanGPT: Spatio-Temporal Large Language Models | Request PDF - ResearchGate, 访问时间为 三月 16, 2026, https://www.researchgate.net/publication/383420824_UrbanGPT_Spatio-Temporal_Large_Language_Models +19. [2403.00813] UrbanGPT: Spatio-Temporal Large Language Models - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/abs/2403.00813 +20. USTBench: Benchmarking and Dissecting Spatiotemporal Reasoning Capabilities of LLMs as Urban Agents | OpenReview, 访问时间为 三月 16, 2026, https://openreview.net/forum?id=ETzBStUFJy +21. USTBench: Benchmarking and Dissecting Spatiotemporal Reasoning of LLMs as Urban Agents - arXiv.org, 访问时间为 三月 16, 2026, https://arxiv.org/html/2505.17572v1 +22. Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2505.11618v1 +23. Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges - OpenReview, 访问时间为 三月 16, 2026, https://openreview.net/pdf?id=zRhO4hizR8 +24. STBench: Assessing the Ability of Large Language Models in Spatio-Temporal Analysis, 访问时间为 三月 16, 2026, https://www.semanticscholar.org/paper/STBench%3A-Assessing-the-Ability-of-Large-Language-in-Li-Yao/2c788ee25ea8387c6f2bbb5bb8e7a78a3a296a44 +25. A Dataset for Spatiotemporal-Sensitive POI Question Answering - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2505.10928v1 +26. [2505.10928] A Dataset for Spatiotemporal-Sensitive POI Question Answering - arXiv.org, 访问时间为 三月 16, 2026, https://arxiv.org/abs/2505.10928 +27. Parameter-Efficient Continual Fine-Tuning: A Survey - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2504.13822v2 +28. Revisiting Fine-Tuning: A Survey of Parameter-Efficient Techniques for Large AI Models, 访问时间为 三月 16, 2026, https://www.preprints.org/manuscript/202504.0743 +29. Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2403.14608v1 +30. Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey - OpenReview, 访问时间为 三月 16, 2026, https://openreview.net/pdf?id=lIsCS8b6zj +31. SPMTrack: Spatio-Temporal Parameter-Efficient Fine-Tuning with Mixture of Experts for Scalable Visual Tracking - CVF, 访问时间为 三月 16, 2026, https://openaccess.thecvf.com/content/CVPR2025/papers/Cai_SPMTrack_Spatio-Temporal_Parameter-Efficient_Fine-Tuning_with_Mixture_of_Experts_for_Scalable_CVPR_2025_paper.pdf +32. Large Language Models for Structured Task Decomposition in Reinforcement Learning Problems with Sparse Rewards - MDPI, 访问时间为 三月 16, 2026, https://www.mdpi.com/2504-4990/7/4/126 +33. Learning Multi-Task Sparse Representation Based on Fisher Information | Proceedings of the AAAI Conference on Artificial Intelligence, 访问时间为 三月 16, 2026, https://ojs.aaai.org/index.php/AAAI/article/view/29632 +34. Parameter-Efficient Fine-Tuning via Selective Discrete Cosine Transform - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2410.09103v1 +35. One-for-All Model Initialization with Frequency-Domain Knowledge - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2603.07523v1 +36. LoCA: Location-Aware Cosine Adaptation for Parameter-Efficient Fine-Tuning | OpenReview, 访问时间为 三月 16, 2026, https://openreview.net/forum?id=4NRjdISWby +37. Mach. Learn. Knowl. Extr., Volume 8, Issue 2 (February 2026) – 28 articles - MDPI, 访问时间为 三月 16, 2026, https://www.mdpi.com/2504-4990/8/2 +38. Frequency-Domain Vision Transformers: Architectures, Applications, and Open Challenges, 访问时间为 三月 16, 2026, https://www.mdpi.com/2076-3417/16/4/2024 +39. A Comprehensive Review of Deepfake Detection Techniques: From Traditional Machine Learning to Advanced Deep Learning Architectures - MDPI, 访问时间为 三月 16, 2026, https://www.mdpi.com/2673-2688/7/2/68 +40. RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2401.04679v7 +41. Large Language Model Compression with Global Rank and Sparsity Optimization, 访问时间为 三月 16, 2026, https://arxiv.org/html/2505.03801v3 +42. LARGE LANGUAGE MODEL COMPRESSION WITH GLOBAL RANK AND SPARSITY OPTIMIZATION - OpenReview, 访问时间为 三月 16, 2026, https://openreview.net/pdf/677d153759a416afe2811de0c2edecd3101560a2.pdf +43. Neural Architecture Search for Parameter-Efficient Fine-tuning of Large Pre-trained Language Models - ACL Anthology, 访问时间为 三月 16, 2026, https://aclanthology.org/2023.findings-acl.539/ +44. Neural Architecture Search for Parameter-Efficient Fine-tuning of Large Pre-trained Language Models - ACL Anthology, 访问时间为 三月 16, 2026, https://aclanthology.org/2023.findings-acl.539.pdf +45. [2603.12091] Resource-Efficient Iterative LLM-Based NAS with Feedback Memory - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/abs/2603.12091 +46. Closed-Loop LLM Discovery of Non-Standard Channel Priors in Vision Models - arXiv.org, 访问时间为 三月 16, 2026, https://arxiv.org/html/2601.08517v1 +47. Resource-Efficient Iterative LLM-Based NAS with Feedback Memory - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2603.12091 +48. [2603.00029] Embracing Anisotropy: Turning Massive Activations into Interpretable Control Knobs for Large Language Models - arXiv.org, 访问时间为 三月 16, 2026, https://arxiv.org/abs/2603.00029 +49. Stable Anisotropic Regularization - OpenReview, 访问时间为 三月 16, 2026, https://openreview.net/forum?id=dbQH9AOVd5 +50. Stable Anisotropic Regularization - arXiv.org, 访问时间为 三月 16, 2026, https://arxiv.org/html/2305.19358v3 +51. Anisotropy Is Inherent to Self-Attention in Transformers - ACL Anthology, 访问时间为 三月 16, 2026, https://aclanthology.org/2024.eacl-long.3.pdf +52. Augmenting LLMs Lenses - Deep Kondah, 访问时间为 三月 16, 2026, https://www.deep-kondah.com/handling-large-context-in-llms/ +53. ICLR Poster Stable Anisotropic Regularization, 访问时间为 三月 16, 2026, https://iclr.cc/virtual/2024/poster/18254 +54. Head-wise Adaptive Rotary Positional Encoding for Fine-Grained Image Generation, 访问时间为 三月 16, 2026, https://arxiv.org/html/2510.10489v2 +55. Head-wise Adaptive Rotary Positional Encoding for Fine-Grained Image Generation - arXiv, 访问时间为 三月 16, 2026, https://arxiv.org/html/2510.10489v1 +56. What is next for LLMs? Pushing the boundaries of next-gen AI computing hardware with photonic chips - PMC, 访问时间为 三月 16, 2026, https://pmc.ncbi.nlm.nih.gov/articles/PMC12592636/ +57. How much do contextualized representations encode long-range context? - ACL Anthology, 访问时间为 三月 16, 2026, https://aclanthology.org/2025.findings-naacl.90.pdf +58. Tracing the Representation Geometry of Language Models from Pretraining to Post-training - arXiv.org, 访问时间为 三月 16, 2026, https://arxiv.org/html/2509.23024v1 +59. Real-time sleep disorder monitoring design using dynamic temporal graphs with facial and acoustic feature fusion - PMC, 访问时间为 三月 16, 2026, https://pmc.ncbi.nlm.nih.gov/articles/PMC12644054/ +60. Unmasking Synthetic Realities in Generative AI: A Comprehensive Review of Adversarially Robust Deepfake Detection Systems - arXiv.org, 访问时间为 三月 16, 2026, https://arxiv.org/html/2507.21157v1 +61. WaveAR: Wavelet-Aware Continuous Autoregressive Diffusion for Accurate Human Motion Prediction | OpenReview, 访问时间为 三月 16, 2026, https://openreview.net/forum?id=kW2u5szHb6 \ No newline at end of file diff --git a/deepresearch/gpt-deep-research-report (1).md b/deepresearch/gpt-deep-research-report (1).md new file mode 100644 index 0000000..929926b --- /dev/null +++ b/deepresearch/gpt-deep-research-report (1).md @@ -0,0 +1,639 @@ +# 第二章:时空表征学习基础与统一分析框架——写作脉络细化与参考文献池(2.1–2.4) + +## 执行摘要 + +第二章的目标不是“方法堆叠”,而是用**可被学科评阅者理解与认可的知识谱系**,把你的博士论文主线自然收束到一个“统一分析框架”:城市/地理时空数据天然具有**多源异构、结构依赖、多尺度动态与多任务目标共存**等特性,导致在基础模型/大语言模型(LLM)时代,传统“均匀适配(uniform adaptation)”往往难以同时兼顾多任务协同、位置结构一致性、跨尺度模式与跨源泛化,因此需要以**结构角色信息**为条件,对模型内部不同层级对象施加**非均匀、结构感知的表示调制**。这一叙事可以以城市计算权威综述作为学科起点,并与近两年兴起的城市/地图/遥感等LLM评测与基准化趋势相衔接,从而为后续章节(模块级、维度级、频谱级、参数级)逐级实例化提供“理论导轨”。citeturn0search0turn0search4turn0search3turn7search3 + +在具体写作上,建议第二章采用“三段式收束”: +第一段(2.1)给出**时空数据类型—任务谱系—传统统计建模根基—深度表征学习演进**;第二段(2.2)以Transformer为核心解释基础模型表征机制,并明确你的**统一符号体系**与“直觉先行、公式随后”的形式化策略;第三段(2.3–2.4)总结**适配方法库(PEFT/多任务/频谱/结构搜索)**与**评测基础设施(数据集、仿真、自动化benchmark)**的现状与缺口,形成“方法—数据—系统”闭环动机。citeturn1search1turn1search2turn1search3turn1search0turn6search3turn0search3 + +## 统一分析框架与写作总体策略 + +本章应在概念层面完成两件事: +一是把“时空结构异质性”拆解为**可分层、可映射、可导向方法设计**的分析框架;二是给出一个足够轻量、但能贯穿全文的形式化母式,使第三至第六章可以被读者自然理解为“对同一母式在不同结构层级上的实例化”。城市计算综述对“异构数据—知识融合—城市任务多样性”的系统总结,为你建立问题空间提供权威起点。citeturn0search0turn0search4 + +建议在第二章中部(2.2末或2.3开头前)给出“结构角色感知调制”的母式(不做复杂证明,只给直觉解释): +\[ +\tilde{\mathbf{Z}}=\mathcal{M}_{\theta}\left(\mathbf{Z};\mathbf{X},\mathcal{R}\right) +\] +其中\(\mathbf{Z}\)是被调制对象(注意力输出表示、Q/K子空间、参数更新频谱、参数拓扑等),\(\mathbf{X}\)为输入上下文,\(\mathcal{R}\)为结构角色信息(模块/维度/频谱/参数结构),\(\mathcal{M}_{\theta}\)表示结构感知的非均匀变换算子。该形式化的“必要性直觉”应来自:时空任务的结构依赖与多尺度动态使模型内部贡献呈现非均匀性;而在Transformer体系中,位置编码与自注意力机制进一步强化了这种非均匀与各向异性,因此“均匀更新”并非合理默认。citeturn10search0turn10search1turn10search7turn10search3 + +```mermaid +flowchart LR + A[时空数据的结构异质性] --> B1[模块级:多任务功能/知识路由] + A --> B2[维度级:位置结构依赖与各向异性] + A --> B3[频谱级:多尺度动态与更新频率结构] + A --> B4[参数级:多源差异与容量分配/共享-特有结构] + + C[结构角色信息 R]:::k + B1 --> C + B2 --> C + B3 --> C + B4 --> C + + D[被调制对象 Z] --> E[结构感知调制算子 M_θ(Z; X, R)] + C --> E + F[输入上下文 X] --> E + + E --> G[统一适配机制:非均匀/结构条件化变换] + G --> H[第三章:模块级实例化(HyCAM)] + G --> I[第四章:维度级实例化(RoSA/DyPAM)] + G --> J[第五章:频谱+参数实例化(CASCADE/MESSA)] + G --> K[第六章:基准与系统闭环(AgentCity/POI-QA)] + + classDef k fill:#eef,stroke:#99f,stroke-width:1px; +``` + +**写作建议句式/段落要点(可直接入正文)** +- “城市时空任务的关键难点并不在于‘数据量大’,而在于其结构性:空间依赖、时间动态、尺度效应与多源异构共同作用,使得模型需要在多层级结构上实现自适应对齐与容量分配。”citeturn0search4turn0search1 +- “因此,本论文将大模型适配理解为‘结构角色条件化的表示调制问题’,并在模块、维度、频谱与参数结构四个层级给出统一实例化路径。”(本句为论文观点,可不引文) + +**盲审风险点与修改建议** +- 风险:母式公式“突然出现”、显得为了统一而统一。 + 建议:严格遵循“直觉先行→概念抽象→轻量公式”的顺序,并在引出公式前用1–2段把“均匀适配不足”的证据链讲清楚(可引用Transformer位置编码与各向异性分析工作作为背景)。citeturn10search7turn10search0turn10search1 +- 风险:第二章写成LLM科普。 + 建议:每一小节都要回扣“时空结构需求驱动”,不要以“为了改进LLM”为叙事主轴。citeturn0search4 + +## 2.1 时空数据建模与表征学习研究(2.1.1–2.1.4) + +**2.1.1 时空数据建模问题类型与应用场景** + +核心问题 +如何建立“任务谱系”,并把任务谱系与“结构异质性”(多任务/位置依赖/多尺度/多源差异)对应起来? + +写作要点 +建议用城市计算权威综述作为总论:数据类型(轨迹、传感器、地理要素、社交与事件等)、关键方法论(异构数据融合、知识融合)、典型应用(交通、环境、能源、公共安全、城市规划等)。该综述可作为第二章开篇“学科根基”的主引文。citeturn0search0turn0search4 +并在段末加入“LLM时代的新任务形态”:地图推理、POI/轨迹问答、GIS工作流、城市智能体仿真评测等,为2.4铺垫。citeturn6search1turn6search3turn0search3turn7search3 + +建议引用点 +- 城市计算的任务与数据总体框架。citeturn0search4 +- “地图推理/工具调用/城市基准化评测”作为新趋势(MapEval、CityBench、OpenCity)。citeturn6search1turn0search3turn7search3 + +代表性工作(本节建议优先精读,完整信息) +1) entity["people","Yu Zheng","urban computing"] 等(2014). *Urban Computing: Concepts, Methodologies, and Applications*. ACM TIST. DOI:10.1145/2629592(ACM DOI页/微软PDF均可作为官方入口)。citeturn0search0turn0search4 +2) entity["people","Jie Feng","urban benchmark"] 等(2024). *CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks*. arXiv:2406.13945(含开源仓库信息)。citeturn0search3turn0search19 +3) entity["people","Mahir Labib Dihan","geospatial benchmark"] 等(2024). *MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models*. arXiv:2501.00316。citeturn6search1turn6search5 +4) entity["people","Noel Cressie","spatiotemporal statistics"] , entity["people","Christopher K. Wikle","spatiotemporal statistics"](2011). *Statistics for Spatio-Temporal Data*. Wiley. ISBN:9780471692744。citeturn0search1 + +扩展文献列表(本节补充,题目/作者/年/来源即可) +- Goodchild, M. F.(2007). Citizens as sensors: the world of volunteered geography. *GeoJournal*. DOI:未检索到。 +- Miller, H. J.(2005). A measurement theory for time geography. *Geographical Analysis*. DOI:未检索到。 +- Shekhar, S. 等(2015/2011). *Spatial and Spatiotemporal Data Mining*(教材/综述章节). DOI/ISBN:未检索到。 +- 王劲峰 等(空间统计/空间分析方向综述与教材条目,中文). DOI:未检索到(建议后续以期刊官网/出版社条目补齐)。 +- 2024《中国空间数据智能战略发展白皮书》(中文报告). 链接/DOI:未检索到(建议在参考文献中保留发布机构与获取日期)。 + +写作建议句式/段落要点 +- “城市计算从一开始就是‘多源异构数据驱动的复杂系统建模’,其难点在于将离散观测转化为可用于理解与决策的结构化知识。”citeturn0search4 +- “从预测到推理再到交互式决策的任务形态演进,使得评测对象从静态指标扩展为任务可完成性与结构一致性。”citeturn0search3turn6search1 + +盲审风险点与修改建议 +- 风险:只列应用场景,缺少“结构化归因”。 + 建议:在2.1.1末尾用一段显式映射:多任务→功能异质性;位置/几何→结构依赖;周期+突发→多尺度动态;跨源→分布差异,为2.1.4做铺垫。citeturn0search4 + +**2.1.2 传统时空建模方法** + +核心问题 +如何用统计学与地理空间数据科学的经典脉络,奠定“结构异质性”讨论的学理基础? + +写作要点 +建议以“空间自相关/空间异质性”“时空随机过程与层次模型”“空间点过程/地统计”三条主线组织,强调传统方法的优势:可解释性、可不确定性表达、对空间依赖的显式建模。Cressie & Wikle教材是“时空统计+层次动态模型”权威入口。citeturn0search1 +同时,用地理学第一定律、局部空间自相关(LISA)与Getis-Ord统计量作为“空间依赖与热点”经典引用点。citeturn9search1turn9search0turn9search3 + +建议引用点 +- Tobler位置依赖的经典表述(第一定律常以该文作为引用入口)。citeturn9search1turn9search9 +- LISA与Getis-Ord热点统计。citeturn9search0turn9search3 +- 时空统计教材对DSTM/层次模型的系统阐释。citeturn0search1 + +代表性工作(完整信息) +1) Cressie, N. & Wikle, C. K.(2011). *Statistics for Spatio-Temporal Data*. Wiley. ISBN:9780471692744。citeturn0search1 +2) entity["people","Waldo R. Tobler","geography"](1970). *A Computer Movie Simulating Urban Growth in the Detroit Region*. *Economic Geography*. DOI:10.2307/143141。citeturn9search1turn9search21 +3) entity["people","Luc Anselin","spatial econometrics"](1995). *Local Indicators of Spatial Association—LISA*. *Geographical Analysis*. DOI:10.1111/j.1538-4632.1995.tb00338.x。citeturn9search0turn9search8 + +扩展文献列表 +- Moran, P. A. P.(1950). Notes on Continuous Stochastic Phenomena(Moran’s I源头). DOI:未检索到。 +- Getis, A. & Ord, J. K.(1992). The Analysis of Spatial Association by Use of Distance Statistics. *Geographical Analysis*. DOI:10.1111/j.1538-4632.1992.tb00261.x。citeturn9search3turn9search7 +- Cressie, N.(1993). *Statistics for Spatial Data*(Revised Ed.). Wiley. ISBN:9780471843368(ISBN来源可从出版社页补齐,DOI:未检索到)。citeturn9search22turn9search6 +- Kalman, R. E.(1960). A New Approach to Linear Filtering and Prediction Problems. *ASME Journal of Basic Engineering*. DOI:未检索到。 +- Diggle, P. J. 等(若干版). *Model-based Geostatistics* 与空间点过程教材/综述(地统计与点过程经典入口)。DOI:未检索到。 + +写作建议句式/段落要点 +- “传统时空统计通过显式刻画空间相关与时间动态,为复杂时空过程提供了可解释的建模语言;其思想可被视为后续深度表征学习‘结构归纳偏置’的理论先导。”citeturn0search1turn9search0 + +盲审风险点与修改建议 +- 风险:把传统方法写成“落后/不可用”。 + 建议:强调其优势(推断、不确定性、解释性),再指出在多源异构与大规模场景下的计算与表达瓶颈,形成“需求驱动”的自然过渡。citeturn0search1 + +**2.1.3 深度学习驱动的时空表征学习方法** + +核心问题 +深度时空建模如何从“模型堆叠”升级为“结构归纳偏置”的系统演进?如何形成交通预测等领域的经典基准脉络? + +写作要点 +建议按三条结构载体写: +- 栅格/场:时空卷积与ConvLSTM等序列-空间耦合; +- 图结构:STGNN成为交通预测主流范式,形成DCRNN、Graph WaveNet等经典基线; +- 长序列:时序Transformer(Informer/Autoformer等)解决长预测步长与效率问题。citeturn3search3turn3search2turn1search2turn1search3 +交通预测GNN综述(Jiang)可作为本节“堆量与脉络化”的核心总引文之一(同时给出数据集清单与方法谱系)。citeturn0search10turn0search2 + +建议引用点 +- DCRNN对“路网扩散过程+时序依赖”的经典建模思路。citeturn3search3turn3search15 +- Graph WaveNet对“自适应邻接+长序列卷积”的经典范式。citeturn3search2turn3search6 +- Informer/Autoformer对长序列预测的关键痛点总结。citeturn1search2turn1search3 + +代表性工作(完整信息) +1) entity["people","Xingjian Shi","convlstm"] 等(2015). *Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting*. arXiv:1506.04214(链接:未检索到;建议后续补arXiv页)。 +2) entity["people","Yaguang Li","traffic forecasting"] 等(2017). *Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting*. arXiv:1707.01926。citeturn3search3turn3search15 +3) entity["people","Zonghan Wu","stgnn"] 等(2019). *Graph WaveNet for Deep Spatial-Temporal Graph Modeling*. arXiv:1906.00121。citeturn3search2turn3search6 +4) entity["people","Wenjie Jiang","stgnn survey"](2022). *Graph neural network for traffic forecasting: A survey*. *Expert Systems with Applications*. DOI:10.1016/j.eswa.2022.117921。citeturn0search10turn0search6 +5) entity["people","Haoyi Zhou","time series forecasting"] 等(2020/2021). *Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting*. arXiv:2012.07436(AAAI版本PDF亦可引用)。citeturn1search2turn1search6 + +扩展文献列表 +- Yu, B. 等(2018). STGCN: Spatio-Temporal Graph Convolutional Networks. IJCAI. DOI:未检索到。 +- Li, Z. 等(2018). Diffusion Convolutional Recurrent Neural Network(会议版OpenReview PDF)。citeturn3search15 +- Zhang, J. 等(2017). ST-ResNet(城市人群流量预测). AAAI. DOI:未检索到。 +- Wu, H. 等(2021). Autoformer. arXiv:2106.13008。citeturn1search3turn1search15 +- Zheng, C. 等(2024/2025). 生成式时空数据挖掘综述(Generative Techniques Survey). arXiv:2405.09592。citeturn0search?(本次未固定到该条目页;可在后续补检索) + +写作建议句式/段落要点 +- “深度时空表征学习的演进可被理解为对结构载体的逐步显式化:从局部时空卷积到图结构传播,再到长上下文建模,方法差异背后共同指向对时空依赖、尺度与异质性的不同归纳偏置实现。”citeturn3search3turn3search2turn1search2 + +盲审风险点与修改建议 +- 风险:把STGNN与时序Transformer写成两条孤立脉络。 + 建议:用“结构载体不同、结构目标一致”的总结句收束(都在解决空间依赖×时间动态×尺度变化)。citeturn1search2turn3search2 + +**2.1.4 时空建模中的结构复杂性问题** + +核心问题 +如何把“复杂性”写成可操作的四类异质性,并导向你的模块/维度/频谱/参数四级框架? + +写作要点 +建议用“四类异质性→建模后果→适配需求”三句式: +- 多任务功能异质性→负迁移/容量竞争→路由与专门化; +- 位置结构依赖→几何/拓扑一致性→各向异性位置/维度调制; +- 多尺度动态→趋势/周期/突发共存→频谱分解与多尺度更新; +- 多源差异→跨域泛化困难→容量分配与共享-特有结构发现。 +中文综述可用于“国内学科脉络”支撑:测绘学报的多模态时空大数据可视分析综述与地球信息科学学报的自然资源时空大数据挖掘进展,分别从可视分析与资源领域给出结构复杂性证据。citeturn5search4turn5search0 + +建议引用点 +- 多模态、多粒度与复杂关联的系统性描述。citeturn5search4 +- 自然资源时空大数据的要素分布、过程演化与关联知识挖掘难点。citeturn5search0 +- 作为“现实约束”补充:时空数据挖掘中的联邦学习综述(隐私与分布式带来的跨源差异强化)。citeturn0search?(本次未固定到联邦学习综述条目页;可后续补检索) + +代表性工作(完整信息) +1) (中文)entity["people","Zhu Qing","cartography"] 等(2017). *多模态时空大数据可视分析方法综述*. 《测绘学报》. DOI:未检索到(可在期刊官网补齐)。citeturn5search4 +2) (中文)自然资源时空大数据挖掘与知识服务研究进展(2025). 《地球信息科学学报》. DOI:10.12082/dqxxkx.2025.240625。citeturn5search0 + +扩展文献列表 +- (中文)entity["people","Deng Min","geospatial big data"] 等(2020). 多模态地理大数据时空分析方法. 《地球信息科学学报》. DOI:10.12082/dqxxkx.2020.190491。citeturn5search11 +- Zhang, Q. 等(2024). A Survey of Generative Techniques for Spatial-Temporal Data Mining. arXiv:2405.09592(建议补检索)。 +- (中文)地球信息科学学报专题“地理大数据与空间智能”(多篇可扩展引用入口)。citeturn5search6turn5search13 +- (中文)遥感数据智能:进展与思考(2025). 《地球信息科学学报》(可从过刊目录补齐条目与DOI)。citeturn5search13 + +写作建议句式/段落要点 +- “结构复杂性意味着模型内部并非各部分对任务同等重要:不同模块、不同维度与不同频率分量承载的功能贡献存在系统性差异,因此适配机制需要结构条件化与非均匀化。”citeturn10search7turn5search4 + +盲审风险点与修改建议 +- 风险:异质性分类“像口号”。 + 建议:每一类至少给出一个“可观察后果”(例如负迁移、长程依赖失败、跨域性能塌陷),并指向后续章节的方法解决策略。citeturn0search10turn6search0turn6search1 + +## 2.2 基础模型与大语言模型表征机制研究(2.2.1–2.2.4) + +**2.2.1 Transformer 表示学习机制(含符号规范)** + +核心问题 +如何用最少数学解释Transformer,并为后续“结构角色感知调制”留下接口? + +写作要点 +建议以Transformer原始论文为唯一“机制级主引文”,避免二手科普引用。citeturn1search1turn1search5 +随后突出与时空任务强相关的三点: +- 注意力与前馈的“功能分工”与可路由性(为模块级角色铺垫); +- 位置编码决定长序列外推与相对位置建模能力(为位置结构依赖铺垫); +- 表示各向异性可能内生于自注意力机制(为维度级角色铺垫)。citeturn10search0turn10search1turn10search3 + +建议引用点 +- Transformer原始论文。citeturn1search1 +- RoPE与ALiBi作为两类位置机制代表。citeturn10search0turn10search1 +- 各向异性分析作为“均匀更新不足”的机制侧证据。citeturn10search3turn10search11 + +代表性工作(完整信息) +1) entity["people","Ashish Vaswani","transformer"] 等(2017). *Attention Is All You Need*. NeurIPS. arXiv:1706.03762。citeturn1search1turn1search9 +2) entity["people","Jianlin Su","rope"] 等(2021). *RoFormer: Enhanced Transformer with Rotary Position Embedding*. arXiv:2104.09864。citeturn10search0turn10search4 +3) entity["people","Ofir Press","alibi"] 等(2021). *Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation (ALiBi)*. arXiv:2108.12409。citeturn10search1turn10search5 +4) entity["people","Nathan Godey","representation anisotropy"] 等(2024). *Anisotropy Is Inherent to Self-Attention in Transformers*. EACL 2024. arXiv:2401.12143。citeturn10search3turn10search7 + +扩展文献列表 +- Bahdanau, D. 等(2015). Neural Machine Translation by Jointly Learning to Align and Translate(注意力源头之一). arXiv:1409.0473。 +- Kaplan, J. 等(2020). Scaling Laws for Neural Language Models. arXiv:2001.08361。 +- RoPE/ALiBi之外的长上下文位置机制综述与实证(2023–2025多篇,按需补)。 +- Transformer解释性与注意力头分析(选2–3篇即可,避免泛滥)。 + +**符号与概念(建议直接写入2.2.1末尾,并在论文前置“符号表”固化)** +- 输入时空样本:\(\mathbf{X}=(x_1,\ldots,x_T)\) +- 第\(\ell\)层隐藏表示:\(\mathbf{H}^{(\ell)}\in\mathbb{R}^{T\times d}\) +- 注意力:\(\mathbf{Q}^{(\ell)},\mathbf{K}^{(\ell)},\mathbf{V}^{(\ell)}\),多头:\(\mathbf{Q}^{(\ell,h)}\) +- 索引统一:层\(\ell\)、头\(h\)、维度\(i\)、token\(t\)、任务\(\tau\) +- 全文禁用混乱符号复用(例如用\(k\)表示层、用\(i\)表示token等),避免“论文合集感”。 + +写作建议句式/段落要点 +- “Transformer的可迁移性源于其以注意力为核心的通用表征骨干,但时空任务所需的相对位置、长程依赖与结构一致性,使得位置机制与结构化适配策略成为关键。”citeturn1search1turn10search0turn10search1 + +盲审风险点与修改建议 +- 风险:2.2.1写成“Transformer教科书”。 + 建议:所有机制描述都要落回时空需求(位置/尺度/多任务),并为后续章节埋接口(模块/维度/频谱/参数)。citeturn0search4 + +**2.2.2 预训练基础模型与表示迁移学习** + +核心问题 +预训练迁移为何有效?在时空任务上为何又经常“迁移不足”? + +写作要点 +用BERT作为预训练迁移的经典锚点即可,再转向时间序列基础模型的系统综述,说明“Foundation model”思想已从文本扩展到时序域,但结构输入差异与评测目标差异会带来迁移挑战。citeturn10search2turn1search2turn6search3 + +建议引用点 +- BERT:预训练—微调范式的经典权威入口。citeturn10search2turn10search6 +- 时间序列基础模型/综述:说明“时序域也在发生foundation化”。citeturn6search?(本次未固定到TS综述条目页;可后续补检索) + +代表性工作(完整信息) +1) entity["people","Jacob Devlin","bert"] 等(2018). *BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding*. arXiv:1810.04805。citeturn10search2turn10search6 +2) entity["people","Abdul Fatir Ansari","chronos"] 等(2024). *Chronos: Learning the Language of Time Series*. arXiv:2403.07815(本次未固定到条目页;建议后续补检索)。 + +扩展文献列表 +- (时间序列基础模型综述)Foundation Models for Time Series Analysis. arXiv:2403.14735(建议补检索)。 +- Ye, J. 等(2024). Survey of Time Series Foundation Models. arXiv:2405.02358(建议补检索)。 +- TimesFM(Google Research开源仓库:google-research/timesfm;官方页可作为工程入口)。 +- Moirai/lag-llama等开源时序基础模型(按综述批量列举)。 + +写作建议句式/段落要点 +- “预训练迁移的核心假设是跨任务可共享的中间表征;时空任务的结构性输入与多尺度动态使‘共享表征’需要结构化对齐,而非仅依赖均匀微调。”(观点句,可不引文) + +盲审风险点与修改建议 +- 风险:把“时间序列基础模型”与“LLM”混用概念。 + 建议:统一称“基础模型(foundation models)”,必要时区分“语言基础模型”“时序基础模型”“多模态基础模型”。 + +**2.2.3 大语言模型在复杂任务建模中的潜力** + +核心问题 +如何把“潜力”写成可评测的能力维度,而不是愿景? + +写作要点 +建议拆成三类可评测能力: +(1) 地理知识可提取性;(2) 推理一致性(几何/拓扑/时空约束);(3) 工具/工作流可执行性。GeoFM观点文章可用来把“Geo foundation models”放回GIScience语境;GeoAnalystBench可作为“工作流与代码生成”评测载体。citeturn6search16turn6search3 + +建议引用点 +- GeoFM观点:基础模型将如何重塑空间分析(期刊观点文易被盲审接受)。citeturn6search16 +- GeoAnalystBench:把GIS工作流“最小可交付产物”与代码质量纳入评测。citeturn6search3turn6search11 + +代表性工作(完整信息) +1) entity["people","Krzysztof Janowicz","geofm"](2025). *GeoFM: how will geo-foundation models reshape spatial analysis?* *International Journal of Geographical Information Science*. DOI:10.1080/13658816.2025.2543038。citeturn6search16 + +扩展文献列表 +- Manvi, R. 等(2023/2024). GeoLLM: Extracting Geospatial Knowledge from LLMs. arXiv:2310.06213(建议补检索)。 +- GIS/GeoAI工具调用与智能体评测(2024–2026持续增长,建议优先选择“可复现benchmark论文”而非应用demo)。 + +写作建议句式/段落要点 +- “LLM在时空任务中的价值应被分解为可评测的能力维度:知识、推理与可执行工作流;其中‘可执行性’是从生成式输出走向工程可用的关键门槛。”citeturn6search3 + +盲审风险点与修改建议 +- 风险:用过多“热门模型名”替代学术论证。 + 建议:用benchmark论文承载结论,模型只在实验对比中出现。 + +**2.2.4 大模型在时空智能领域的初步探索** + +核心问题 +2024–2026年哪些工作可视为“时空/GeoAI×LLM”的标志性进展(特别是评测与基准)? + +写作要点 +建议按任务形态分类综述: +- 城市任务基准:CityBench;城市智能体仿真平台:OpenCity。citeturn0search3turn7search3 +- 地图推理benchmark:MapEval(文本/API/视觉三形态),MapVerse(2026,真实地图大规模人类标注)。citeturn6search1turn6search2 +- 遥感与地球观测VLM基准:GEOBench‑VLM。citeturn7search0turn7search4 +- GIS工作流评测:GeoAnalystBench。citeturn6search3 + +建议引用点 +- “评测范式从静态数据集走向交互式模拟/工具链”。citeturn0search3turn7search3turn6search3 + +代表性工作(完整信息) +1) Feng, J. 等(2024). *CityBench*. arXiv:2406.13945。citeturn0search3turn0search19 +2) entity["people","Yuwei Yan","urban simulation"] 等(2024). *OpenCity: A Scalable Platform to Simulate Urban Activities with Massive LLM Agents*. arXiv:2410.21286。citeturn7search3turn7search7 +3) Dihan, M. L. 等(2024). *MapEval*. arXiv:2501.00316。citeturn6search1turn6search5 + +扩展文献列表 +- Han, X. 等(2025). POI‑QA. arXiv:2505.10928。citeturn6search0turn6search12 +- Danish, M. S. 等(2024/2025). GEOBench‑VLM. arXiv:2411.19325;ICCV 2025论文PDF。citeturn7search0turn7search4 +- Bhat, S. 等(2026). MapVerse. arXiv:2602.10518。citeturn6search2turn6search6 +- Truong, T. H. 等(2026). GPSBench. arXiv:2602.16105。citeturn7search2turn7search10 +- Xu, Z. 等(2026). EarthSpatialBench. arXiv:2602.15918。citeturn7search1turn7search9 +- Zhang, Q. 等(2025). GeoAnalystBench. arXiv:2509.05881。citeturn6search3turn6search11 + +写作建议句式/段落要点 +- “2024年以来,一批面向城市/地图/遥感/工作流的评测基准出现,标志着GeoAI进入‘以benchmark驱动方法迭代’的新阶段,并为结构化适配研究提供了可复现试验场。”citeturn0search3turn6search1turn7search0turn6search3 + +盲审风险点与修改建议 +- 风险:只列新基准,但不指出“它们测不到什么”。 + 建议:每列一个基准,都补一句其局限性与对你论文方法的启发(如MapEval偏MCQ、OpenCity强调系统缩放等)。citeturn6search1turn7search3 + +## 2.3 参数高效适配与结构建模方法研究(2.3.1–2.3.5) + +**2.3.1 参数高效微调方法(PEFT)** + +核心问题 +如何把PEFT写成“适配范式入口”,并明确其在结构异质性时空任务上的不足? + +写作要点 +以PEFT总综述作为taxonomy入口,强调“冻结主干+训练小增量”的共同思想,并指出多数PEFT默认均匀作用于层/维度,结构利用不足。citeturn1search0turn2search0 +再给出三个强基线:Adapters、LoRA、QLoRA,并补“软提示/Prompt tuning”。citeturn2search2turn2search0turn2search1turn2search3 + +建议引用点 +- PEFT指南综述(覆盖50+论文,适合第二章堆量)。citeturn1search0turn1search12 +- LoRA与QLoRA作为最常用基线(时空任务对比更容易统一)。citeturn2search0turn2search1 + +代表性工作(完整信息) +1) entity["people","Vladislav Lialin","peft survey"] 等(2023/2024). *Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning*. arXiv:2303.15647(v2更新至2024-11)。citeturn1search0turn1search12 +2) entity["people","Neil Houlsby","adapters"] 等(2019). *Parameter-Efficient Transfer Learning for NLP (Adapters)*. arXiv:1902.00751;PMLR论文PDF可作为官方入口。citeturn2search2turn2search6 +3) Hu, E. J. 等(2021). *LoRA: Low-Rank Adaptation of Large Language Models*. arXiv:2106.09685(官方实现:entity["company","Microsoft","software company"] / GitHub microsoft/LoRA)。citeturn2search0turn2search4 +4) Dettmers, T. 等(2023). *QLoRA: Efficient Finetuning of Quantized LLMs*. arXiv:2305.14314。citeturn2search1turn2search5 + +扩展文献列表 +- Lester, B. 等(2021). Prompt Tuning. arXiv:2104.08691;ACL Anthology页可作入口。citeturn2search3turn2search7 +- Li, X. & Liang, P.(2021). Prefix-Tuning(arXiv:2101.00190,建议补检索)。 +- IA³(2022). Infused Adapter by Inhibiting and Amplifying Inner Activations(arXiv:2205.05638,建议补检索)。 +- BitFit(2021). Fine-Tuning by Bias-Only updates(arXiv:2106.10199,建议补检索)。 +- PEFT工程实践与库:HuggingFace PEFT(官方页与仓库,URL不在正文给出;可在参考文献中以“官方项目页”列出)。 + +写作建议句式/段落要点 +- “PEFT将‘适配’从全参数优化转为小增量学习,为多任务与多场景部署提供现实可行性;但其典型形式仍隐含‘结构均匀性’假设,这与城市时空任务的结构角色异质性存在张力。”citeturn1search0turn2search0 + +盲审风险点与修改建议 +- 风险:PEFT内容过长抢走论文主线。 + 建议:PEFT只承担“基线与范式入口”角色,写完立刻回扣你的“结构感知非均匀调制”。citeturn1search0 + +**2.3.2 多任务学习与知识路由机制** + +核心问题 +多任务学习为何困难?路由/专家化为何是结构异质性下的自然选择? + +写作要点 +建议从Caruana经典多任务学习引出“共享表征”的归纳偏置,再说明多任务优化存在梯度冲突(PCGrad),最后引出MoE/Switch作为模块级路由与容量扩展路线。citeturn11search2turn11search3turn11search0turn11search1 + +建议引用点 +- 多任务学习经典理论框架(Caruana)。citeturn11search2turn11search6 +- 梯度冲突与缓解(PCGrad)。citeturn11search3turn11search7 +- MoE与Switch Transformer作为“动态路由”代表。citeturn11search0turn11search1 + +代表性工作(完整信息) +1) entity["people","Rich Caruana","multitask learning"](1997). *Multitask Learning*. *Machine Learning*. DOI:10.1023/A:1007379606734。citeturn11search2turn11search6 +2) entity["people","Noam Shazeer","mixture of experts"] 等(2017). *Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer*. arXiv:1701.06538。citeturn11search0turn11search4 + +扩展文献列表 +- Fedus, W. 等(2021/2022). Switch Transformers. arXiv:2101.03961;JMLR论文PDF也可引用。citeturn11search1turn11search5 +- Yu, T. 等(2020). PCGrad. arXiv:2001.06782;NeurIPS论文PDF也可引用。citeturn11search3turn11search7 +- PLE(2020). Progressive Layered Extraction for Multi-Task Learning(工业界多任务结构代表,DOI:未检索到)。 +- GradNorm / MGDA 等多任务优化方法(按需列举即可)。 + +写作建议句式/段落要点 +- “多任务学习的难点不在于‘任务多’,而在于任务梯度在共享参数上产生结构性干扰;因此‘共享-特有结构’与‘动态路由’可被视为对多任务结构异质性的直接建模回应。”citeturn11search3turn11search0 + +盲审风险点与修改建议 +- 风险:多任务内容写成NLP多任务史。 + 建议:每段结尾回扣城市多目标现实(交通—环境—能源等),并引用城市计算综述作为背景。citeturn0search4 + +**2.3.3 表示各向异性与结构感知学习** + +核心问题 +如何用“表征性质”而非“经验技巧”论证维度级非均匀适配的必要性? + +写作要点 +建议将2.2.1的机制侧证据(各向异性内生于自注意力)作为本节主支撑,然后补一个“时空/地理推理基准”作为行为侧证据:例如GPSBench指出LLM在坐标几何计算与世界知识结合上存在显著差异。citeturn10search7turn7search2 + +建议引用点 +- 各向异性分析。citeturn10search3turn10search11 +- GPSBench对坐标推理能力拆分(几何计算 vs 世界知识)。citeturn7search2turn7search6 + +代表性工作(完整信息) +1) Truong, T. H. 等(2026). *GPSBench: Do Large Language Models Understand GPS Coordinates?* arXiv:2602.16105。citeturn7search2turn7search10 + +扩展文献列表 +- Xu, Z. 等(2026). EarthSpatialBench. arXiv:2602.15918。citeturn7search1turn7search9 +- MapEval(地图推理对结构一致性的压力测试)。citeturn6search1turn6search5 +- 表征退化/各向异性相关的NLP与多模态分析论文(选2–3篇即可)。 + +写作建议句式/段落要点 +- “当任务需要以坐标、距离、方向与拓扑关系为核心的结构推理时,模型表征的各向异性与功能分化会直接影响可迁移性;这为维度级结构感知适配提供了机制与评测双重动机。”citeturn10search7turn7search2 + +盲审风险点与修改建议 +- 风险:只谈各向异性,不谈其对时空任务的具体后果。 + 建议:用GPSBench/MapEval类基准点出失败模式(几何计算弱、图像地图理解难等),再引出你的维度级方法。citeturn7search2turn6search1 + +**2.3.4 多尺度学习与频谱/小波建模方法** + +核心问题 +如何把“多尺度动态”提升为可复用的方法语言:分解、频域稀疏性、小波/傅里叶结构? + +写作要点 +以Informer与Autoformer作为时序Transformer的两种典型路径(效率注意力 vs 分解+自相关结构),再以FEDformer作为“频域稀疏表示+专家机制”的代表,把频谱建模与结构化模块结合起来。citeturn1search2turn1search3turn3search0turn3search4 +为对齐你的“频谱级适配”,可引用FEDformer中关于傅里叶/小波块作为注意力替代的设计动机(不必复述数学)。citeturn3search4turn3search12 + +建议引用点 +- Informer的长序列效率痛点。citeturn1search2turn1search6 +- Autoformer的分解式结构与自相关机制。citeturn1search3turn1search15 +- FEDformer将傅里叶/小波映射引入Transformer结构。citeturn3search0turn3search4turn3search12 + +代表性工作(完整信息) +1) Zhou, H. 等(2020/2021). *Informer*. arXiv:2012.07436。citeturn1search2turn1search6 +2) entity["people","Haixu Wu","autoformer"] 等(2021). *Autoformer*. arXiv:2106.13008(NeurIPS 2021)。citeturn1search3turn1search15 +3) entity["people","Tian Zhou","fedformer"] 等(2022). *FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting*. arXiv:2201.12740;ICML 2022 PMLR论文PDF。citeturn3search0turn3search4 + +扩展文献列表 +- Lee-Thorp, J. 等(2021/2022). FNet: Fourier token mixing. arXiv:2105.03824;NAACL 2022页。citeturn3search1turn3search5 +- 小波STGNN实例:W‑DSTAGNN(2024). arXiv:2407.04440。citeturn5search?(本次未固定到该条目页;可后续补检索) +- Daubechies, I.(1992). *Ten Lectures on Wavelets*. SIAM. ISBN:未检索到。 +- Mallat, S.(1999/2008). *A Wavelet Tour of Signal Processing*. Academic Press. ISBN:未检索到。 + +写作建议句式/段落要点 +- “频谱视角为时空多尺度模式提供了统一刻画方式:低频对应全局趋势与周期结构,高频对应局部扰动与事件驱动变化;因此频域/小波结构在时空表征与参数更新建模中具有天然适配性。”citeturn3search4turn3search12 + +盲审风险点与修改建议 +- 风险:写成信号处理教材。 + 建议:只写“为什么对时空有用、在深度模型中如何落地、对适配/更新结构有什么启发”,避免推导。citeturn3search12 + +**2.3.5 模型结构优化与容量分配方法(NAS/剪枝/压缩)** + +核心问题 +为何“结构可学习与容量可分配”是多任务与跨域适配的关键工具箱? + +写作要点 +用NAS(DARTS)说明结构搜索的代表性路线,再用LLM压缩综述作为“剪枝/量化/蒸馏”统一入口,并指出剪枝在LLM与适配场景中已形成成熟方法谱系(如Wanda)。citeturn4search0turn4search3turn4search15 + +建议引用点 +- DARTS:可微NAS的经典入口。citeturn4search0turn4search4 +- LLM压缩综述:强调剪枝/量化/蒸馏的系统性。citeturn4search3turn4search7 +- Wanda:无需重训的LLM剪枝代表。citeturn4search15 + +代表性工作(完整信息) +1) entity["people","Hanxiao Liu","darts"] 等(2018/2019). *DARTS: Differentiable Architecture Search*. arXiv:1806.09055(ICLR 2019论文PDF亦可引用)。citeturn4search0turn4search4 +2) Zhu, X. 等(2023). *A Survey on Model Compression for Large Language Models*. arXiv:2308.07633。citeturn4search3turn4search7 + +扩展文献列表 +- Pham, H. 等(2018). ENAS. arXiv:1802.03268。citeturn4search1turn4search5 +- Frankle, J. & Carbin, M.(2018). Lottery Ticket Hypothesis. arXiv:1803.03635。citeturn4search2turn4search6 +- Sun, M. 等(2023). Wanda pruning. arXiv:2306.11695。citeturn4search15 +- Efficient LLMs Survey(2024,TMLR;GitHub资源库AIoT-MLSys-Lab/Efficient-LLMs-Survey)。citeturn4search19 + +写作建议句式/段落要点 +- “当适配面临多任务容量竞争与部署预算约束时,‘结构学习’成为必要:不仅要决定更新多少参数,更要决定哪些结构应共享、哪些结构应特化,以及如何在结构层级上实现可控稀疏。”citeturn4search3turn4search0 + +盲审风险点与修改建议 +- 风险:NAS/剪枝写成与时空无关的通用内容。 + 建议:每段结尾加一句“在时空多任务/跨源场景中对应什么结构矛盾”,并与2.1.4的四类异质性回扣。citeturn0search4turn4search3 + +## 2.4 时空智能数据集与评测基础设施研究(2.4.1–2.4.4) + +image_group{"layout":"carousel","aspect_ratio":"16:9","query":["CityBench urban tasks benchmark","OpenCity LLM agents urban simulation platform","MapEval benchmark map-based geospatial reasoning","GEOBench-VLM geospatial vision-language benchmark"],"num_per_query":1} + +**2.4.1 时空预测与分析数据集** + +核心问题 +传统时空研究为何以预测基准为主?其对LLM适配研究的覆盖缺口在哪里? + +写作要点 +建议以交通预测为代表:公开数据集(METR-LA、PEMS-BAY等)推动STGNN形成统一协议;综述论文往往汇总数据集、指标与代码资源,适合在第二章用作“文献树干”。citeturn0search10turn0search6 +并明确指出:预测评测偏回归误差,难以覆盖LLM关注的推理一致性、工具可执行性与交互式决策能力,为2.4.2–2.4.4铺垫。citeturn6search3turn6search1 + +建议引用点 +- 交通预测GNN综述(含数据集清单)。citeturn0search10turn0search6 + +代表性工作(完整信息) +1) Jiang, W.(2022). *Graph neural network for traffic forecasting: A survey*. *Expert Systems with Applications*. DOI:10.1016/j.eswa.2022.117921。citeturn0search10turn0search6 + +扩展文献列表 +- DCRNN/Graph WaveNet等经典基线论文(见2.1.3)。citeturn3search3turn3search2 +- 遥感时序与变化检测数据集族:SpaceNet、xView、BigEarthNet(DOI/官网:未检索到;建议后续补齐)。 +- 城市流量/出行数据集:Taxi、Bike、移动信令等(多为竞赛/平台发布,建议只引用权威可复现来源)。 + +写作建议句式/段落要点 +- “预测类基准易标准化、易规模化、易对比,因此长期主导时空智能评测;但其任务形态不足以评价LLM在结构推理、工具调用与交互式决策中的能力边界。”citeturn0search10turn6search3 + +盲审风险点与修改建议 +- 风险:批评传统基准“价值不大”。 + 建议:先肯定其贡献(统一协议与可比性),再指出对LLM研究的覆盖缺口。 + +**2.4.2 面向推理与决策的时空任务数据(POI/地图/坐标/遥感推理)** + +核心问题 +如何分类推理型基准,并解释它们与“结构感知适配”的关系? + +写作要点 +建议按推理要素分类: +- POI/轨迹/时空约束推理(POI‑QA);citeturn6search0turn6search12 +- 地图推理(MapEval)与真实地图大规模问答(MapVerse 2026);citeturn6search1turn6search2 +- 坐标与测地推理(GPSBench 2026);citeturn7search2turn7search10 +- 遥感/地球观测推理(GEOBench‑VLM、EarthSpatialBench)。citeturn7search0turn7search1 + +建议引用点 +- POI‑QA强调“时空敏感问答缺口”。citeturn6search0turn6search4 +- MapEval强调三类交互形态(文本/API/视觉)。citeturn6search1turn6search5 +- GPSBench拆分几何计算与世界知识。citeturn7search2turn7search6 + +代表性工作(完整信息) +1) Han, X. 等(2025). *A Dataset for Spatiotemporal-Sensitive POI Question Answering (POI-QA)*. arXiv:2505.10928;数据集发布在Kaggle(hahahenha/poi-qa)。citeturn6search0turn6search12 +2) Dihan, M. L. 等(2024). *MapEval*. arXiv:2501.00316。citeturn6search1turn6search5 + +扩展文献列表 +- Bhat, S. 等(2026). *MapVerse*. arXiv:2602.10518。citeturn6search2turn6search6 +- Danish, M. S. 等(2024/2025). *GEOBench‑VLM*. arXiv:2411.19325;ICCV 2025。citeturn7search0turn7search4 +- Xu, Z. 等(2026). *EarthSpatialBench*. arXiv:2602.15918。citeturn7search1turn7search9 +- Truong, T. H. 等(2026). *GPSBench*. arXiv:2602.16105。citeturn7search2turn7search10 + +写作建议句式/段落要点 +- “推理型地理基准的共同特点是:输入隐含几何/拓扑/时序约束,输出要求结构一致与可解释,因此更能暴露模型‘看似会说、但不一定会算/会判别’的问题。”citeturn7search2turn6search1 + +盲审风险点与修改建议 +- 风险:只列基准,不写评测维度。 + 建议:在2.4章中给出一个“能力维度清单”(方向/距离/拓扑/路径/变化检测/工作流执行等),并在每个基准后标注覆盖维度。 + +**2.4.3 城市仿真环境与智能体平台** + +核心问题 +为何需要“环境+任务生成+持续评测”的基础设施?经典仿真平台与LLM城市智能体平台如何衔接? + +写作要点 +先引用SUMO作为交通仿真的长期基础设施,再引用CityFlow作为面向城市级交通信号控制/多智能体RL的高性能仿真环境;再引入OpenCity作为“城市活动LLM agents可扩展仿真平台”的新范式,从而为你第六章AgentCity的定位提供对标。citeturn8search0turn8search1turn7search3 + +建议引用点 +- SUMO(开源交通仿真)经典文档。citeturn8search0turn8search4 +- CityFlow提出相对SUMO的可扩展性改进,并用于RL接口。citeturn8search1turn8search5 +- OpenCity强调系统与提示优化以实现大规模agents仿真。citeturn7search3turn7search7 + +代表性工作(完整信息) +1) entity["people","Daniel Krajzewicz","traffic simulation"] 等(2002). *SUMO (Simulation of Urban MObility): An open-source traffic simulation*. 技术报告/会议论文PDF(DLR/官方文档入口)。链接:见官方PDF;DOI:未检索到。citeturn8search0turn8search4 +2) Zhang, H. 等(2019). *CityFlow: A Multi-Agent Reinforcement Learning Environment for Large Scale City Traffic Scenario*. arXiv:1905.05217(官方仓库:cityflow-project/CityFlow)。citeturn8search1turn8search9 + +扩展文献列表 +- Dosovitskiy, A. 等(2017). *CARLA: An Open Urban Driving Simulator*. arXiv:1711.03938;PMLR页可作官方入口。citeturn8search2turn8search18 +- Horni, A. 等(2016). *Introducing MATSim*. DOI:10.5334/baw.1(条目可从相关页面补齐;本次以ResearchGate入口证实该DOI)。citeturn8search15 +- OpenCity(见2.2.4)作为新型城市活动仿真平台。citeturn7search3 + +写作建议句式/段落要点 +- “对面向推理与决策的时空智能而言,评测对象从‘一次预测误差’转为‘在交互式环境中完成任务的能力’,因此需要将数据、工具接口与仿真环境整合为可复现的benchmark基础设施。”citeturn0search3turn7search3turn8search1 + +盲审风险点与修改建议 +- 风险:平台写成工程堆砌。 + 建议:强调“评测协议、任务生成、持续评估与可复现性”是科学贡献核心,并与CityBench/OpenCity对齐比较。citeturn0search3turn7search3 + +**2.4.4 现有评测体系的局限性** + +核心问题 +现有基准为何不足以支撑“LLM适配研究”?应提出哪些面向结构感知适配的评测需求? + +写作要点 +建议归纳为四类缺口,并逐条给bench证据: +- 任务形态缺口(静态预测多、推理/交互少):CityBench与MapEval出现即是填补。citeturn0search3turn6search1 +- 工具链缺口:GeoAnalystBench将GIS工作流与代码质量纳入评测。citeturn6search3turn6search11 +- 空间一致性缺口:GPSBench/EarthSpatialBench揭示几何与拓扑推理不足。citeturn7search2turn7search1 +- 多模态遥感缺口:GEOBench‑VLM强调变化检测、计数与微小目标等地学挑战。citeturn7search0turn7search8 + +建议引用点 +- GeoAnalystBench的“最小可交付产物(MDP)+多维度评分”。citeturn6search3turn6search11 + +代表性工作(完整信息) +1) entity["people","Qianheng Zhang","geoai benchmark"] 等(2025). *GeoAnalystBench: A GeoAI benchmark for assessing large language models for spatial analysis workflow and code generation*. arXiv:2509.05881。citeturn6search3turn6search11 + +扩展文献列表 +- CityBench(城市多任务与仿真评测)。citeturn0search3turn0search19 +- MapEval/MapVerse(地图推理评测谱系)。citeturn6search1turn6search2 +- GPSBench/EarthSpatialBench/GEOBench‑VLM(空间/遥感推理评测)。citeturn7search2turn7search1turn7search0 + +写作建议句式/段落要点 +- “LLM适配研究的关键不在于‘能否生成答案’,而在于‘能否稳定遵守时空结构约束并产出可执行工作流’;因此评测应同时覆盖结构一致性、工具可执行性与跨源泛化能力。”citeturn6search3turn7search2 + +盲审风险点与修改建议 +- 风险:需求清单显得主观。 + 建议:每条需求都用公开benchmark作为证据锚点,避免“凭感觉提出”。citeturn6search3turn6search1turn0search3 + +## 附录 + +### 附录A 方法对比表(按“调制对象—结构层级”视角,仅附录呈现) + +| 方法类别 | 代表方法 | 调制对象(Z) | 对应结构层级(与你的四级框架对齐) | 优点 | 局限 | 典型评测/数据集 | +|---|---|---|---|---|---|---| +| PEFT-插入式 | Adapters | 层内瓶颈参数 | 参数级(弱结构) | 稳定、可插拔 | 结构角色利用有限 | 通用NLP/领域微调 | +| PEFT-低秩 | LoRA | 权重增量低秩分解 | 参数级 | 强基线、开销低 | 默认相对均匀 | POI-QA/Geo任务可作为基线 | +| PEFT-量化+低秩 | QLoRA | 量化主干+LoRA增量 | 参数级(系统友好) | 单卡可训大模型 | 训练细节敏感 | 指令微调/QA | +| 多任务共享 | 硬/软共享 | 共享主干表示 | 模块级/参数级 | 泛化好 | 负迁移风险 | 城市多目标预测 | +| 动态路由 | MoE/Switch | 专家选择与门控 | 模块级 | 容量可扩展 | 路由不稳、成本高 | 大模型多任务 | +| 长序列时序Transformer | Informer | 注意力近似与蒸馏 | 表示流级 | 长序列效率 | 结构一致性弱 | LSTF基准 | +| 分解与自相关 | Autoformer | 分解块+自相关 | 频谱/表示级 | 多尺度直觉强 | 分解假设依赖 | LSTF基准 | +| 频域增强 | FEDformer | 傅里叶/小波块 | 频谱级 | 全局-局部兼顾 | 设计复杂 | LSTF基准 | +| 结构搜索 | DARTS | 架构拓扑 | 参数结构级 | 结构可学习 | 搜索稳定性/成本 | 结构压缩/迁移 | +| LLM剪枝 | Wanda等 | 权重稀疏 | 参数结构级 | 可控压缩 | 可能损害推理 | LLM推理/部署 | + +(上表相关代表工作入口:LoRA/QLoRA/PEFT综述/Informer/Autoformer/FEDformer/DARTS/LLM压缩综述/Wanda等已在正文给出并有对应引文支撑。)citeturn2search0turn2search1turn1search0turn1search2turn1search3turn3search4turn4search0turn4search3turn4search15 + +### 附录B 参考文献池统计与补齐建议 + +本稿在正文“代表性工作”中给出约41条**完整信息**条目(DOI/arXiv/ISBN/官方页或标注未检索到),并在各小节“扩展文献列表”中补充条目以满足“≥120条、≥30条中文”的文献池目标。 +为了在最终博士论文中达到更强的“可检索性与可复现性”,建议你在定稿阶段做两轮补齐: +1) 补齐中文期刊条目的卷期页码与DOI(优先《测绘学报》《地球信息科学学报》《地理学报》《武汉大学学报(信息科学版)》等官方站点可公开检索的条目)。citeturn5search4turn5search0turn5search13 +2) 对“扩展列表”中标注“未检索到”的英文经典条目(如Moran 1950、Kalman 1960等)统一补齐DOI或出版信息(通常可通过出版社页/学会数字图书馆完成)。 + +(如你希望我把“扩展文献列表”进一步严格化为**可直接粘贴GB/T 7714**格式,并确保每条都有可点击的DOI/arXiv入口,我可以在你指定的格式模板(GB/T/APA/IEEE)下对当前文献池进行一次“统一格式化与去重校验”。) \ No newline at end of file diff --git a/deepresearch/gpt-deep-research-report (2).md b/deepresearch/gpt-deep-research-report (2).md new file mode 100644 index 0000000..6eb938d --- /dev/null +++ b/deepresearch/gpt-deep-research-report (2).md @@ -0,0 +1,670 @@ +# 第二章:时空表征学习基础与统一分析框架——写作脉络与参考文献池(2.1–2.4) + +## 执行摘要 + +本章的核心使命是为后续“结构角色感知的表征适配方法体系”建立**学科根基、问题空间与形式化入口**:先用城市计算/GeoAI与时空统计的经典脉络说明“时空数据为何难”、再用深度时空表征学习说明“过去如何做”、进而用Transformer/基础模型说明“范式为何改变”、最后以PEFT、多任务、频谱、多源与评测基础设施的研究现状“收束到统一分析框架”。这一叙事落脚点应是:**时空数据的结构异质性(多任务功能、位置结构、多尺度频谱、多源差异)→ 均匀适配不足 → 需要以结构角色信息为条件的非均匀表示调制算子 \( \mathcal{M}_\theta \)**,从而为第三至第六章“逐级实例化”自然铺垫。城市计算的权威综述为问题背景与任务谱系提供“总论”背书。citeturn8search0 + +近两年(2024–2026)出现了对本论文特别关键的一类新趋势:**LLM/多模态基础模型在地理/城市任务上的系统评测与基准化**。例如,城市任务评测(CityBench)通过多城市、多任务与模拟器支持评估LLM/VLM作为“城市尺度世界模型”的能力;地图推理基准(MapEval、MapVerse、MapBench)将“地图工具/视觉地图阅读/导航规划”纳入统一评测;地理分析工作流评测(GeoAnalystBench)把GIS专家任务转为可执行Python工作流与代码生成测评;面向遥感/地球观测的多模态评测(GEOBench‑VLM、EarthSpatialBench)强调变化检测、几何拓扑与定量空间推理。这些工作共同说明:**时空智能研究的评测范式正从静态预测数据集走向“任务生成—工具/仿真交互—持续评测”的系统闭环**。citeturn4search2turn0search1turn0search2turn0search3turn3search0turn4search0 + +本报告按2.1–2.4逐小节给出:每节“核心问题/写作要点/建议引用点”、代表性工作(完整信息+DOI/arXiv/ISBN/官方页)、扩展文献列表(可快速堆量、只列关键元信息)、以及可直接搬入论文的句式模板与盲审风险提示。 + +## 章节总体写作框架与统一概念图 + +第二章建议采用“三段式收束”: + +第一段(2.1)回答:**时空数据是什么、任务谱系是什么、结构复杂性为何必然出现**(学科视角)。citeturn8search0turn8search2 +第二段(2.2)回答:**Transformer/基础模型的表征机制是什么、为何对时空任务“可迁移但不充分”**(模型视角)。citeturn7search0turn7search1 +第三段(2.3–2.4)回答:**如何高效适配与如何评测**(方法与系统视角),最终引出你的统一分析框架(模块/维度/频谱/参数结构)与“结构角色感知调制母式”。citeturn2search0turn0search1turn4search2 + +下面的概念图可直接用于第二章“统一视角”小节(建议配一段“直觉先行→公式随后”的文字说明,避免盲审认为“为了统一而统一”)。 + +```mermaid +flowchart LR + A[时空数据结构异质性] --> B1[模块级:功能/任务路由] + A --> B2[维度级:位置/频率耦合的各向异性] + A --> B3[频谱级:多尺度动态与更新频率结构] + A --> B4[参数级:多任务容量分配与共享-特有结构] + + B1 --> C[结构角色信息 R] + B2 --> C + B3 --> C + B4 --> C + + D[被调制对象 Z
(表示流/子空间/更新频谱/参数拓扑)] --> E[结构感知调制算子 M_θ(Z; X, R)] + C --> E + F[输入上下文 X] --> E + + E --> G[统一适配机制:非均匀/结构条件化变换] + G --> H[第三章:模块级实例化] + G --> I[第四章:维度级实例化] + G --> J[第五章:频谱+参数实例化] + G --> K[第六章:基准/数据/系统闭环评测] +``` + +## 时空数据建模与表征学习研究 + +image_group{"layout":"carousel","aspect_ratio":"16:9","query":["spatiotemporal graph neural network traffic forecasting diagram","urban computing trajectory data visualization","remote sensing time series change detection example","spatiotemporal big data visualization system"],"num_per_query":1} + +**2.1.1 时空数据建模问题类型与应用场景** + +核心问题 +时空数据的“任务谱系”如何系统归纳,并与“结构异质性”的四个维度建立对照关系? + +写作要点 +以城市计算/GeoAI的权威总论为“任务谱系母体”,先用一段话定义:时空数据来源(传感器/移动性/遥感/社交/基础设施)、典型任务(预测、诊断、规划、推荐、问答、决策)、以及多源融合范式(异构数据融合、知识融合)。城市计算综述对“数据异构—知识融合—城市挑战”有清晰表述,可作为本节开场的权威引用。citeturn8search0 +随后强调:在LLM时代,任务谱系新增两类“推理/交互”任务:地图推理、工具调用的GIS workflow、智能体仿真评测等(为2.4铺垫)。citeturn0search1turn0search3turn4search2 + +建议引用点 +- “Urban Computing”对城市数据类型与应用类别的归纳(交通、环境、能源、社会、经济、安全等)。citeturn8search0 +- 生成式技术在时空数据挖掘中的分类框架(LLM/扩散/SSL等)作为“范式转变”桥梁。citeturn8search5 +- 时空大数据分析生态系统的综述性归纳,作为“系统视角”补充。citeturn8search20 + +代表性工作(完整信息) +1) Yu Zheng, Licia Capra, Ouri Wolfson, Hai Yang. 2014. **Urban Computing: Concepts, Methodologies, and Applications**. *ACM Transactions on Intelligent Systems and Technology (TIST)*, 5(3), Article 38. DOI: 10.1145/2629592.(PDF见citeturn8search0) +2) Qianru Zhang, Haixin Wang, Cheng Long, et al. 2024. **A Survey of Generative Techniques for Spatial-Temporal Data Mining**. arXiv:2405.09592. citeturn8search5 +3) H. Liang et al. 2024. **A Survey on Spatio-Temporal Big Data Analytics Ecosystem**. *IEEE Transactions on Big Data*(页面信息见citeturn8search20;DOI以期刊页为准,若写作时无法定位可标注“未检索到”)。citeturn8search20 +4) M. Vasavi et al. 2023. **A survey on spatio-temporal data mining**. *Big Data Research*(ScienceDirect条目页)。DOI/链接:未在本次检索中固定到DOI(可在ScienceDirect条目页补齐)。citeturn8search2 +5) W. Huang et al. 2026. **Federated Learning for Spatio-Temporal Data Mining**. *Information Fusion*(ScienceDirect条目页)。DOI/链接:未在本次检索中固定到DOI(写作时建议补齐)。citeturn8search9 + +扩展文献列表(可只列题目/作者/年份/来源) +- *Urban Computing*(书,MIT Press,官方页)。citeturn8search19 +- Big spatial data analytics相关:SIGSPATIAL BigSpatial workshop(Cheng et al., 2012等在综述中被高频引用)。citeturn8search2 +- “地理大数据与空间智能”专题专栏(地球信息科学学报专题集合页,可用于中文脉络引文)。citeturn6search5 +- 生成式时空数据挖掘方向:时空扩散模型、轨迹生成、时空知识图谱生成(可从综述条目中批量列举)。citeturn8search5 + +写作建议句式/段落要点(可直接搬入正文) +- “城市时空系统的观测数据呈现出多源异构、尺度多样与语义多层的联合特征,使得城市计算需要在异构数据融合与知识融合的统一框架下开展建模与决策。”citeturn8search0 +- “随着生成式模型与基础模型的发展,时空数据挖掘的研究对象从‘预测与分类’逐步扩展到‘生成、解释、推理与交互式决策’,对统一评测提出新的需求。”citeturn8search5turn0search1 + +盲审风险点与修改建议 +- 风险:只堆任务而缺少“结构复杂性”的学术归因。 +- 建议:本节末用一段“任务→结构挑战映射”:多任务→功能异质性;位置/几何→结构依赖;长周期+突变→多尺度;跨城/跨源→分布差异,为2.1.4做显式铺垫。 + +**2.1.2 传统时空建模方法** + +核心问题 +如何用“经典统计/时空统计/空间统计”的语言,给“结构异质性”提供可被审稿人认可的理论根基? + +写作要点 +强调传统统计路线的三类核心思想: +(1) **空间相关**(空间自相关、邻近性/距离衰减,地理学定律与空间统计); +(2) **时间动态**(时间序列、状态空间、随机过程); +(3) **层次化不确定性分解**(数据—过程—参数不确定性),这是之后“结构角色感知”叙事的重要学理支点。Cressie & Wikle的权威教材可作为本节的“总纲式引用”。citeturn8search3 + +建议引用点 +- 时空统计教材中对层次动态时空模型、联合建模与不确定性传播的阐释。citeturn8search3turn8search17 +- 中文领域对“自然资源/地球观测”时空大数据挖掘与知识服务的综述,可作为传统统计与现代智能融合的中文支撑。citeturn5search3 + +代表性工作(完整信息) +1) Noel Cressie, Christopher K. Wikle. 2011. **Statistics for Spatio-Temporal Data**. John Wiley & Sons. ISBN: 9780471692744 / 0471692743. citeturn8search3 +2) (中文)李德仁. 2019. **空间数据挖掘理论与应用(第3版)**. 科学出版社. ISBN: 9787030599995. citeturn5search0 +3) (中文)王劲峰, 葛咏, 李连发, 等. 2014. **地理学时空数据分析方法**. *地理学报*(在相关页面引用链中出现;建议写作时到期刊官网补齐卷期与DOI,若无法定位则标注“未检索到”)。citeturn6search9 +4) (中文)吉根林, 赵斌. **面向大数据的时空数据挖掘综述**. *南京师大学报(自然科学版)*(条目在相关页面引用链中出现;建议写作时补齐年份与DOI)。citeturn6search9 + +扩展文献列表 +- Spatio‑Temporal Statistics with R(教材/讲义,链接可在引用页补齐)。citeturn8search21 +- 传统时序建模:ARIMA、状态空间/卡尔曼滤波、HMM、点过程、时空克里金、Gaussian Process for spatio‑temporal modeling(可按方法族批量列举)。 +- 地学知识图谱综述(中文):牛凤桂等,2024,“大数据时代的地球科学知识图谱研究现状与展望”,DOI:10.11939/jass.20230157。citeturn5search10 + +写作建议句式 +- “传统时空统计强调在空间相关与时间动态的联合约束下刻画过程演化,并通过层次化结构显式表征不确定性来源,为后续结构化表征学习提供了可解释的概念基底。”citeturn8search3 + +盲审风险点 +- 风险:只写“传统方法不行”,但缺少尊重与抽象。 +- 建议:用“传统方法的优势在于可解释与不确定性建模,但在高维异构、多任务与大规模场景下表达与推断成本上升”这种更审稿友好的句式。 + +**2.1.3 深度学习驱动的时空表征学习方法** + +核心问题 +如何把深度时空建模从“模型堆叠”提升为“结构归纳偏置(inductive bias)”的系统陈述? + +写作要点 +建议以三条主线组织: +(1) 栅格/场:时空卷积、ConvLSTM等; +(2) 路网/关系:时空图神经网络(STGNN)与交通预测基准; +(3) 长序列:时序Transformer与长预测(LSTF)。交通预测的图神经网络综述对任务、数据集与方法脉络整理非常适合“高密度引用”。citeturn1search7turn6search3 + +建议引用点 +- STGNN在交通预测的系统性综述(英文+中文各一篇,形成“国内外双脉络”)。citeturn1search7turn6search3 +- 长序列时序Transformer的代表:Informer(效率注意力)、Autoformer(分解+自相关)。citeturn7search2turn7search3 + +代表性工作(完整信息) +1) Xingjian Shi, Zhourong Chen, Hao Wang, et al. 2015. **Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting**. arXiv:1506.04214(若写作按会议版本可补NeurIPS 2015信息;本次未固定到条目页,建议后续补齐)。 +2) Yu Zheng等城市流量预测的深度残差网络(ST‑ResNet,AAAI 2017;本次未固定到条目页,建议后续补齐DOI/链接)。 +3) Yaguang Li, Rose Yu, Cyrus Shahabi, Yan Liu. 2018. **Diffusion Convolutional Recurrent Neural Network (DCRNN)**. arXiv:1707.01926(建议后续补会议版本与链接)。 +4) Bin Yu, Haoteng Yin, Zhanxing Zhu. 2018. **Spatio-Temporal Graph Convolutional Networks (STGCN)**. IJCAI 2018(建议后续补DOI/链接)。 +5) Zonghan Wu, Shirui Pan, Guodong Long, et al. 2019. **Graph WaveNet for Deep Spatial-Temporal Graph Modeling**. arXiv:1906.00121(建议后续补会议版本)。 +6) W. Jiang. 2022. **Graph neural network for traffic forecasting: A survey**. *Expert Systems with Applications*.(ScienceDirect条目页)。citeturn1search7 +7) (中文)贾兴利, 曲远海, 朱浩然, 等. 2026. **交通预测中的时空图神经网络研究综述:从模型解构到发展路径**. *交通运输工程学报*, 26(1):46–74. DOI:10.19818/j.cnki.1671-1637.2026.01.003. citeturn6search3 + +扩展文献列表 +- 空间依赖建模:ASTGCN、GMAN、MTGNN、AGCRN等(可按“静态图/动态图/自适应邻接/多图融合”列举)。 +- 长序列预测模型族:Transformer‑based LSTF(Informer/Autoformer/后续改进族)。citeturn7search2turn7search3 +- 生成式时空学习:扩散模型用于交通/轨迹/遥感时序(可从生成式时空综述中批量提取条目)。citeturn8search5 + +写作建议句式 +- “深度时空表征学习的关键在于将时空依赖转化为可学习的结构归纳偏置:从局部时空卷积到图结构传播,再到长上下文注意力,方法演进本质上反映了对时空结构复杂性的逐步显式化。”citeturn1search7turn7search2 + +盲审风险点 +- 风险:把STGNN与时序Transformer写成两条互相独立的线。 +- 建议:在小结段落强调二者共享同一问题:**空间依赖×时间动态×尺度变化**,差异在于“结构载体”(图 vs 注意力序列)与“归纳偏置实现方式”。 + +**2.1.4 时空建模中的结构复杂性问题** + +核心问题 +如何把“结构异质性”写成可检验、可分层、可导向方法设计的分析框架,而不是泛泛的“数据很复杂”? + +写作要点 +建议以“四类结构复杂性”作为本节固定骨架,并在每类下给出“现象→建模后果→为何均匀适配不足”的三句式: +- 多任务/多目标共存 → 梯度冲突、负迁移、容量竞争; +- 位置结构依赖 → 空间关系、拓扑与几何约束、跨尺度; +- 多尺度动态 → 周期/趋势/突发/事件驱动共存; +- 多源差异 → 跨城市/跨传感器/跨模态分布移位。 +中文综述“自然资源时空大数据挖掘与知识服务”非常适合做“多源异构+知识服务”的中文证据。citeturn5search3 +同时,联邦学习在时空数据挖掘的综述(2026)可用于强调“现实约束(隐私/分布式)会进一步放大多源差异”。citeturn8search9 + +建议引用点 +- 视觉分析综述强调多源/多粒度/多模态与复杂关联(可为“异质性”提供中文视角)。citeturn6search4 +- 交通系统韧性综述可作为“时空大数据应用”中文脉络补充。citeturn5search7 + +代表性工作(完整信息) +1) (中文)朱庆, 傅晓. 2017. **多模态时空大数据可视分析方法综述**. *测绘学报*(HTML页)。DOI:建议后续在期刊页补齐。citeturn6search4 +2) (中文)自然资源时空大数据挖掘与知识服务研究进展. 2025. DOI:10.12082/dqxxkx.2025.240625。citeturn5search3 +3) W. Huang et al. 2026. **Federated Learning for Spatio-Temporal Data Mining**. *Information Fusion*(条目页)。citeturn8search9 +4) Qianru Zhang et al. 2024. **A Survey of Generative Techniques for Spatial‑Temporal Data Mining**. arXiv:2405.09592. citeturn8search5 +5) (中文)汤俊卿, 安梦琪, 赵鹏军, 等. 2025. **时空大数据在交通系统韧性研究中的应用回顾与展望**. *地球信息科学学报*, 27(3):553‑569.(PDF页)。DOI/链接:建议在期刊页补齐;本次以PDF引用。citeturn5search7 + +扩展文献列表 +- “2024年中国空间数据智能战略发展白皮书”(PDF,可用于中文行业背景与术语统一)。citeturn5search14 +- “大数据的6种地理学应用范式”(测绘学报科普/新闻页,适合作为中文引导但不宜作为唯一学术依据)。citeturn6search8 + +写作建议句式 +- “上述异质性意味着:同一基础模型内部不同模块/维度/频率分量/参数子结构在时空任务中的功能贡献并非均匀,因此简单的‘均匀微调’难以兼顾多任务协同、位置依赖建模与跨源泛化。” + +盲审风险点 +- 风险:概念堆叠但没有“可操作的分层框架”。 +- 建议:本节结尾必须显式提出你第二章的四级框架(模块/维度/频谱/参数)作为“后续章节路标”。 + +## 基础模型与大语言模型表征机制研究 + +**2.2.1 Transformer 表示学习机制(含统一符号建议)** + +核心问题 +如何用最少的数学把Transformer讲清楚,并为后续“结构角色感知”留下接口? + +写作要点 +开场只需要一段:Transformer用自注意力进行“上下文聚合”,用前馈网络进行“非线性变换”,并通过多层堆叠形成层级表征。其原始论文是最权威引用。citeturn7search0 +随后引入符号统一(与你提供的符号一致),强调“全论文统一符号表”的必要性(盲审高敏感点)。 + +建议引用点 +- Transformer提出与核心机制:citeturn7search0 +- 长序列时序Transformer“为何需要结构化机制(效率/信息利用)”:Informer与Autoformer对长序列问题的论述可作为类比引用。citeturn7search2turn7search3 + +统一符号(建议直接写入2.2.1末尾,作为全论文符号表母体) +- 输入序列:\(\mathbf{X}=(x_1,\dots,x_T)\) +- 第\(\ell\)层隐藏表征:\(\mathbf{H}^{(\ell)}\in\mathbb{R}^{T\times d}\) +- 注意力张量:\(\mathbf{Q}^{(\ell)},\mathbf{K}^{(\ell)},\mathbf{V}^{(\ell)}\) +- 多头索引:\(\mathbf{Q}^{(\ell,h)}\) +- 索引统一:层\(\ell\)、头\(h\)、维度\(i\)、token\(t\)、任务\(\tau\) +- 统一建议:第二章末或正文前置给出“符号表”,并规定后续章节不得复用不同论文的旧notation。 + +代表性工作(完整信息) +1) Ashish Vaswani, Noam Shazeer, Niki Parmar, et al. 2017. **Attention Is All You Need**. NeurIPS 2017. arXiv:1706.03762. citeturn7search0 +2) Jacob Devlin, Ming‑Wei Chang, Kenton Lee, Kristina Toutanova. 2018. **BERT: Pre‑training of Deep Bidirectional Transformers for Language Understanding**. arXiv:1810.04805. citeturn7search1 + +扩展文献列表 +- 长序列注意力/稀疏注意力/线性注意力系列(可按方法族列举)。 +- 位置编码(RoPE/ALiBi等;本次未逐条固定链接,写作时建议补 arXiv/DOI)。 +- 表征各向异性与层/头功能分化的分析论文(建议选2–3篇做代表性引用,避免堆砌)。 + +写作建议句式 +- “Transformer的关键并非某一具体注意力公式,而是其以层级堆叠的注意力‑前馈模块构成可迁移的表征骨干,这使得‘冻结主干+少量结构化适配’成为大模型时代的主流策略。”citeturn7search0turn2search0 + +盲审风险点 +- 风险:2.2写成“LLM科普”。 +- 建议:每段都回扣“时空任务需要什么结构能力(位置关系/尺度/多任务)”,避免只讲NLP史。 + +**2.2.2 预训练基础模型与表示迁移学习** + +核心问题 +为何“预训练—微调/适配”可行?其在时空任务上为何又会出现“迁移不足”? + +写作要点 +用BERT作为“预训练迁移”的经典支点即可,不需展开NLP细节。citeturn7search1 +随后引入两类迁移不足: +(1) 输入结构差异(时空数据的坐标/拓扑/多模态); +(2) 目标差异(预测 vs 推理/规划/交互),为2.4评测基准转型铺垫。citeturn4search2turn0search3 + +代表性工作(完整信息) +1) Devlin et al. 2018. **BERT**. arXiv:1810.04805. citeturn7search1 +2) Y. Liang et al. 2024. **Foundation Models for Time Series Analysis**(综述/教程条目页)。DOI条目页:10.1145/3637528.3671451。citeturn1search20 +3) Jiexia Ye et al. 2024. **A Survey of Time Series Foundation Models: Generalizing Time Series Representation with Large Language Model**. arXiv:2405.02358. citeturn1search4 + +扩展文献列表 +- 时间序列基础模型综述:arXiv:2403.14735(“Foundation Models for Time Series Analysis”综述)。citeturn1search0 +- TS foundation models(Chronos/TimesFM/Moirai等家族可在相关综述中成批引用)。citeturn1search1turn1search18turn1search5 + +写作建议句式 +- “预训练迁移学习的核心假设是存在跨任务可共享的中间表征;而时空任务的结构性输入与多尺度动态,使得这种共享表征需要被结构化地‘对齐与调制’,而非简单地全参数微调。”citeturn1search0turn2search0 + +盲审风险点 +- 风险:把时序foundation model完全等同于LLM。 +- 建议:用“基础模型(foundation models)”更中性;并强调时空任务的结构输入与评测要求不同于纯文本。 + +**2.2.3 大语言模型在复杂任务建模中的潜力** + +核心问题 +LLM对时空智能的潜力体现在哪里?应如何“落在可评测能力维度”而非空泛愿景? + +写作要点 +建议按能力维度写三段,每段都给“可评测载体”: +- 知识整合与常识(地理知识可通过辅助地图数据触发/抽取);citeturn4search1 +- 长上下文与跨域迁移(时间序列foundation models展示“跨数据集预训练→零样本预测”的可行性);citeturn1search1turn1search0 +- 工具调用与工作流生成(GIS workflow/code生成基准)。citeturn0search3 + +代表性工作(完整信息) +1) Rohin Manvi, Samar Khanna, Gengchen Mai, et al. 2023/2024. **GeoLLM: Extracting Geospatial Knowledge from Large Language Models**. arXiv:2310.06213;ICLR 2024版本PDF可见条目页。citeturn4search1turn4search5 +2) Y. Liang et al. 2024. **Foundation Models for Time Series Analysis**. arXiv:2403.14735. citeturn1search0 +3) Abdul Fatir Ansari et al. 2024. **Chronos: Learning the Language of Time Series**. arXiv:2403.07815. citeturn1search1 +4) Qianheng Zhang, Song Gao, Chen Wei, et al. 2025. **GeoAnalystBench: A GeoAI benchmark for assessing large language models for spatial analysis workflow and code generation**. arXiv:2509.05881;期刊版本:*Transactions in GIS*(条目页)。citeturn0search3turn0search11 +5) Krzysztof Janowicz. 2025. **GeoFM: how will geo-foundation models reshape spatial analysis?** *International Journal of Geographical Information Science*.(期刊页)。citeturn0search16 + +扩展文献列表 +- Chronos项目页(实现与版本演进):`https://github.com/amazon-science/chronos-forecasting` citeturn1search9 +- TimesFM项目页:`https://github.com/google-research/timesfm` citeturn1search18 + +写作建议句式 +- “LLM在时空场景中的价值不应等同于语言生成能力,而应被拆解为:地理知识可提取性、时空推理一致性、以及工具/仿真交互的工作流可执行性三个可评测维度。”citeturn4search1turn0search3turn0search1 + +盲审风险点 +- 风险:只引用热门模型而忽略评测与可复现。 +- 建议:以“基准/数据集/评测框架”的论文作为主引文,用模型示例作为辅证。 + +**2.2.4 大模型在时空智能领域的初步探索** + +核心问题 +近两年有哪些“能作为第二章现状综述支柱”的GeoAI/城市任务评测与数据集工作? + +写作要点 +建议用“评测对象×交互形态”划分: +- 文本/工具/视觉地图推理(MapEval);citeturn0search1turn0search5 +- 真实地图多模态问答(MapVerse);citeturn0search2 +- 像素级地图导航(MapBench);citeturn0search10 +- 时空敏感POI问答(POI‑QA,双语);citeturn0search0 +- 城市任务综合评测(CityBench)与城市活动智能体仿真平台(OpenCity)。citeturn4search2turn4search3 +- 遥感/地球观测多模态基准(GEOBench‑VLM)与Earth imagery空间推理(EarthSpatialBench);citeturn3search0turn4search0 +- 坐标理解与测地计算(GPSBench)。citeturn3search6 + +代表性工作(完整信息) +1) ML Dihan et al. 2024/2025. **MapEval: A Map‑Based Evaluation of Geo‑Spatial Reasoning**. arXiv:2501.00316;OpenReview条目。citeturn0search1turn0search5 +2) Sharat Bhat, Harshita Khandelwal, Tushar Kataria, Vivek Gupta. 2026. **MapVerse: A Benchmark for Geospatial Question Answering on Diverse Real‑World Maps**. arXiv:2602.10518. citeturn0search2 +3) Xiao Han, Dayan Pan, Xiangyu Zhao, et al. 2025. **A Dataset for Spatiotemporal‑Sensitive POI Question Answering (POI‑QA)**. arXiv:2505.10928;数据集页:`https://www.kaggle.com/datasets/hahahenha/poi-qa` citeturn0search0turn0search8 +4) Jie Feng, Jun Zhang, Tianhui Liu, et al. 2024. **CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks**. arXiv:2406.13945. citeturn4search2turn4search14 +5) Yuwei Yan, Qingbin Zeng, Zhiheng Zheng, et al. 2024. **OpenCity: A Scalable Platform to Simulate Urban Activities with Massive LLM Agents**. arXiv:2410.21286. citeturn4search3 +6) MS Danish et al. 2024/2025. **GEOBench‑VLM: Benchmarking Vision‑Language Models for Geospatial Tasks**. arXiv:2411.19325;CVF论文PDF条目。citeturn3search0turn3search3 +7) Zelin Xu, Yupu Zhang, Saugat Adhikari, et al. 2026. **EarthSpatialBench: Benchmarking Spatial Reasoning Capabilities of Multimodal LLMs on Earth Imagery**. arXiv:2602.15918. citeturn4search0 +8) Thinh Hung Truong, Jey Han Lau, Jianzhong Qi. 2026. **GPSBench: Do Large Language Models Understand GPS Coordinates?** arXiv:2602.16105. citeturn3search6 +9) Qianheng Zhang et al. 2025. **GeoAnalystBench**. arXiv:2509.05881. citeturn0search3 +10) S Xing et al. 2025. **MapBench: Can Large Vision Language Models Read Maps Like a Human?** arXiv:2503.14607. citeturn0search10turn0search14 + +扩展文献列表 +- GeoGLUE(地理语言理解评测):arXiv:2305.06545(2023)。citeturn3search1 +- 轨迹恢复与地理推理基准:GlobalTrace(条目页)。citeturn4search13 + +写作建议句式 +- “2024年以来,GeoAI/城市计算领域出现一批以‘评测—工具/仿真交互—可复现基准’为核心目标的工作,标志着时空智能研究正在从静态预测任务走向面向推理与决策的系统化评测。”citeturn4search2turn0search1turn0search3 + +盲审风险点 +- 风险:只列模型不列基准,或只列英文不列中文。 +- 建议:此节以“基准集与评测框架”为主角;中文可补“地球信息科学学报专题专栏/综述论文”作为学科内的权威背景。citeturn6search5turn6search1 + +## 参数高效适配与结构建模方法研究 + +**2.3.1 参数高效微调方法(PEFT)** + +核心问题 +如何用一套taxonomy把PEFT讲成“结构化适配”的方法库,为后续章节(模块/维度/频谱/参数结构)奠基? + +写作要点 +建议用“冻结主干+学习小增量”的统一表述,并以权威PEFT综述作为核心引文(覆盖50+论文并提供对比)。citeturn2search0 +然后仅用一页篇幅归纳四类常见PEFT: +(1) 插入式(Adapters); +(2) 低秩/分解式(LoRA及扩展);citeturn2search1 +(3) 提示式(prompt/prefix); +(4) 子集更新(BitFit/部分层微调)。 +强调:这些方法默认“均匀/弱结构化”,因此你的论文将进一步引入“结构角色信息”实现非均匀调制。 + +建议引用点 +- LoRA与QLoRA作为最常见强基线。citeturn2search1turn2search2 +- PEFT系统综述作为“文献堆量”主来源。citeturn2search0 + +代表性工作(完整信息) +1) Vladislav Lialin, Vijeta Deshpande, Xiaowei Yao, Anna Rumshisky. 2023. **Scaling Down to Scale Up: A Guide to Parameter‑Efficient Fine‑Tuning**. arXiv:2303.15647(v2更新时间2024‑11‑22)。citeturn2search0turn2search4 +2) Edward J. Hu, Yelong Shen, Phillip Wallis, et al. 2021. **LoRA: Low‑Rank Adaptation of Large Language Models**. arXiv:2106.09685. citeturn2search1 +3) Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer. 2023. **QLoRA: Efficient Finetuning of Quantized LLMs**. arXiv:2305.14314. citeturn2search2 +4) (可补)Houlsby et al. 2019. **Parameter‑Efficient Transfer Learning for NLP**(Adapters;本次未固定条目页,写作建议补arXiv/DOI)。 + +扩展文献列表 +- “Parameter‑Efficient Fine‑Tuning in Large Models”综述类预印本(arXiv:2410.19878)。citeturn2search16 +- LoRA工程实现仓库(微软):`https://github.com/microsoft/LoRA`(仓库信息见LoRA条目页)。citeturn2search1 + +写作建议句式 +- “PEFT的共同目标是以极小的可训练参数规模实现对下游任务的快速适配,但其主流做法多对模块/维度一视同仁;在时空结构任务中,这种均匀性假设往往与结构角色异质性相冲突。”citeturn2search0 + +盲审风险点 +- 风险:PEFT堆太多导致本章主题散。 +- 建议:PEFT只作为“适配范式入口”,重点回扣你提出的“结构感知非均匀调制”。 + +**2.3.2 多任务学习与知识路由机制** + +核心问题 +多任务学习与路由/门控/专家化如何与“多任务功能异质性”对齐? + +写作要点 +建议以“负迁移与容量竞争”为问题陈述,再引出“共享‑特有结构”与“动态路由”。此处不必写大量数学,只需把路线分成:硬共享、软共享、专家/路由、梯度冲突处理。CityBench与OpenCity也可作为“多任务城市智能评测”连接点。citeturn4search2turn4search3 + +代表性工作(完整信息,建议写作时补齐) +- Rich Caruana. 1997. **Multitask Learning**. *Machine Learning*.(经典;DOI写作时建议补齐,若检索不到可标注“未检索到”) +- Shazeer et al. 2017. **Sparsely‑Gated Mixture‑of‑Experts Layer**. arXiv:1701.06538(建议补齐) +- Switch Transformer. 2021. arXiv:2101.03961(建议补齐) +- PLE(Progressive Layered Extraction)多任务结构(2020;建议补齐) + +扩展文献列表 +- 多任务学习的梯度冲突处理(PCGrad、GradNorm等); +- 条件计算与专家模型在大模型中的应用(MoE、路由策略等)。 + +写作建议句式 +- “多任务城市时空建模可视为‘有限容量下的结构分配问题’,其核心矛盾在于共享带来的泛化与任务特化带来的精度之间的权衡。” + +盲审风险点 +- 风险:只写NLP多任务不写城市多任务。 +- 建议:在段尾补一句“城市任务天然多目标(交通‑环境‑经济‑安全)”,并引用城市计算综述的应用类别。citeturn8search0 + +**2.3.3 表示各向异性与结构感知学习** + +核心问题 +如何论证“均匀更新并不合理”,从而为“维度/头/层角色差异的适配”建立背景? + +写作要点 +建议从两条证据链写: +- 模型内部:表示空间存在非均匀贡献与角色分化(可选2–3篇分析论文作为代表); +- 任务外部:时空任务的“位置‑语义耦合、尺度变化”会放大这种非均匀性,导致需要结构条件化调制。以地图推理、坐标理解与Earth imagery空间推理基准作为“行为证据”。citeturn0search1turn3search6turn4search0 + +代表性工作(完整信息) +- GPSBench(坐标理解与测地推理):arXiv:2602.16105。citeturn3search6 +- EarthSpatialBench(地球影像空间推理):arXiv:2602.15918。citeturn4search0 +- MapEval(地图推理三任务形态:文本/API/视觉):arXiv:2501.00316。citeturn0search1turn0search5 + +扩展文献列表 +- 位置编码与外推能力分析(RoPE/ALiBi相关;建议补齐链接); +- LLM内部机制分析与可解释性工作(选少量即可)。 + +写作建议句式 +- “当任务需要稳定的几何拓扑推理或测地计算时,模型表征中不同维度/层级承担的功能贡献往往呈现显著非均匀性,这使得结构感知的各向异性适配成为必要。”citeturn3search6turn4search0 + +盲审风险点 +- 风险:没有“证据型基准”支撑各向异性动机。 +- 建议:至少引用GPSBench或EarthSpatialBench之一,把“失败模式”变成可引用事实。citeturn3search6turn4search0 + +**2.3.4 多尺度学习与频谱建模方法** + +核心问题 +如何把“多尺度动态”从现象提升到方法语言:时间分解、频域/小波、多尺度注意力与更新频谱结构? + +写作要点 +用Autoformer的“分解思想”与Informer的“长序列效率问题”作为两端支点即可。citeturn7search2turn7search3 +然后补充频域/小波在交通预测与时空图建模中的新近应用(2024–2025出现多个wavelet‑STGNN方向工作,可作为你第五章“频谱级”叙事背景)。citeturn2search11turn2search3 + +代表性工作(完整信息) +1) Haoyi Zhou et al. 2020/2021. **Informer: Beyond Efficient Transformer for Long Sequence Time‑Series Forecasting**. arXiv:2012.07436;AAAI 2021版本PDF。citeturn7search2turn7search6 +2) Haixu Wu, Jiehui Xu, Jianmin Wang, Mingsheng Long. 2021. **Autoformer: Decomposition Transformers with Auto‑Correlation for Long‑Term Series Forecasting**. arXiv:2106.13008;项目页:`https://github.com/thuml/Autoformer` citeturn7search3turn7search7 +3) 2024. **W‑DSTAGNN: wavelet‑based dynamic spatiotemporal aware graph neural network**(条目页)。arXiv:2407.04440v2。citeturn2search11 +4) L. Zhang et al. 2025. **A spatiotemporal graph wavelet neural network for traffic…** *Information Fusion* 或相关期刊(ScienceDirect条目)。citeturn2search3 +5) S. Zhao et al. 2022. **STAGWNN: An Attention and Wavelet Based Spatial‑Temporal Graph Neural Network…** *Mathematics* (MDPI).(条目页)。citeturn2search15 + +扩展文献列表 +- FEDformer(频域增强分解Transformer,ICML 2022;建议补齐PMLR页与arXiv); +- FNet(Fourier mixing替代注意力;建议补齐arXiv); +- 多尺度/小波在气象、遥感时序、交通中的应用(可按领域列举)。 + +写作建议句式 +- “多尺度时空模式可以被理解为不同频率分量的组合:低频对应全局趋势与周期结构,高频对应局部扰动与事件驱动变化,因此频谱视角为统一刻画‘全局‑局部’更新提供了自然语言。”citeturn7search3turn2search11 + +盲审风险点 +- 风险:频谱内容写成信号处理教材。 +- 建议:只写“为何对时空有用、如何在深度模型中落地、与适配/更新结构的关系”,数学推导从简。 + +**2.3.5 模型结构优化与容量分配方法(NAS/剪枝/结构稀疏)** + +核心问题 +为什么“结构可学习/容量可分配”是多任务时空大模型适配的必经之路? + +写作要点 +本节建议以“资源约束+多任务冲突”为引子,引出三类工具箱: +- NAS(结构搜索); +- 剪枝/稀疏化(结构压缩与选择性激活); +- 预算约束的结构学习(为你参数结构级工作铺垫)。 +在第二章只需给出代表性工作+概念总结,不必展开算法细节。 + +代表性工作(建议写作时补齐) +- DARTS: Differentiable Architecture Search. 2018. arXiv:1806.09055(建议补齐链接/DOI)。 +- ENAS: Efficient Neural Architecture Search. 2018. arXiv:1802.03268(建议补齐)。 +- 结构化剪枝综述、LLM剪枝新进展(2024–2026若干综述与实证论文,建议写作时补齐其中2–3篇权威来源)。 + +扩展文献列表 +- Lottery Ticket Hypothesis(2019); +- 动态稀疏训练(DST); +- MoE结构与路由稀疏结合的容量扩展路线。 + +写作建议句式 +- “当模型需要在多任务间分配有限的可训练增量参数时,容量分配本质上转化为结构学习问题:哪些模块共享、哪些维度/频率更新、哪些参数子结构应被激活或剪裁。” + +盲审风险点 +- 风险:NAS/剪枝被写成与时空无关的通用内容。 +- 建议:每段最后加一句“在时空多任务中对应的结构挑战是什么”,并与2.1.4的异质性框架回扣。 + +### 关键对比表:PEFT/多任务/频谱方法的“调制对象—结构层级”视角 + +(表内不追求穷尽,重点服务你的统一框架叙事。) + +| 方法类别 | 代表方法 | 调制对象(Z) | 结构层级(对应你的四级框架) | 主要优点 | 主要局限 | 常用数据集/任务 | +|---|---|---|---|---|---|---| +| PEFT-插入式 | Adapters | 层内瓶颈参数 | 参数级(弱结构) | 稳定、可插拔 | 仍偏“均匀更新” | 多下游任务迁移 | +| PEFT-低秩 | LoRA | 权重增量低秩分解 | 参数级(可结构化) | 强基线、开销低 | 对角色异质性利用有限 | LLM下游/时空QA等 | +| PEFT-量化+低秩 | QLoRA | 量化主干+LoRA增量 | 参数级(系统友好) | 单卡可训大模型 | 训练细节敏感 | 指令微调/QA | +| PEFT-提示 | Prefix/Prompt tuning | 输入/键值提示 | 表示流级 | 不改主干权重 | 对结构依赖任务未必稳定 | 文本/序列任务 | +| 多任务共享 | 硬共享/软共享 | 共享主干表示 | 模块级/参数级 | 泛化好 | 负迁移风险 | 城市多任务预测 | +| 动态路由 | MoE/Switch | 专家选择与门控 | 模块级 | 容量可扩展 | 路由不稳、成本高 | 大模型、多任务 | +| 时序Transformer效率 | Informer | 注意力近似 | 表示流级 | 长序列效率 | 结构语义弱 | LSTF预测 | +| 分解/多尺度 | Autoformer | 趋势/季节分解块 | 频谱/表示级 | 多尺度直觉强 | 依赖分解假设 | LSTF预测 | +| 小波/频域GNN | Wavelet‑STGNN | 图信号频域/小波 | 频谱级 | 全局‑局部兼顾 | 设计复杂 | 交通预测 | +| 结构搜索/稀疏 | DARTS/剪枝 | 结构拓扑/稀疏门控 | 参数结构级 | 可学结构与预算 | 搜索成本/稳定性 | 多任务/压缩 | + +(LoRA/QLoRA/Informer/Autoformer/wavelet‑ST相关条目页见:citeturn2search1turn2search2turn7search2turn7search3turn2search11) + +## 时空智能数据集与评测基础设施研究 + +**2.4.1 时空预测与分析数据集** + +核心问题 +传统时空研究为何以“预测数据集”为主?其对LLM适配研究有哪些不足? + +写作要点 +以交通预测为主线:STGNN综述通常会附带公开数据集清单与评测协议,可直接引用作为“数据集总表的来源”。citeturn1search7turn6search3 +强调不足:预测数据集偏数值回归,较少覆盖“推理一致性/工具调用/多步规划”,不利于评估LLM能力边界。citeturn0search1turn0search3 + +代表性工作(完整信息) +- W. Jiang. 2022. **Graph neural network for traffic forecasting: A survey**. *Expert Systems with Applications*.(数据集与开源整理)。citeturn1search7 +- (中文)贾兴利等. 2026. **交通预测中的时空图神经网络研究综述**. DOI:10.19818/j.cnki.1671-1637.2026.01.003(含大量参考文献与任务归纳)。citeturn6search3 + +扩展文献列表 +- 交通预测常用数据集:METR‑LA、PEMS‑BAY、PeMS‑D系列、NYC Taxi/Bike等(建议写作时配合综述列出具体数据来源与链接)。 +- 遥感时序变化检测数据集:可在GEOBench‑VLM中引用其集成的数据集清单作为“权威汇聚来源”。citeturn3search0turn3search3 + +写作建议句式 +- “现有时空基准以预测为主,强调回归误差与短期可用性;然而LLM驱动的时空智能更关心推理一致性、约束满足与可执行工作流,导致评测目标需要从‘误差最小化’扩展到‘任务可完成性’。”citeturn0search3turn0search1 + +盲审风险点 +- 风险:只讲缺点不讲“为什么历史上这样设计”。 +- 建议:补一句“预测任务易标准化、易规模化、易对比”,再引出你要扩展的新评测维度。 + +**2.4.2 面向推理与决策的时空任务数据(POI/地图/坐标/遥感推理)** + +核心问题 +如何分类整理“推理型”GeoAI数据集,并指出其与“结构角色适配”的关系? + +写作要点 +建议按输入模态与推理要素分类: +- POI事实+轨迹对齐+时空约束推理(POI‑QA)citeturn0search0 +- 地图工具/视觉地图阅读(MapEval/MapVerse/MapBench)citeturn0search1turn0search2turn0search10 +- 坐标推理与测地计算(GPSBench)citeturn3search6 +- 遥感多模态与变化检测/计数/定位(GEOBench‑VLM、EarthSpatialBench)citeturn3search0turn4search0 + +代表性工作(完整信息) +1) POI‑QA:arXiv:2505.10928。citeturn0search0 +2) MapEval:arXiv:2501.00316。citeturn0search1 +3) MapVerse:arXiv:2602.10518。citeturn0search2 +4) MapBench:arXiv:2503.14607。citeturn0search10 +5) GPSBench:arXiv:2602.16105。citeturn3search6 +6) GEOBench‑VLM:arXiv:2411.19325。citeturn3search0 +7) EarthSpatialBench:arXiv:2602.15918。citeturn4search0 + +扩展文献列表 +- GeoGLUE(地理语言理解评测):arXiv:2305.06545。citeturn3search1 +- GeoAnalystBench(GIS workflow与代码生成):arXiv:2509.05881。citeturn0search3 + +写作建议句式 +- “推理型地理基准的共同特点是:输入包含位置/几何/拓扑或隐含时序约束,输出要求可解释的空间关系判断或可执行计划,因此更能暴露模型在结构一致性上的缺陷。”citeturn0search1turn3search6turn4search0 + +盲审风险点 +- 风险:只堆新基准而缺少“评测维度分解”。 +- 建议:在表格或小结中列出维度:方向/距离/拓扑/路径规划/变化检测/跨源检索,并说明其对应的结构异质性类型。 + +**2.4.3 城市仿真环境与智能体平台(benchmark infrastructure)** + +核心问题 +为何需要“平台化评测”而不仅是数据集?如何把现有仿真平台与LLM‑agent城市基准连起来? + +写作要点 +建议先回顾经典仿真(交通仿真SUMO等)作为城市系统研究的传统基础设施,再引出现代LLM‑agent城市平台(OpenCity)与城市任务评测(CityBench)作为新范式。citeturn4search3turn4search2 +OpenCity明确提出通过系统优化实现大规模LLM agents城市活动仿真,并把模拟与真实城市数据对比作为benchmark思路,这一点非常契合你的第六章定位。citeturn4search3turn4search7 + +代表性工作(完整信息) +1) Daniel Krajzewicz, Georg Hertkorn, et al. 2002. **SUMO (Simulation of Urban MObility)**.(经典平台论文/文档页;建议写作时补齐正式出版信息;官方文档页见citeturn5search?未直接检索到,可后续补充)。 +2) OpenCity:arXiv:2410.21286。citeturn4search3 +3) CityBench:arXiv:2406.13945。citeturn4search2 + +扩展文献列表 +- 传统城市/交通仿真:SUMO生态、交通控制基准(建议写作时补齐官方文档链接); +- 城市计算平台化评测趋势:在CityBench/OpenCity中已有明确叙述。citeturn4search2turn4search3 + +写作建议句式 +- “对于面向推理与决策的时空智能,评测对象不再是‘单次预测误差’,而是‘在交互式环境中完成任务的能力’;因此需要将数据、工具接口与仿真环境整合为可复现的benchmark基础设施。”citeturn4search2turn0search1 + +盲审风险点 +- 风险:平台贡献被写成工程堆砌。 +- 建议:强调“评测协议、任务生成、持续评估与可复现性”是科研贡献核心,并用CityBench/OpenCity作为对标。citeturn4search2turn4search3 + +**2.4.4 现有评测体系的局限性(面向LLM适配研究的需求)** + +核心问题 +为什么说现有评测不足以支撑“结构角色感知适配”的方法学研究?应提出哪些“评测需求清单”? + +写作要点 +围绕四条缺口写即可,并给出对应引用: +1) **任务形态缺口**:静态预测多、推理/规划少(MapEval、CityBench的出现说明社区在填补)。citeturn0search1turn4search2 +2) **工具链缺口**:缺少对GIS工作流可执行性的评测(GeoAnalystBench对此提出明确框架)。citeturn0search3 +3) **空间一致性缺口**:坐标/几何/拓扑推理薄弱(GPSBench、EarthSpatialBench)。citeturn3search6turn4search0 +4) **多模态与变化缺口**:遥感时序/变化检测/计数等地学难题需要专门基准(GEOBench‑VLM)。citeturn3search0 + +代表性工作(完整信息) +- GeoAnalystBench:arXiv:2509.05881。citeturn0search3 +- GPSBench:arXiv:2602.16105。citeturn3search6 +- EarthSpatialBench:arXiv:2602.15918。citeturn4search0 +- GEOBench‑VLM:arXiv:2411.19325。citeturn3search0 +- CityBench:arXiv:2406.13945。citeturn4search2 +- MapEval:arXiv:2501.00316。citeturn0search1 + +扩展文献列表 +- MapVerse:arXiv:2602.10518(真实地图问答、覆盖多类地图)。citeturn0search2 +- POI‑QA:arXiv:2505.10928(双语、时空敏感POI推理)。citeturn0search0 + +写作建议句式 +- “LLM适配研究的关键不在于‘是否能答对’,而在于‘是否能稳定遵守时空结构约束并给出可执行产物’;因此评测应同时覆盖结构一致性、工具可执行性与跨源泛化三类指标。”citeturn0search3turn3search6turn4search2 + +盲审风险点 +- 风险:提出需求但没有对标现有工作。 +- 建议:每条需求都给至少一个公开benchmark作为“社区共识证据”,避免显得主观。 + +## 参考文献池(去重后建议≥120条;本稿已覆盖并显式包含大量中文文献入口) + +说明: +- “代表性工作”部分已在各小节列出关键条目(约40条左右),均给出arXiv/DOI/ISBN或官方页线索。 +- 下面补充“扩展文献池”用于堆量(建议你后续在写作中按2.1–2.4分别挑选填充;对未检索到DOI/链接者按要求标注“未检索到”即可)。 +- 为满足“中文≥30条”的要求,以下扩展池中单列“中文文献与报告/教材”条目(包含教材、综述、白皮书、期刊文章入口页等)。 + +### 扩展英文文献池(示例条目,建议写作时按需要补齐DOI/链接) + +(A)时空统计/空间统计/时空数据挖掘综述 +- Spatio‑temporal data mining in the era of big spatial data: algorithms and applications(Cheng et al., 2012,见综述聚合页)。citeturn8search2 +- A survey on spatio‑temporal data mining(Vasavi et al., 2023,Big Data Research)。citeturn8search2 +- A Survey on Spatio‑Temporal Big Data Analytics Ecosystem(Liang et al., 2024,IEEE TBD)。citeturn8search20 + +(B)STGNN/交通预测脉络 +- Graph neural network for traffic forecasting: A survey(Jiang, 2022)。citeturn1search7 +- Survey on STGNN in traffic prediction(中文,2026)。citeturn6search3 + +(C)时序Transformer与时间序列基础模型 +- Informer(arXiv:2012.07436)。citeturn7search2 +- Autoformer(arXiv:2106.13008)。citeturn7search3 +- Foundation Models for Time Series Analysis(arXiv:2403.14735)。citeturn1search0 +- Survey of TS foundation models(arXiv:2405.02358)。citeturn1search4 +- Chronos(arXiv:2403.07815)。citeturn1search1 +- TimesFM repo(官方实现)。citeturn1search18 + +(D)PEFT与适配 +- PEFT Guide(arXiv:2303.15647)。citeturn2search0 +- LoRA(arXiv:2106.09685)。citeturn2search1 +- QLoRA(arXiv:2305.14314)。citeturn2search2 + +(E)GeoAI/LLM评测、地图推理、GIS工作流 +- GeoFM观点文章(Janowicz, 2025)。citeturn0search16 +- GeoLLM(arXiv:2310.06213;ICLR 2024)。citeturn4search1turn4search5 +- MapEval(arXiv:2501.00316)。citeturn0search1 +- MapVerse(arXiv:2602.10518)。citeturn0search2 +- MapBench(arXiv:2503.14607)。citeturn0search10 +- GeoAnalystBench(arXiv:2509.05881)。citeturn0search3 +- GEOBench‑VLM(arXiv:2411.19325)。citeturn3search0 +- EarthSpatialBench(arXiv:2602.15918)。citeturn4search0 +- GPSBench(arXiv:2602.16105)。citeturn3search6 +- CityBench(arXiv:2406.13945)。citeturn4search2 +- OpenCity(arXiv:2410.21286)。citeturn4search3 + +### 中文文献与报告/教材池(≥30条入口,含教材/综述/期刊/白皮书;DOI/ISBN/链接按可得性标注) + +1) 龚健雅 等. 2019. **地理信息系统基础(第2版)**. 科学出版社. ISBN:9787030636416。citeturn5search1 +2) 李德仁. 2019. **空间数据挖掘理论与应用(第3版)**. 科学出版社. ISBN:9787030599995。citeturn5search0 +3) 自然资源时空大数据挖掘与知识服务研究进展. 2025. DOI:10.12082/dqxxkx.2025.240625。citeturn5search3 +4) (地球信息科学学报专题/文章入口)Research Advances and Development Trends of Deep …(地球信息科学学报英文页,DOI:10.12082/dqxxkx.2025.250052)。citeturn6search1 +5) 汤俊卿, 安梦琪, 赵鹏军, 等. 2025. **时空大数据在交通系统韧性研究中的应用回顾与展望**. 地球信息科学学报.(PDF页,卷期信息见PDF;DOI建议补齐)。citeturn5search7 +6) 牛凤桂 等. 2024. **大数据时代的地球科学知识图谱研究现状与展望**. DOI:10.11939/jass.20230157。citeturn5search10 +7) 孟瑜 等. 2024. **知识与数据驱动的遥感图像智能解译:进展与展望**.(PDF页;DOI写作时建议补齐)。citeturn5search18 +8) 朱庆, 傅晓. 2017. **多模态时空大数据可视分析方法综述**.(HTML页;DOI建议补齐)。citeturn6search4 +9) 贾兴利, 曲远海, 朱浩然, 等. 2026. **交通预测中的时空图神经网络研究综述:从模型解构到发展路径**. DOI:10.19818/j.cnki.1671-1637.2026.01.003。citeturn6search3 +10) (专题入口)地理大数据与空间智能(地球信息科学学报专题集合页,可作为批量中文引用入口)。citeturn6search5 +11) 2024. **中国空间数据智能战略发展白皮书**(PDF)。citeturn5search14 +12) 马世龙, 李小平. 2016. **大数据与深度学习综述**.(HTML页;DOI未检索到)。citeturn6search2 +13) 王劲峰 等相关“地理时空大数据协同计算技术”入口页(含引用链,可进一步扩展中文参考文献)。citeturn6search9 + +(以下为“中文教材/行业教材/课程资源入口”,适合用于补齐“中文经典文献”数量;若需严格学术来源,可在写作阶段替换为正式出版物/期刊论文) +14) 《ArcGIS 10 地理信息系统教程——从初学到精通》(测绘出版社/中国地图出版社系统页;ISBN以页面为准)。citeturn5search2 +15) ArcGIS制图和空间分析基础实验教程(测绘出版社条目页)。citeturn5search13 +16) “地理信息系统原理”教材条目页(出版社页面;ISBN/作者见页面)。citeturn6search6 +17) ditu.cn课件下载入口(测绘地理信息教材课件清单,可作为中文教学资源引用入口)。citeturn5search17 + +> 注:为避免“引用质量”被质疑,建议你在最终论文参考文献中,把上述“课程资源/下载页”尽量替换为对应教材的正式出版信息(ISBN/出版社/版次),或对应期刊论文的正式条目。 + +--- + +**最后的写作落脚建议(第二章章末小结可直接用)** +- “本章从时空数据的任务谱系与统计建模传统出发,梳理了深度时空表征学习与基础模型的关键机制,并进一步总结了参数高效适配、多任务路由、多尺度频谱建模与评测基础设施的发展现状。由此可以看到,时空数据的结构异质性要求适配机制从‘均匀微调’走向‘结构角色条件化的非均匀调制’,这为后续章节提出的统一适配框架与评测闭环奠定了理论与文献基础。”citeturn8search0turn2search0turn4search2turn0search3 \ No newline at end of file diff --git a/fulltemp.tex b/fulltemp.tex new file mode 100644 index 0000000..3bcd629 --- /dev/null +++ b/fulltemp.tex @@ -0,0 +1,2856 @@ +原标题:时空数据的表征学习建模方法研究 +% 第一章 绪论 +\chapter{绪论} +\label{chap:introduction} + +\section{研究背景与意义} +\label{sec:background} + +\subsection{城市时空智能建模的发展背景与关键挑战} +\label{subsec:background_challenges} +\subsubsection{城市复杂系统演化与时空数据驱动需求} + +随着全球城镇化进程的持续推进,城市正在由以静态基础设施为核心的空间载体,逐步演化为由人口活动、交通运行、产业组织、资源配置与公共服务等多类过程共同耦合的复杂动态系统\cite{}。在这一系统中,不同要素之间存在持续的相互作用与反馈关系:人口流动影响交通负载与服务需求,土地利用与功能布局塑造出行模式与商业活力,公共事件与环境变化又进一步改变城市运行状态。由此,城市运行呈现出显著的动态性、开放性与多主体协同特征,其演化过程难以通过单一规则或局部观测加以充分刻画。 + +\begin{figure}[!h] + \centering + \caption{占位图片} +\end{figure} + + +与此同时,移动互联网、物联网、车联网、卫星遥感以及城市感知基础设施的快速发展,使得城市运行过程能够以更加连续、细粒度与多模态的方式被记录与表征。交通传感器、移动终端定位数据、轨迹数据、遥感影像、兴趣点信息以及环境监测数据等,持续刻画城市中人、车、路、地及各类服务设施的时空活动状态\cite{}。这些数据在空间上覆盖从路段、区域到城市全域的多层级结构,在时间上涵盖实时感知、短期波动与长期演化等多尺度过程,从而为理解城市运行机理、识别潜在规律以及支撑智能决策提供了重要基础。 + + +大规模观测数据的持续积累,使研究者能够在更细粒度层面刻画交通拥堵传播、人口迁移演化、功能区活动强度变化以及公共服务供需波动等复杂城市现象;与此同时,城市智能任务也逐步由传统的统计分析扩展至状态预测、行为推断、空间语义理解、过程模拟与决策支持等更具综合性的建模问题\cite{}。在这一过程中,城市智能研究的核心关注点正由"数据获取能力"转向"如何从复杂时空数据中学习具有泛化性与可迁移性的有效表示"。 + +然而,数据规模的扩张并不必然带来建模能力的同步提升。随着观测来源、空间尺度与任务类型的不断增加,城市系统所呈现的高维非线性关系、多主体交互过程以及跨时间尺度演化特征,使得传统依赖经验规则或低维统计假设的建模方法难以充分刻画其内在结构规律\cite{}。因此,面向复杂城市系统的发展需求,研究能够从大规模时空观测数据中提取关键结构信息并支撑多类城市智能任务的表征学习方法,已成为当前时空智能建模的重要科学问题。 + +\subsubsection{复杂时空任务的多维特征与建模挑战} + +在上述数据与应用背景下,城市智能研究正由针对单一现象的建模,逐步发展为面向多类型任务的综合分析与决策问题。典型的城市时空任务通常同时涉及状态预测、行为分析、空间语义理解以及过程推理等多种目标形式,其任务定义、输入信息与输出需求在同一系统中交织,使得建模问题呈现出显著的多维特征。在这一背景下,不同任务之间既共享部分基础结构信息,又在建模目标与决策侧重点上存在差异,这种“共享—差异”并存的关系对统一建模提出了更高要求。 + +进一步地,城市时空过程在空间与时间维度上表现出显著的结构复杂性。不同区域在功能属性、交通拓扑及人口分布等方面存在差异,使得城市活动具有明显的位置依赖与非均匀性特征;同时,城市运行过程往往叠加多尺度动态模式,例如日周期与周周期所体现的稳定规律,以及突发事件引发的短时扰动。空间结构与时间演化之间的耦合作用,使得城市系统呈现出复杂的时空交互机制。此外,多源观测数据在采样频率、语义粒度与噪声分布等方面存在差异,进一步增加了统一建模的难度 \cite{}。 + +从表征学习的视角来看,上述多维特征不仅体现为数据与任务层面的复杂性,更对模型内部表示提出了更高要求。模型需要在统一的表示空间中同时刻画跨任务与跨区域的共享规律,并对局部结构差异、多尺度动态变化及语义异构性保持足够敏感。这意味着,在同一模型中,不同层级与不同子结构往往需要承担差异化的表征功能。如何在统一建模框架下协调这些差异化需求,使模型能够兼顾共享性与结构敏感性,构成了复杂时空任务建模的核心挑战之一。 + +\subsubsection{时空数据表征学习范式的发展} + +随着城市时空系统建模复杂度的不断提升,传统依赖显式规则与统计假设的方法逐渐难以刻画高维动态过程。在此背景下,表征学习(Representation Learning)逐步成为时空数据建模的核心范式。相较于依赖人工特征设计的方法,其通过数据驱动方式构建隐式表示空间,使模型能够在较少先验约束的条件下刻画复杂的非线性时空关系,从而提升对真实城市运行过程的建模能力\cite{}。深度学习方法的发展进一步推动了这一转变,通过卷积结构、序列建模机制与图结构建模等方式,使模型能够在端到端框架下学习潜在时空表示,并在交通预测、人口流动分析等任务中取得良好效果\cite{}。 + +尽管上述方法在特定任务上表现出较强能力,其学习到的表示仍普遍与具体任务目标紧密耦合,缺乏跨任务与跨场景的通用性。在城市时空智能逐步向多任务协同与综合决策支持演进的背景下,这种“任务特定表征”范式逐渐暴露出局限:模型难以在不同任务之间共享知识,重复训练成本较高,且在面对新任务或新场景时泛化能力有限。这一问题在结构复杂且任务耦合紧密的城市系统中尤为突出。 + +围绕上述问题,时空表征学习逐步由面向单一任务的特征建模,转向构建具有更强迁移性与泛化能力的通用表示(general-purpose representation)。该方向强调在统一表示空间中刻画跨任务、跨区域及跨时间尺度的共享结构规律,使模型能够在不同任务之间实现知识复用与能力迁移。整体来看,时空表征学习呈现出由显式建模向隐式表示、由任务特定表示向通用表示的演进趋势。然而,如何在实际建模过程中有效学习并利用这种通用表示,使其适应多类型时空任务的需求,仍是当前研究中的关键问题。 + +\subsubsection{大语言模型推动时空智能建模范式转变} + +随着时空表征学习逐步由任务特定建模向通用表示建模演进,以大语言模型为代表的基础模型(foundation models)为复杂城市系统的统一建模提供了新的技术路径。通过大规模数据预训练,大语言模型在统一的序列建模框架下构建共享表示空间,使模型能够在不同任务之间共享知识并实现跨场景泛化\cite{}。相较于针对单一任务独立建模的传统方式,该范式为在同一模型中整合多源信息与多类型任务需求提供了可能。 + +从建模能力上看,大语言模型在长程依赖建模与多步推理方面所表现出的能力,使其在处理跨区域关联与跨时间尺度动态关系时具有潜在优势。已有研究开始探索将基础模型引入城市时空任务,例如通过序列化方式刻画轨迹演化过程,或利用统一表示空间支持空间语义理解与跨任务推理\cite{}。这些初步工作表明,基础模型为时空智能建模提供了一种兼具表达能力与统一性的建模范式。 + +然而,大语言模型所具备的通用表示能力并不意味着其能够直接适配复杂城市时空任务。城市时空数据的多维特征要求模型在统一表示空间中同时刻画共享规律与结构差异,而大语言模型的预训练过程主要基于通用语料,其内部表示结构与时空建模需求之间仍存在一定差异。因此,如何在保持预训练通用能力的基础上,使模型内部表示与时空数据的结构特征相协调,成为将基础模型引入时空智能建模的关键问题。 +\subsubsection{面向时空建模的模型适配问题与挑战} + +如前所述,大语言模型通过大规模预训练所构建的通用表示能力,为复杂时空任务的统一建模提供了新的技术路径。然而,预训练阶段获得的通用能力并不等同于对具体时空任务的有效建模能力。在实际应用中,模型仍需在保持已有知识结构的前提下,对特定任务的输入模式与输出需求形成针对性的适配。因此,如何设计有效的模型适配机制,使其能够在复杂时空场景中发挥作用,成为基础模型应用中的关键问题。 + +现有适配方法通常采用统一的参数更新或表示调制策略,在模型不同层级与子结构上施加形式一致的调整。这类方法隐含假设模型内部各组成部分在适配过程中的作用是近似一致的。然而,从模型表示机制来看,不同模块、不同表示维度及不同参数子空间在信息建模中往往承担差异化功能。本文将这种现象概括为\emph{模型内部的结构角色差异}。 + +在时空建模场景中,这一问题更加突出。城市时空任务要求模型在统一表示空间中同时刻画跨任务共享规律、多尺度动态变化及局部结构差异,这意味着模型内部不同层级与子结构需要承担不同的表征职责。如果适配机制无法感知这种结构角色差异,而仍采用均匀调整方式,则难以在有限的适配能力下实现对关键表示的有效调控,从而影响模型在复杂场景中的泛化能力与稳定性。 + +因此,面向时空建模的模型适配问题,其核心在于如何使适配过程与模型内部结构相协调,即在统一模型框架下刻画并利用结构角色差异,从而实现对复杂时空任务的有效适配。围绕这一问题,第~\ref{sec:unified_framework}~节将从不同结构层级出发,对模型表示调制机制进行系统分析与方法设计。 +\newpage +\subsection{理论意义、方法体系与应用价值} +\label{subsec:significance} + +面向复杂城市时空数据的表征学习与模型适配问题开展系统研究,在理论理解、方法体系构建与工程实践支撑三个层面均具有重要意义。 + +{\heiti \underline{理论意义}}: +从理论层面看,城市运行过程本质上体现为多维度、多层级结构信息的动态耦合与演化过程。不同空间区域、不同时间尺度以及不同功能任务之间存在复杂的交互关系,使得有效建模不仅需要刻画整体运行规律,还需反映局部结构差异与动态变化特征。因此,如何在统一表示框架下刻画复杂时空系统中的多维结构信息,构成了时空表征学习中的核心问题。 + +随着表征学习方法的发展,模型通过隐式表示空间刻画复杂系统行为已成为主流路径。然而,现有研究多从任务建模或参数优化角度展开,对于模型内部表示如何在复杂任务中分工协作,缺乏系统性认识。特别是在多任务耦合与多尺度动态并存的时空场景中,模型需要在统一表示空间中同时刻画共享规律与结构差异,这对表示结构的组织方式提出了更高要求。 + +进一步地,从模型表示机制出发,可以观察到大模型在不同模块、不同表示维度及不同参数子空间中往往形成差异化的功能分工。例如,自注意力结构侧重上下文依赖建模,前馈网络承担知识表达功能,位置编码在不同维度上引入异质的结构特征。这种模型内部的结构角色差异,为理解复杂时空表征能力的形成机制提供了重要线索。 + +基于上述认识,本文从结构角色差异的视角出发,系统分析模型内部不同层级结构在复杂时空任务中的功能贡献,并建立时空数据多维特征与模型表示调制机制之间的联系。该研究有助于深化对“预训练表征如何通过适配形成任务特定能力”的理解,为复杂时空系统表征能力的形成机制提供新的理论视角。 + +\begin{figure}[!h] + \caption{占位图片\\第二行题注} +\end{figure} + +{\heiti \underline{方法体系意义}}: +现有模型适配方法多从单一层级或局部机制出发进行设计,不同方法之间缺乏统一的结构建模视角与内在关联。这些方法通常分别关注表示调制、参数选择或更新结构等不同方面,虽在各自场景中表现出有效性,但由于缺乏统一理论框架,难以系统解释其作用机制及相互关系。 + +针对上述问题,本文围绕模型内部结构角色差异,构建了一个从模块、维度到参数级逐层递进的表征适配方法体系。在该体系中,不同层级的适配方法共享统一的结构感知建模思想,即根据模型内部不同子结构在建模中的功能角色,对表示流或参数更新施加差异化的非均匀调制。在统一形式化框架下,这些方法可归纳为乘性调制、组合式调制与结构分解调制等不同实现形式,从而在理论上实现了不同适配策略的统一刻画。 + +这种具有内在逻辑一致性的分层方法体系,不仅能够更精细地刻画复杂时空任务中的多维结构特征,也使不同层级的模型改进能够在统一视角下得到解释与整合,为跨任务与跨场景的表示迁移提供了系统化的方法基础。 + +{\heiti \underline{应用与工程价值}}: +从工程实践角度看,城市智能系统正逐步由面向单一任务的优化问题,发展为面向多任务协同与综合决策支持的复杂系统,对建模方法的可扩展性、稳定性及持续评估能力提出了更高要求。在这一背景下,如何在有限计算资源条件下高效适配大语言模型,并在接近真实应用环境的条件下系统评估其性能,成为时空智能研究中的重要问题。 + +本文提出的结构感知适配方法通过在模型内部关键结构上进行有针对性的调制,在保持预训练模型主体参数不变的前提下,实现对复杂时空任务的有效适配,从而降低了大模型在城市智能场景中的应用门槛。同时,围绕复杂时空任务的验证需求,构建了面向多任务与多阶段评估的实验基础设施,通过统一的任务组织方式与评估流程,使模型性能能够在更接近实际应用环境的条件下得到系统检验。 + +此外,针对时空推理与决策类任务的评测需求,构建相应的数据资源与实验基准,有助于弥补现有城市计算研究在复杂任务评估方面的不足,使模型不仅能够进行状态预测,还能够支持更高层次的语义理解与决策分析。上述方法体系与评测环境的结合,有助于形成从模型设计到系统验证的完整研究闭环,为时空智能建模技术向工程实践的转化提供重要支撑。 + +总体而言,从理论分析到方法体系构建,再到工程评测与应用支撑,围绕复杂时空表征学习与模型适配问题的系统研究,有助于推动时空智能建模方法向更高表达能力与更强泛化能力的发展,为构建高效、可持续的城市智能系统提供重要技术基础。 +% \newpage + +\section{时空表征学习研究现状与关键问题分析} +\label{sec:research_status} +\subsection{时空数据建模与表征学习研究现状} +\label{subsec:status_st_modeling} + +城市时空建模方法经历了由显式数学建模向数据驱动表征学习的范式演进。早期研究主要基于时间序列分析与空间统计方法,通过构建带有先验假设的数学模型对交通流、人口分布及环境变化等过程进行刻画\cite{}。此类方法在系统结构相对稳定或数据规模有限的场景中具有一定适用性,但其表达能力依赖于模型假设与特征设计,难以刻画复杂城市系统中普遍存在的非线性与动态耦合关系。 + +随着深度学习技术的发展,研究者逐步引入循环神经网络、卷积神经网络及图神经网络等模型,通过端到端学习方式提取潜在时空表示,在交通预测、出行行为建模及城市功能区分析等任务中取得了显著进展\cite{}。特别是结合图结构建模与注意力机制的方法,能够在一定程度上刻画空间拓扑依赖与长程时间关联,为复杂城市系统建模提供了更为灵活的技术路径\cite{}。 + +然而,从城市智能建模的整体需求来看,现有方法仍存在两方面局限。其一,模型通常围绕特定任务进行设计,所学习的表示与任务目标紧密耦合,缺乏跨任务与跨场景的通用性。在多任务协同建模环境中,这种“任务特定表征”范式导致知识难以共享,模型在面对新任务时泛化能力有限。其二,城市时空数据普遍具有多尺度动态模式、空间非均匀性及多源语义差异等结构特征,而基于单一结构假设的模型设计难以在统一表示空间中同时刻画这些复杂属性。 + +因此,如何构建能够刻画多维结构特征、并具备跨任务迁移能力的通用时空表征学习方法,已成为该领域的重要研究方向。 + +\subsection{模型适配与结构感知建模研究现状} +\label{subsec:status_peft} + +随着基础模型的发展,通过大规模预训练获取通用表示,并在下游任务中进行适配优化,逐渐成为复杂系统建模的重要范式\cite{}。参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法通过仅更新少量参数实现模型适配,在降低计算成本的同时保持了较好的性能表现。典型方法包括低秩适配(LoRA)\cite{hu2021lora}、适配器插入\cite{houlsby2019parameter}以及前缀调制\cite{li2021prefix}等。 + +从时空建模需求出发审视上述方法,可以发现其核心策略通常在模型不同层级与子结构上施加形式一致的参数更新或表示调制,隐含假设模型内部各组成部分在适配过程中具有相似作用。然而,已有研究表明,模型内部不同结构单元在信息建模中往往承担差异化功能。例如,自注意力模块侧重上下文依赖的动态整合,前馈网络主要承担知识表达功能\cite{geva2021transformer};位置编码在不同维度上引入具有频率结构的表示偏置,使得表示在维度空间中呈现系统性的功能差异\cite{su2024roformer};参数更新在频谱空间中亦表现出全局与局部结构并存的特性。 + +在多任务学习方面,动态路由机制与混合专家结构被用于缓解任务间干扰并提升模型容量利用效率\cite{}。然而,现有方法多从任务权重分配或参数更新策略角度进行设计,对于模型内部不同表示层级在复杂任务中的功能分工缺乏系统性刻画。在多任务耦合且结构复杂的时空场景中,均匀适配策略难以同时兼顾预训练知识的保持与任务特定能力的获取。 + +因此,如何从模型内部结构出发,刻画不同层级与子结构在表征学习中的功能角色,并据此设计具有结构感知能力的适配机制,成为当前模型适配研究中的关键问题。 + +\subsection{时空智能数据与评测体系研究现状} +\label{subsec:status_benchmark} + +模型能力的有效评估依赖于系统化的数据资源与标准化的实验基准。在数据集方面,城市计算研究已构建了大量面向交通预测、轨迹分析及空间分布建模的公开数据资源,例如METR-LA、PEMS-BAY以及GeoLife等\cite{}。这些数据集通常围绕特定预测目标构建,能够在单一任务场景中较好地反映模型性能。 + +然而,随着城市智能应用逐步向推理与决策支持任务拓展,现有数据集在任务复杂度与评测维度方面的局限逐渐显现。一方面,传统数据资源主要侧重短期动态建模,对于跨时间尺度的逻辑推理与复杂情境理解支持不足;另一方面,现有问答类数据集在空间与时间信息的结合方面仍较为有限,难以系统评估模型对时空关系的理解与推理能力\cite{}。 + +在评测体系方面,已有工作提出了若干面向时空预测任务的统一评测框架,如LibCity、DL-Traff及TorchSpatial等\cite{},通过规范化数据处理流程与评价指标实现模型间的公平比较。然而,这类框架普遍依赖人工维护,在可扩展性与持续性方面存在不足,难以跟进快速增长的研究工作;同时,不同框架之间在评估设置上的差异,也影响了实验结果的可比性与可复现性。 + +此外,城市时空任务在实际应用中往往具有持续演化与多阶段决策特征,仅依赖静态离线数据难以全面反映模型在动态环境中的表现。因此,构建能够支持复杂任务、多阶段验证及持续更新的评测基础设施,已成为推动时空智能研究向实际应用转化的重要方向。 +\subsection{现有研究的主要挑战总结} + +综合前述分析可以看出,尽管现有研究在时空数据建模、模型适配及评测体系等方面取得了一定进展,但在面向复杂城市时空智能任务的统一建模过程中,仍存在若干关键问题有待进一步解决,主要体现在以下三个方面。 + +(1)\textbf{模型内部结构角色差异的刻画不足。} +复杂时空数据要求模型在统一表示空间中同时刻画多任务共享规律、位置依赖关系及多尺度动态变化。然而,现有方法多采用形式一致的建模或适配策略,隐含假设模型各层级与子结构作用相近,缺乏对不同模块、不同表示维度及不同参数子空间功能角色差异的刻画。这种均匀建模方式难以针对关键结构进行有效调控,从而限制了模型对复杂时空模式的表达能力\cite{}。 + +(2)\textbf{多任务场景下结构角色协同与容量分配机制不足。} +在多任务时空建模中,不同任务之间既存在共享结构规律,又在表示需求上存在差异,对模型内部结构的协同与资源分配提出了更高要求。现有方法多从参数更新或任务权重角度进行设计,缺乏对不同结构单元功能分工的系统建模。在有限参数预算下,如何实现共享能力与任务特定能力的有效平衡仍有待进一步研究\cite{}。 + +(3)\textbf{面向复杂时空任务的评测基础设施尚不完善。} +现有研究主要依赖静态离线数据集进行验证,其评测目标多集中于单一任务或短期预测指标,难以全面反映模型在复杂城市环境中的综合表现。在数据资源方面,现有时空数据集主要面向状态预测任务构建,缺乏同时包含空间位置与时间上下文、且对时空条件敏感的评测资源,难以系统评估模型的时空推理与情境理解能力。在评测平台方面,现有框架普遍依赖人工维护,在模型收录的可扩展性与评估流程的持续更新能力方面存在不足,难以支撑多任务、多阶段的系统化评估需求\cite{}。 + + +综上,复杂时空数据所引入的结构异质性不仅体现在数据与任务层面,也体现在模型内部结构角色的功能分化上。如何在统一框架下刻画并利用这种结构角色差异,设计结构感知的适配机制,并构建支撑复杂任务验证的评测体系,构成了本文的核心研究问题。围绕上述问题,第~\ref{sec:unified_framework}~节将进一步提出面向时空数据的结构感知适配统一分析框架。 + +\section{面向时空数据的结构感知适配统一分析框架} +\label{sec:unified_framework} + +前述分析表明,城市时空数据在空间结构、时间演化及任务目标等方面均呈现出显著的异质性特征。这种异质性不仅体现在数据分布与任务定义层面,也进一步体现在模型表征过程中:不同类型的时空结构信息往往需要在模型内部由不同层级与不同子结构进行刻画。 + +在此背景下,若在模型适配过程中对所有表示与参数施加形式一致的调整,则难以兼顾多任务共享规律与局部结构差异,容易导致关键结构信息表达不足。因此,从时空建模需求出发,模型适配过程需要具备\emph{结构敏感性},即能够根据不同结构特征,对模型内部表示进行差异化调控。 + +为进一步刻画这一过程,可以从模型前向计算的角度进行理解。对于输入样本 $\mathbf{X}$,模型在逐层计算过程中会产生一系列中间表示,并通过这些表示在不同层级之间逐步传递与变换。该过程可视为一种\emph{表示流}(representation flow),即信息在模型内部随层级推进而不断演化的动态过程。 + +从表示学习的角度来看,结构敏感性可以统一理解为:在上述表示流的传播过程中,对中间表示施加依赖于输入与结构特征的非均匀变换。基于这一认识,本文将模型适配过程抽象为对表示流的\emph{结构感知调制},并在此基础上构建统一分析框架,以刻画后续各章方法的核心机制。 + +\subsection{结构感知调制的统一形式化} +\label{subsec:unified_formulation} + +在上述直觉基础上,考虑预训练模型在适配过程中的表示变换形式。设预训练模型参数为 $\Theta_0$,适配参数为 $\Theta_a$。对于第 $\ell$ 层,给定输入时空样本 $\mathbf{X}$,该层产生的中间表示记为 $\mathbf{Z}^{(\ell)}$(例如注意力输出或前馈网络输出),其构成了表示流在该层的状态。 + +结构感知调制的统一形式可表示为: +\begin{equation} +\tilde{\mathbf{Z}}^{(\ell)} += +\mathcal{M}_{\theta} +\Big( +\mathbf{Z}^{(\ell)};\, +\mathbf{X},\, +\mathcal{R} +\Big), +\label{eq:ch1_unified_M} +\end{equation} +其中,$\mathcal{M}_{\theta}(\cdot)$ 为结构感知调制算子,$\tilde{\mathbf{Z}}^{(\ell)}$ 为调制后的表示,$\mathcal{R}$ 为结构角色描述符,用于刻画由时空数据结构特性所诱导的模型内部结构异质性类型,例如模块级、维度级及参数级等不同层级的结构差异。 + +该形式化表达了一个基本观点:模型适配的关键不在于对参数进行全面更新,而在于根据时空结构特征,对表示流中不同组成部分施加有针对性的调制。通过引入结构角色描述符 $\mathcal{R}$,可以在统一框架下区分不同类型的结构异质性,并据此设计差异化的调制策略。 + +\subsection{三种调制形式} +\label{subsec:modulation_forms} + +在上述统一形式下,不同适配方法的差异主要体现在调制算子的具体实现方式上。根据调制机制与建模需求的不同,本文将结构感知调制归纳为三类基本形式。 + +\textbf{乘性调制}适用于刻画表示流中不同成分的重要性差异。在多任务与多结构并存的场景下,不同表示维度或通道对任务目标的贡献程度存在差异,因而需要通过门控机制进行选择性增强或抑制。其形式为: +\begin{equation} +\mathcal{M}_{\theta}(\mathbf{Z};\mathbf{X},\mathcal{R}) += +\mathbf{Z} \odot \mathbf{S}_{\theta}(\mathbf{X},\mathcal{R}), +\label{eq:ch1_multiplicative} +\end{equation} +其中 $\mathbf{S}_{\theta}(\cdot)$ 为条件化调制信号。第三章的 HyCAM 方法以及第四章的 RoSA、DyPAM 方法均属于此类形式。 + +\textbf{组合式调制}适用于刻画多尺度结构特征。在城市时空数据中,不同时间尺度与空间尺度上的模式往往对应不同频率成分,需要在统一框架下进行分解与重组。其形式为: +\begin{equation} +\mathcal{M}_{\theta}(\mathbf{Z};\mathbf{X},\mathcal{R}) += +\bigoplus_{s=1}^{S} +\mathbf{Z}_{s} \cdot g_{\theta,s}(\mathbf{X},\mathcal{R}), +\label{eq:ch1_compositional} +\end{equation} +其中 $\mathbf{Z}_s$ 表示第 $s$ 个频段的表示分量。第五章的 CASCADE 方法采用此类形式。 + +\textbf{结构分解调制}适用于刻画多任务场景下的共享与专用结构。在有限参数预算下,不同任务对模型容量的需求存在差异,需要在共享表示与任务特有表示之间进行分配。其形式为: +\begin{equation} +\mathcal{M}_{\theta}(\mathbf{Z};\mathbf{X},\mathcal{R}) += +\mathbf{Z} \cdot \left(\Delta\Theta_{shared} + \mathbf{m} \odot \Delta\Theta_{specific}\right), +\label{eq:ch1_structural} +\end{equation} +其中 $\Delta\Theta_{shared}$ 与 $\Delta\Theta_{specific}$ 分别对应共享与专用参数增量。第五章的 MESSA 方法采用此类形式。 + +\begin{table}[h] + \centering + \caption{本文方法体系与结构异质性的对应关系。} + \label{tab:ch1_method_overview} + \resizebox{0.95\linewidth}{!}{ + \begin{tabular}{llllc} + \toprule + 结构异质性类型 & 结构角色描述符 & 调制形式 & 对应方法 & 章节 \\ + \midrule + 模块级功能异质性 & $\mathcal{R}_{mod}$ & 乘性调制 & HyCAM & 第三章 \\ + 维度级位置结构异质性 & $\mathcal{R}_{dim}$ & 乘性调制 & RoSA, DyPAM & 第四章 \\ + 频谱级多尺度异质性 & $\mathcal{R}_{spec}$ & 组合式调制 & CASCADE & 第五章 \\ + 参数级容量分配异质性 & $\mathcal{R}_{param}$ & 结构分解调制 & MESSA & 第五章 \\ + \bottomrule + \end{tabular} + } +\end{table} +\subsection{结构异质性类型与本文方法体系} +\label{subsec:method_system} + +基于上述统一框架,本文从时空数据的结构特性出发,将模型适配过程中涉及的结构异质性划分为四类,并构建了相应的方法体系,如表~\ref{tab:ch1_method_overview} 所示。 + +第三章从模块级功能差异出发,研究多任务场景下的表示调制问题;第四章进一步从表示维度层面分析位置结构所引入的异质性;第五章则从参数空间角度,分别从多尺度结构与容量分配两个方面对适配机制进行扩展。尽管各方法关注的结构层级不同,但在本节提出的统一框架下,均可理解为对表示流施加结构感知调制的不同实例化,从而形成由粗到细、由表示空间到参数空间的递进式建模路径。 + +\section{研究内容与技术路线} +\label{sec:research_content} + +\subsection{主要研究内容} +\label{subsec:research_content_detail} + +针对上述挑战,本文以城市时空数据的结构特性为导向,在第~\ref{sec:unified_framework}~节建立的统一分析框架下,系统研究面向时空智能任务的大语言模型结构感知适配方法,并构建相应的评测基础设施,以形成方法设计与系统验证相结合的研究闭环。 + +总体而言,本文围绕模型内部结构角色差异,从不同层级展开研究,主要包括以下四个方面: + +(1)针对多任务时空建模中不同模块承担差异化功能的问题,研究模块级结构异质性($\mathcal{R}_{mod}$),构建基于乘性调制的表示适配方法; + +(2)针对位置编码引入的维度级结构差异问题,研究维度级结构异质性($\mathcal{R}_{dim}$),构建面向位置结构的细粒度调制机制; + +(3)针对参数更新过程中的多尺度结构与容量分配问题,研究频谱级与参数级结构异质性($\mathcal{R}_{spec}, \mathcal{R}_{param}$),构建组合式与结构分解调制方法; + +(4)针对复杂时空任务缺乏统一评测环境的问题,构建面向多任务与多阶段验证的评测数据与实验基础设施。 + +在上述总体框架下,本文的具体研究内容如下。 + +\textbf{研究内容一:基于模块功能角色感知的多任务时空表征适配方法(第三章)} + +针对城市多任务时空建模中Transformer不同功能模块承担差异化角色的问题,本文从模块级结构异质性($\mathcal{R}_{mod}$)出发,研究基于乘性调制的表示适配机制,并提出混合上下文注意力调制方法(Hybrid Contextual Attention Modulation, HyCAM)。 + +该方法基于如下认识:自注意力模块主要负责上下文依赖关系的动态建模,而前馈网络更多承担参数化知识表达功能,因此在适配过程中应优先对注意力表示进行定向调制,而非对所有模块施加均匀更新。基于此,本文构建上下文注意力调制(Contextual Attention Modulation, CAM)模块,通过通道级门控机制对自注意力输出进行输入条件化的乘性调制,以实现对关键表示成分的选择性增强或抑制。 + +在此基础上,进一步设计"共享CAM—专用CAM—动态路由"的混合结构,其中共享模块用于建模跨任务的通用调制模式,专用模块用于刻画任务特定结构,动态路由机制根据输入上下文自适应地融合两类调制信号,从而在统一模型中实现知识共享与任务特化之间的平衡。 + +\textbf{研究内容二:基于位置结构感知的维度级时空表征适配方法(第四章)} + +针对位置编码在表示维度上引入的结构差异问题,本文从维度级结构异质性($\mathcal{R}_{dim}$)出发,研究面向位置结构的细粒度表示调制方法。 + +以旋转位置编码(RoPE)为例,其频率结构使不同维度承担不同的位置信息表达功能,从而导致注意力表示在维度空间中呈现显著的非均匀性。现有适配方法通常忽略这种结构差异,对所有维度施加同质化更新,难以充分利用位置结构信息。 + +为此,本文提出两类递进式方法。首先,提出RoPE感知的选择性适配方法(RoPE-aware Selective Adaptation, RoSA),通过构建RoPE感知注意力增强模块(RoAE)对关键维度进行定向增强,并结合动态层选择策略实现跨层级的资源分配。进一步地,提出动态位置注意力调制方法(Dynamic Positional Attention Modulation, DyPAM),将维度级适配由静态选择扩展为输入条件化的动态调制,通过低秩投影与维度嵌入机制生成与位置结构对齐的调制信号,从而在不同输入条件下实现更精细的结构感知建模。 + +\textbf{研究内容三:基于多尺度频谱结构与参数容量分配的适配方法(第五章)} + +在上述表示空间建模的基础上,本文进一步将研究视角扩展至参数空间,针对多尺度结构与容量分配问题,分别从频谱级结构异质性($\mathcal{R}_{spec}$)与参数级结构异质性($\mathcal{R}_{param}$)出发,构建相应的适配方法。 + +首先,针对权重更新中的多尺度特征,提出基于频谱级联的多尺度参数适配方法(Coarse-to-Fine Spectral Cascading, CASCADE)。该方法通过构建由低频与高频专家组成的异构结构,并通过级联调制机制建立不同频段之间的依赖关系,从而实现对全局趋势与局部细节的协同建模。 + +其次,针对多任务场景中的参数容量分配问题,提出基于共享-特有稀疏分解的多任务适配方法(Multi-task Efficient Shared-Specific Sparse Adaptation, MESSA)。该方法将参数更新分解为跨任务共享部分与任务特有部分,通过可学习的结构门控实现参数在不同任务之间的自适应分配,从而在有限参数预算下提升多任务建模能力。 + +\textbf{研究内容四:面向时空智能的大模型评测体系与实验基础设施(第六章)} + +为支撑上述方法在复杂时空任务中的系统验证,本文进一步构建面向多任务与多阶段评估的实验基础设施。 + +一方面,构建AI驱动的交通预测持续评测框架AgentCity,通过多智能体协同机制实现模型集成、任务组织与评估流程的自动化,从而提升评测体系的可扩展性与持续更新能力。另一方面,构建时空敏感的兴趣点问答数据集POI-QA,通过引入空间位置与时间上下文信息,构建能够反映时空推理能力的评测任务,从而弥补现有数据集在复杂时空理解方面的不足。 + +上述评测体系与数据资源,为结构感知适配方法在真实城市时空场景中的验证提供了统一环境。 + +综上,本文四项研究内容在统一框架下形成递进关系:研究内容一与二从表示空间出发,分别在模块级与维度级刻画结构角色差异;研究内容三进一步扩展至参数空间,从多尺度结构与容量分配角度进行建模;研究内容四则从评测基础设施角度提供系统验证支撑,从而形成面向时空智能建模的方法—数据—系统闭环。 + +\subsection{整体技术路线} +\label{subsec:technical_route} + +为系统开展面向复杂时空任务的表征学习研究,本文围绕城市时空数据的结构特征构建统一的分层建模技术路线,其总体框架如图~\ref{fig:tech_route}所示。 + +\begin{figure}[htbp] +\centering +% \includegraphics[width=0.9\textwidth]{tech_route.pdf} +\caption{本文整体技术路线示意图。该图从时空数据的结构复杂性出发,展示了结构角色感知表征学习方法体系的层级化建模思路,包括模块级表示流调制、维度级结构敏感建模、多尺度参数更新机制以及参数结构优化策略,并进一步给出统一实验验证与评测体系在整体研究框架中的支撑作用。} +\label{fig:tech_route} +\end{figure} + +该技术路线以时空结构异质性分析为起点,首先从城市系统中的多任务耦合关系、位置依赖特征以及多尺度动态模式等结构属性出发,对时空建模问题进行系统刻画;在此基础上,通过第~\ref{sec:unified_framework}~节提出的统一分析框架,将时空结构特性映射为模型内部不同层级的结构角色差异,并据此设计相应的表示调制与参数适配方法。 + +具体而言,在模块层面,研究表示在不同计算单元中的组织方式,通过结构感知调制机制增强模型对任务相关信息的表达能力;在维度与位置结构层面,刻画表示空间中的非均匀性特征,提升模型对空间依赖与时间动态的建模能力;在参数层面,进一步分析多尺度结构与容量分配对模型适配行为的影响,构建兼顾全局与局部特征的结构化更新机制。 + +在上述方法体系基础上,本文通过统一的实验组织与评测流程,对不同层级结构适配策略进行系统验证,并分析其在复杂时空任务中的协同作用。整体技术路线体现出由时空结构问题出发,经统一框架抽象,逐层展开方法设计,并最终通过评测基础设施完成验证的递进式研究路径,从而形成完整的时空智能建模研究闭环。 + +\section{论文组织结构} +\label{sec:organization} + +本文围绕复杂城市时空数据的结构特性,系统研究基础模型在多任务时空智能建模中的表征适配机制,并构建相应的评测基础设施。全文按照”问题提出—统一分析—方法设计—系统验证”的逻辑展开,各章节内容安排如下。 + +第一章为绪论,介绍研究背景与研究意义,梳理时空表征学习与模型适配领域的研究现状与关键问题,在此基础上提出面向时空数据的结构感知适配统一分析框架,并给出本文的研究内容与整体技术路线。 + +第二章为国内外研究现状,系统综述与本文研究相关的四类工作,包括时空数据建模与表征学习方法、基础模型与大语言模型表示机制、参数高效适配与结构建模方法以及时空智能数据与评测体系,并对现有研究的主要挑战进行总结分析。 + +第三章针对多任务时空建模中的模块级结构异质性问题,研究基于模块功能角色差异的表征适配方法,构建上下文注意力调制机制及其扩展框架,以提升模型在多任务场景中的协同建模能力。 + +第四章针对位置编码引入的维度级结构差异问题,研究位置结构驱动的各向异性表征学习方法,从表示维度与层级结构出发设计结构感知调制机制,以增强模型对复杂时空依赖关系的刻画能力。 + +第五章面向多尺度动态模式与多任务容量分配问题,从参数空间视角出发研究多尺度结构建模与参数结构自适应方法,分别从频谱结构与参数分解两个方面构建适配机制,以提升模型在复杂场景下的整体建模能力。 + +第六章围绕复杂时空任务的评测需求,构建面向多任务与多阶段验证的实验基础设施,包括交通预测持续评测框架与时空敏感问答数据集,并在统一评测环境下对相关方法进行系统验证与分析。 + +第七章为总结与展望,总结本文的主要研究内容与创新点,并结合时空智能建模与基础模型的发展趋势,对未来研究方向进行讨论。 + + +% 第二章 国内外研究现状 +\chapter{国内外研究现状} +\section{时空数据建模与表征学习研究} +\subsection{时空数据建模问题类型与应用场景} +\subsection{传统时空建模方法} +\subsection{深度学习驱动的时空表征学习方法} +\subsection{时空建模中的结构复杂性问题} + +\section{基础模型与大语言模型表征机制研究} +\subsection{Transformer表示学习机制} +\subsection{预训练基础模型与表示迁移学习} +\subsection{大语言模型在复杂任务建模中的潜力} +\subsection{大模型在时空智能领域的初步探索} + +\section{参数高效适配与结构建模方法研究} +\subsection{参数高效微调方法} +\subsection{多任务学习与知识路由机制} +\subsection{表示各向异性与结构感知学习} +\subsection{多尺度学习与频谱建模方法} +\subsection{模型结构优化与容量分配方法} +\subsection{现有适配方法的对比分析与不足} + +\section{时空智能数据集与评测基础设施研究} +\subsection{时空预测与分析数据集} +\subsection{面向推理与决策的时空任务数据} +\subsection{城市仿真环境与智能体平台} +\subsection{现有评测体系的局限性} + +\section{本章小结} + +% 第三章 模块角色感知的多任务时空表征学习方法 +\chapter{模块角色感知的多任务时空表征学习方法} +\label{chap:hycam} + +\section{本章概述} +\label{sec:ch3_overview} + +第一章建立了基于结构感知调制的统一分析框架(式~\ref{eq:ch1_unified_M}),将时空数据在大语言模型不同层级所诱导的结构差异归纳为四类结构异质性,并统一刻画为乘性调制、组合式调制与结构分解调制三种基本形式。在该统一框架下,不同方法可理解为针对特定结构角色描述符$\mathcal{R}$的具体实例化。本章作为方法体系的第一部分,聚焦于\emph{模块级功能异质性}($\mathcal{R}_{mod}$)。 + +在城市多任务时空建模场景中,模型需要在统一表示空间内同时刻画多任务共享规律与任务特有结构,这对模型内部不同计算模块的协同方式提出了更高要求。从表示机制来看,Transformer架构中的自注意力模块与前馈网络模块在功能上存在显著差异:自注意力模块主要负责输入上下文之间的依赖建模与信息整合,而前馈网络模块则更多承担参数化知识表达与非线性映射功能。这种功能分工使得不同模块在表征学习过程中承担不同的结构角色。 + +然而,现有适配方法通常采用均匀式参数更新或统一形式的表示调制策略,将不同模块视为等价的可调对象。该类方法一方面可能对预训练模型中已形成的知识结构产生干扰,另一方面也难以针对承担关键表征功能的模块进行有效调控,从而限制模型在复杂多任务时空场景中的适配能力。 + +针对上述问题,本章从模块级结构角色差异出发,研究基于表示流调制的结构感知适配方法。在统一框架下,该问题可表述为:在$\mathcal{R}_{mod}$约束下,构造依赖于输入与任务条件的调制算子$\mathcal{M}_\theta$,以对自注意力表示进行差异化调控。对应地,本章方法属于乘性调制形式(式~\ref{eq:ch1_multiplicative}),通过对注意力表示流施加输入条件化的门控信号,实现对关键信息通道的选择性增强与抑制。 + +在具体实现上,本章首先构建上下文注意力调制(Contextual Attention Modulation, CAM)机制,通过通道级乘性调制对自注意力输出进行输入依赖的动态调整;在此基础上,进一步构建混合上下文注意力调制框架(Hybrid Contextual Attention Modulation, HyCAM),通过共享调制模块与任务特有调制模块的结构组合,并结合动态路由机制,在统一模型中实现跨任务知识共享与任务特定表达之间的协调。 + +本章后续安排如下:第~\ref{sec:ch3_problem}~节分析城市多任务时空建模中的模块级结构异质性问题;第~\ref{sec:ch3_cam_mechanism}~节介绍基于模块角色感知的表示流调制机制;第~\ref{sec:ch3_hycam}~节给出混合上下文注意力调制框架;第~\ref{sec:ch3_routing}~节介绍动态路由与协同训练机制;第~\ref{sec:ch3_experiments}~节进行实验验证与结果分析;第~\ref{sec:ch3_summary}~节对本章内容进行总结。 + +\section{多任务时空建模问题与结构分析} +\label{sec:ch3_problem} + +\subsection{城市多任务时空建模的研究背景} +\label{subsec:ch3_background} + +城市系统本质上是由人、地、设施、交通、事件与服务等多类实体耦合形成的复杂开放系统,其运行过程伴随着持续产生的多源时空数据。随着城市数字化基础设施与智能感知体系的不断完善,围绕城市治理、公共服务、交通调度、空间规划与城市计算所形成的建模任务,正在从传统单任务分析逐步转向面向统一城市智能体的多任务协同建模范式。典型任务包括城市问答与知识检索、时空事件理解、地点语义识别、行为模式分析、城市功能分类、交通状态预测以及基于复杂上下文的决策支持等。 + +与一般文本任务不同,城市多任务时空建模具有更强的结构复杂性。首先,不同任务虽然在表面目标上存在差异,但往往共享同一城市系统中的实体知识、语义关系与行为规律。例如,地点问答任务依赖位置实体之间的关系理解,轨迹语义分析依赖区域功能与时段模式知识,而城市事件解释则需要同时融合空间邻近性、时间先后关系与社会语义背景。其次,不同任务对模型内部表示的需求并不一致:有些任务更强调局部语境对齐,有些任务更依赖长程依赖建模,还有些任务则更需要对少量关键上下文线索进行精细选择。这意味着,城市多任务时空建模不仅是多个目标函数的并列优化问题,更是一个关于\emph{如何在共享预训练知识基础上进行结构化上下文重组}的问题。 + +大语言模型经过大规模语料预训练后,已经具备较强的通用知识记忆与上下文推理能力,因此为城市多任务时空建模提供了新的技术路径。相比传统时空模型,大语言模型能够在统一表示空间内处理异构任务,并通过指令化输入自然支持问答、推理、生成与解释等复杂目标。然而,这种能力并不意味着模型能够直接适配复杂城市任务。一方面,通用预训练知识与具体城市任务之间存在明显的语义与结构落差;另一方面,若直接采用传统全参数微调方式,这种数据知识偏差会使模型优化时容易破坏既有预训练结构,导致灾难性遗忘、任务干扰与适配不稳定等问题。因此,如何在保留预训练基础能力的同时,使模型对城市多任务时空上下文形成更细粒度、更具针对性的响应机制,成为本章关注的核心问题。 + +\subsection{城市多任务时空建模中的模块级结构异质性} +\label{subsec:ch3_module_hetero} + +从第~\ref{sec:unified_framework} 节所提出的统一分析框架出发,本文认为,大语言模型在适配时空任务时面临的关键困难之一,在于其内部不同功能模块并非同质、等价地参与任务建模,而是具有显著的\emph{结构角色异质性}。具体到 Transformer 架构,不同子模块在表征生成过程中承担不同的功能角色:自注意力模块侧重于建模输入上下文之间的依赖关系,负责动态组织、选择与融合时序和语义线索;前馈网络(FFN)则更多承担参数化知识存储与非线性映射功能,形成模型的静态知识基础。 + +对于城市时空任务而言,这种差异尤为重要。城市多任务场景中的输入通常包含地点、时间、实体关系、事件描述、用户意图与背景语义等复合信息。模型能否正确完成任务,很大程度上并不只取决于其是否“记住”了某类知识,更取决于其能否在具体上下文中\emph{动态组织这些知识},并将注意力聚焦于与当前任务目标最相关的时空线索之上。换言之,问题的关键不完全是“增加任务知识”,而更在于“重新组织知识与上下文之间的匹配方式”。 + +从这一视角出发,若采用均匀式适配策略,将所有模块都视为等价可调对象,则可能带来两类问题。第一,过度更新 FFN 等参数规模较大的知识承载模块,会改变预训练阶段已形成的通用知识分布,增加灾难性遗忘风险。第二,若缺乏对自注意力上下文组织机制的定向调节,则模型即便保留了知识,也可能无法在复杂多任务场景中正确选择与整合这些知识,从而表现为任务间干扰、泛化能力不足与适配效率下降。因此,从模块级结构异质性的角度出发,面向城市多任务时空建模的高效适配,更合理的路径应当是:在尽量保持预训练知识主体结构稳定的前提下,重点对上下文组织路径进行有针对性的调制。 + +\subsection{从均匀适配到结构感知调制} +\label{subsec:ch3_uniform_to_aware} + +现有全参数微调与多数参数高效微调方法,本质上大多采用某种形式的均匀适配思想,即默认模型内部所有参数或所有目标层具有相近的适配地位,仅通过统一的增量更新方式来完成任务迁移。然而,在城市多任务时空场景中,不同任务之间既存在共享的城市常识、空间语义与时序规律,又存在对特定上下文结构的差异化偏好。例如,城市问答任务可能更依赖局部实体关系的精细选择,城市事件解释任务更强调长程上下文整合,而交通语义分析类任务则更关注周期性模式与条件依赖。这些任务需求并不是通过统一的低秩增量便可充分表达的。 + +基于此,本章延续第~\ref{sec:unified_framework} 节建立的统一建模视角,认为更合理的适配方式应当是引入\emph{结构感知的非均匀调制}:不再对模型内部所有部分施加同质更新,而是根据不同模块的结构角色,对更适合承担时空任务适配职责的表示流进行定向调控。在本章中,所关注的结构角色记为 +\begin{equation} +\mathcal{R}_{mod}, +\label{eq:ch3_module_role} +\end{equation} +其对应于 Transformer 中模块级功能角色差异,尤其是自注意力模块与前馈网络模块在知识存储、上下文整合与任务适配中的不同作用。 + +在这一基础上,本章首先将第~\ref{sec:unified_framework} 节提出的统一结构感知调制算子在模块级场景下实例化为: +\begin{equation} +\tilde{\mathbf{H}}_{att}^{(\ell)} += +\mathcal{M}_{\theta}^{mod} +\Big( +\mathbf{H}_{att}^{(\ell)};\, +\mathbf{X},\, +\mathcal{R}_{mod} +\Big), +\label{eq:ch3_unified_modulation} +\end{equation} +其中,$\mathbf{X}$ 表示输入时空样本或时空指令序列,$\mathbf{H}_{att}^{(\ell)}$ 表示第 $\ell$ 层自注意力模块的输出表示,$\mathcal{M}_{\theta}^{mod}$ 表示面向模块角色异质性的结构感知调制算子,而 $\tilde{\mathbf{H}}_{att}^{(\ell)}$ 则是调制后的上下文表示。该公式表明,本章方法并不直接重写整个模型的参数空间,而是在保留骨干模型 $\Theta_0$ 主体稳定的前提下,对承担上下文组织功能的注意力表示流进行输入条件化调制。 + +在具体实现上,本章将这种模块级调制设计为一种乘性残差调制机制,即通过上下文驱动的调制信号,对自注意力输出表示中的关键维度进行增强或抑制,从而改变信息流在后续层中的传播方式。其核心思想是:若预训练模型已经具备较强的通用知识,则多任务适配的关键不一定是重写知识本身,而更在于改变\emph{知识被调用、组织与融合的方式}。这一思想构成了本章所提出方法 HyCAM 的理论出发点。 + +\subsection{本章研究目标与技术路线} +\label{subsec:ch3_goal} + +基于上述分析,本章聚焦于城市多任务时空建模中的模块级异质性问题,主要关注以下三个方面: + +第一,在大语言模型适配城市多任务场景时,是否可以通过优先调制自注意力表示流而非大规模修改骨干参数,获得更优的知识保持与任务适配平衡? + +第二,在多任务建模中,如何同时兼顾跨任务共享知识与任务特有模式,使模型能够在统一框架中实现共享与专用能力的协同? + +第三,在面向多种城市任务的联合建模过程中,如何通过动态路由机制使不同适配分支获得更合理的使用,从而缓解任务冲突与专家塌缩问题? + +围绕这些问题,本章提出一种模块角色感知的多任务时空表征学习方法,其总体技术路线如图~\ref{fig:ch3_framework} 所示(图为占位,后续可根据论文总图风格统一重绘)。该方法首先构造上下文注意力调制机制(Contextual Attention Modulation, CAM),对每层自注意力输出进行输入条件化调制;随后,在此基础上进一步提出混合式上下文注意力调制框架(Hybrid Contextual Attention Modulation, HyCAM),通过“共享 CAM + 专用 CAM + 动态路由”的结构实现多任务协同建模。整体上,本章的方法可统一理解为一种\emph{模块角色感知的表示流调制方法},它为后续第四章从维度级进一步研究位置结构与表示各向异性问题提供了基础。 + +\begin{figure}[htp] + \centering + \includegraphics[width=0.82\linewidth]{assets/3_model.pdf} + \caption{模块角色感知的多任务时空表征学习总体框架示意图。} + \label{fig:ch3_framework} +\end{figure} + +\section{模块角色感知的表示流调制机制} +\label{sec:ch3_cam_mechanism} + +\subsection{问题形式化} +\label{subsec:ch3_formulation} + +在城市多任务时空建模场景下,设训练数据集为 +\begin{equation} +\mathcal{D} += +\left\{ +(\mathbf{X}_i,\mathbf{Y}_i,\tau_i) +\right\}_{i=1}^{N}, +\label{eq:ch3_dataset} +\end{equation} +其中,$\mathbf{X}_i$ 表示第 $i$ 个输入样本,可由地点序列、事件描述、时间提示、空间关系文本、指令模板及其他结构化时空上下文组成;$\mathbf{Y}_i$ 表示对应的目标输出;$\tau_i \in \mathcal{T}$ 表示该样本所属的任务类型,$\mathcal{T}$ 为任务集合。对于城市多任务场景,$\mathcal{T}$ 可对应于城市问答、时空推理、地点语义生成、事件解释、辅助决策等不同子任务。骨干大语言模型的预训练参数记为 $\Theta_0$,本章的适配参数记为 $\Theta_a$,则最终模型可统一写为 +\begin{equation} +\Theta = \Theta_0 + \Delta \Theta(\Theta_a), +\label{eq:ch3_theta_decompose} +\end{equation} +其中 $\Delta \Theta(\Theta_a)$ 并非对全部参数的均匀更新,而是由模块角色感知调制结构所诱导的有效增量。 + +给定输入序列 $\mathbf{X} = (x_1,\dots,x_T)$,在第 $\ell$ 层 Transformer 中,隐藏表示记为 +\begin{equation} +\mathbf{H}^{(\ell)} \in \mathbb{R}^{T \times d}, +\label{eq:ch3_hidden} +\end{equation} +其中 $T$ 为序列长度,$d$ 为隐藏维度。采用预归一化 Transformer 时,输入到自注意力模块的归一化表示为 +\begin{equation} +\bar{\mathbf{H}}^{(\ell)} += +\mathrm{LayerNorm}\!\left(\mathbf{H}^{(\ell)}\right). +\label{eq:ch3_norm} +\end{equation} +标准自注意力输出表示可写为 +\begin{equation} +\mathbf{H}_{att}^{(\ell)} += +\mathrm{SelfAttn}\!\left(\bar{\mathbf{H}}^{(\ell)}\right). +\label{eq:ch3_attn_output} +\end{equation} + +本章关注的核心问题并非直接重构 $\mathbf{H}_{att}^{(\ell)}$,而是在保持其基础结构不变的前提下,基于输入上下文生成调制信号对其进行结构感知修正,从而得到适于当前任务的表示流: +\begin{equation} +\tilde{\mathbf{H}}_{att}^{(\ell)} += +\mathbf{H}_{att}^{(\ell)} ++ +\mathbf{H}_{att}^{(\ell)} \odot +\mathbf{S}_{\theta}^{mod} +\!\left( +\bar{\mathbf{H}}^{(\ell)}, \mathbf{X}, \mathcal{R}_{mod} +\right), +\label{eq:ch3_mod_general} +\end{equation} +其中 $\odot$ 表示 Hadamard 逐元素乘法,$\mathbf{S}_{\theta}^{mod}(\cdot)$ 表示模块角色感知的调制信号生成函数。式~\eqref{eq:ch3_mod_general} 是本章方法最基本的形式化表达,它说明 HyCAM 作用的对象并非整个隐藏空间,而是\emph{自注意力输出表示流}本身。 + +\subsection{模块角色差异与注意力表示流的适配价值} +\label{subsec:ch3_attn_value} + +之所以选择自注意力模块作为核心调制对象,原因在于其在预训练语言模型中承担着比 FFN 更直接的上下文组织职责。FFN 虽然在参数规模上占据主导地位并承载预训练知识,但其作用更接近于位置独立的非线性变换。相比之下,自注意力模块通过 Query、Key、Value 之间的交互显式建模不同 token 间的依赖关系,是输入上下文信息聚合与任务相关证据选择的关键场所。 + +在城市时空任务中,这一点尤为关键。例如,当输入涉及“某时间段内某区域附近设施与事件的关系”时,模型需要从多个地点、实体、时间表达中选择与任务最相关的线索,并依据任务意图动态调整不同上下文成分的重要性。若仍沿用均匀式参数更新,则模型往往只能通过低效的全局增量来“间接”修正上下文组织方式;而若直接在注意力输出处引入调制,则能够更直接地改变上下文信息的流向与组合方式。因此,从结构角色层面看,自注意力模块是实现任务专门化与知识保持平衡的更优切入点,提供了更直接、可控的上下文组织调节点。 + +从表示学习角度进一步理解,$\mathbf{H}_{att}^{(\ell)}$ 并不是静态知识本体,而是\emph{在当前上下文条件下对知识进行组织后的中间结果}。因此,对 $\mathbf{H}_{att}^{(\ell)}$ 施加适度、输入驱动的调制,本质上是在改变模型对已有知识的调用模式,而非粗暴覆盖预训练知识本身。这一差异使得本章方法天然更适合用于多任务场景:不同任务可以通过不同调制模式,选择性地突出最有用的上下文特征,而共享的预训练知识底座则得以较好保留。 + +\subsection{模块级结构调制的统一表达} +\label{subsec:ch3_unified_mod} + +结合第~\ref{sec:unified_framework} 节提出的统一调制框架,本章将模块级异质性建模为一种乘性调制形式。设本章的调制对象为 +\begin{equation} +\mathbf{Z}^{(\ell)} = \mathbf{H}_{att}^{(\ell)}, +\label{eq:ch3_Z} +\end{equation} +则结构角色感知调制算子可具体实例化为 +\begin{equation} +\mathcal{M}_{\theta}^{mod} +\Big( +\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R}_{mod} +\Big) += +\mathbf{Z}^{(\ell)} \odot +\mathbf{S}_{\theta}^{mod} +\Big( +\bar{\mathbf{H}}^{(\ell)},\mathbf{X},\mathcal{R}_{mod} +\Big), +\label{eq:ch3_mod_operator} +\end{equation} +从而式~\eqref{eq:ch3_unified_modulation} 可改写为 +\begin{equation} +\tilde{\mathbf{H}}_{att}^{(\ell)} += +\mathbf{H}_{att}^{(\ell)} ++ +\mathcal{M}_{\theta}^{mod} +\Big( +\mathbf{H}_{att}^{(\ell)};\mathbf{X},\mathcal{R}_{mod} +\Big). +\label{eq:ch3_mod_residual} +\end{equation} + +式~\eqref{eq:ch3_mod_operator} 和式~\eqref{eq:ch3_mod_residual} 的意义在于,它们为本章后续方法提供了统一的理论骨架。具体而言,后续 CAM 将给出 $\mathbf{S}_{\theta}^{mod}$ 的具体参数化形式,从而将上述抽象调制算子实例化为可学习的上下文调制机制;HyCAM 则在 CAM 之上进一步引入共享与专用调制分支,并通过动态路由完成多任务知识融合。也正因为本章方法是对注意力表示流进行模块角色感知调制,因此其在全文方法体系中的定位可概括为:\emph{模块级异质性驱动的表示流适配}。这一点与下一章从表示维度和位置结构角度研究各向异性调制的方法形成自然递进。 + +\section{混合上下文注意力调制框架} +\label{sec:ch3_hycam} + +\subsection{上下文注意力调制机制} +\label{subsec:ch3_cam_basic} + +为实现式~\eqref{eq:ch3_mod_general} 所刻画的模块级调制形式,本章对调制信号生成函数 $\mathbf{S}_{\theta}^{mod}(\cdot)$ 进行具体参数化,构建上下文注意力调制机制(Contextual Attention Modulation, CAM)。该机制在每一层 Transformer 中基于归一化输入表示 $\bar{\mathbf{H}}^{(\ell)}$ 生成逐元素调制信号,并作用于自注意力输出 $\mathbf{H}_{att}^{(\ell)}$,从而实现对上下文相关信息的选择性增强与抑制。 + +设第 $\ell$ 层输入隐藏状态为 $\mathbf{H}^{(\ell)}$,则其归一化表示已经由式~\eqref{eq:ch3_norm} 给出。基于该表示,调制信号通过如下映射生成: +\begin{equation} +\mathbf{A}_{CAM}^{(\ell)} += +\mathrm{SiLU} +\left( +\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{proj}^{(\ell)} +\right), +\label{eq:ch3_cam_weight} +\end{equation} +其中, +\begin{equation} +\mathbf{W}_{proj}^{(\ell)} \in \mathbb{R}^{d \times d} +\label{eq:ch3_cam_proj} +\end{equation} +为可训练投影矩阵,$\mathrm{SiLU}(\cdot)$~\cite{elfwing2018sigmoid} 为非线性激活函数。由此得到的 $\mathbf{A}_{CAM}^{(\ell)} \in \mathbb{R}^{T \times d}$ 为逐 token、逐维度的调制信号。随后,CAM 将其施加于注意力输出表示上,得到调制后的输出: +\begin{equation} +\tilde{\mathbf{H}}_{att}^{(\ell)} += +\mathbf{H}_{att}^{(\ell)} ++ +\mathbf{H}_{att}^{(\ell)} \odot \mathbf{A}_{CAM}^{(\ell)}. +\label{eq:ch3_cam_output} +\end{equation} + +由式~\eqref{eq:ch3_cam_weight} 与式~\eqref{eq:ch3_cam_output} 可知,CAM 对自注意力输出施加输入依赖的逐元素门控,从而实现对表示流的残差式调制。该形式对应于式~\eqref{eq:ch3_mod_operator} 中调制算子的具体参数化实现,其中调制信号由 $\bar{\mathbf{H}}^{(\ell)}$ 动态生成,使模型能够针对不同输入样本自适应地改变上下文组织方式。 + +\subsection{初始化与训练稳定性设计} +\label{subsec:ch3_cam_init} + +在微调初期,若新引入的调制模块对预训练模型产生过强干预,则容易破坏原有表示分布,导致训练不稳定甚至引发性能显著退化。为保证训练稳定性,CAM 采用零初始化策略,即将投影矩阵 $\mathbf{W}_{proj}^{(\ell)}$ 初始设为零矩阵: +\begin{equation} +\mathbf{W}_{proj}^{(\ell)} = \mathbf{0}. +\label{eq:ch3_zero_init} +\end{equation} +在该初始化下,由式~\eqref{eq:ch3_cam_weight} 可知,训练开始时 +\begin{equation} +\mathbf{A}_{CAM}^{(\ell)} \approx \mathbf{0}, +\label{eq:ch3_init_acam} +\end{equation} +从而式~\eqref{eq:ch3_cam_output} 退化为 +\begin{equation} +\tilde{\mathbf{H}}_{att}^{(\ell)} +\approx +\mathbf{H}_{att}^{(\ell)}. +\label{eq:ch3_identity_start} +\end{equation} +这意味着 CAM 在训练初期近似保持恒等映射,不会改变预训练模型的原始行为,并在训练过程中逐步学习对表示流的有效调制,从而兼顾训练稳定性与知识保持能力。 + +在城市多任务场景中,这一设计尤为重要。由于不同任务共享同一预训练骨干模型,若某一任务在训练早期对模型施加过强更新,往往会对其他任务可用的通用知识造成损害。零初始化策略在一定程度上抑制了这种早期干扰,使不同任务的影响更多体现在对上下文组织方式的渐进式修正上,而非对模型知识底座的立即重写。 + +\subsection{共享与专用调制的协同设计} +\label{subsec:ch3_cam_to_hycam} + +上述 CAM 机制对应于调制信号生成函数 $\mathbf{S}_{\theta}^{mod}$ 的单一参数化形式。为同时建模跨任务共享模式与任务特有模式,本章将该调制过程扩展为多分支结构,构建混合上下文注意力调制框架(Hybrid Contextual Attention Modulation, HyCAM)。在该框架下,调制信号由共享分支与多个专用分支共同生成,并通过动态路由机制进行组合。共享分支用于建模跨任务稳定存在的上下文调制模式,专用分支用于刻画任务相关或上下文相关的差异性调制结构。 + +HyCAM 的本质仍然遵循式~\eqref{eq:ch3_mod_residual} 的统一母式,只是将调制信号 $\mathbf{S}_{\theta}^{mod}$ 的生成方式从单一映射扩展为多分支组合生成。 + +\subsection{共享调制模块} +\label{subsec:ch3_shared_cam} + +共享 CAM 模块用于建模跨任务共享的上下文调制模式,例如一般性的实体对齐模式、语义匹配结构、时间条件约束的基础表达以及城市语义理解中常见的共性线索。设第 $\ell$ 层共享 CAM 的投影矩阵为 +\begin{equation} +\mathbf{W}_{sh}^{(\ell)} \in \mathbb{R}^{d \times d}, +\label{eq:ch3_shared_proj} +\end{equation} +则共享调制信号定义为 +\begin{equation} +\mathbf{A}_{sh}^{(\ell)} += +\mathrm{SiLU} +\left( +\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{sh}^{(\ell)} +\right). +\label{eq:ch3_shared_cam} +\end{equation} + +共享 CAM 模块采用全参数形式,其原因在于该分支承担的是跨任务共性模式的建模职责,需要具有相对充分的表达能力,以便在不同任务之间形成稳定共享的表示流调制基础。该分支在所有任务间共享参数,从而形成稳定的全局调制基准。 + +\subsection{专用调制模块} +\label{subsec:ch3_spec_cam} + +与共享 CAM 相对,专用 CAM 模块旨在建模任务差异性更强的上下文调制模式。例如,不同城市任务可能对上下文依赖范围、关键线索类型与局部模式选择具有不同偏好:时空问答更注重实体关系和条件约束,城市事件生成更强调长程语义结构,代码或规则生成类任务则对符号化依赖更为敏感。因此,引入 $N_s$ 个专用调制模块以刻画不同潜在模式。 + +设专用 CAM 模块的个数为 $N_s$,第 $k$ 个专用模块在第 $\ell$ 层的调制信号定义为 +\begin{equation} +\mathbf{A}_{sp,k}^{(\ell)} += +\mathrm{SiLU} +\left( +\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{sp,k}^{(\ell)} +\right), +\quad +k = 1,\dots,N_s. +\label{eq:ch3_spec_cam} +\end{equation} +其中,$\mathbf{W}_{sp,k}^{(\ell)}$ 采用带中间映射矩阵的低秩参数化形式~\cite{guo2025nlora},以在保持表达能力的同时降低参数量: +\begin{equation} +\mathbf{W}_{sp,k}^{(\ell)} += +\mathbf{B}_{k}^{(\ell)} +\mathbf{N}_{k}^{(\ell)} +\mathbf{A}_{k}^{(\ell)}, +\label{eq:ch3_slora} +\end{equation} +其中 +\begin{equation} +\mathbf{A}_{k}^{(\ell)} \in \mathbb{R}^{r \times d}, +\quad +\mathbf{N}_{k}^{(\ell)} \in \mathbb{R}^{r \times r}, +\quad +\mathbf{B}_{k}^{(\ell)} \in \mathbb{R}^{d \times r}, +\label{eq:ch3_slora_shape} +\end{equation} +且 $r \ll d$。这种结构相较于标准 LoRA 的两矩阵分解引入额外的低维变换 $\mathbf{N}_{k}^{(\ell)}$,从而在较小参数预算下提升专用模块的表示灵活性。 + +为保证训练初期的稳定性,专用模块同样采用保守初始化策略。具体而言,$\mathbf{A}_{k}^{(\ell)}$ 与 $\mathbf{N}_{k}^{(\ell)}$ 可采用 Kaiming 初始化~\cite{he2015delving},而 $\mathbf{B}_{k}^{(\ell)}$ 采用零初始化: +\begin{equation} +\mathbf{B}_{k}^{(\ell)} = \mathbf{0}. +\label{eq:ch3_spec_zero} +\end{equation} +因此在训练初期,专用模块近似不对骨干模型产生显著影响,并在训练过程中逐步形成各自的专门化调制方向。 + +\section{动态路由与协同训练机制} +\label{sec:ch3_routing} + +\subsection{动态路由的设计动机} +\label{subsec:ch3_routing_motivation} + +在 HyCAM 中,共享 CAM 提供跨任务的公共调制基础,而多个专用 CAM 则提供潜在的任务特化能力。然而,仅有多个专用分支并不足以自动形成有效的多任务协同。其根本原因在于:不同输入样本所对应的任务结构、上下文模式和难点位置并不相同,因此各专用分支对不同样本的重要性也必然不同。若简单地平均融合所有专用 CAM,则模型难以形成明确的功能分工;若为每个任务静态绑定固定专家,又会削弱对任务内部异质性与输入级细粒度差异的适应能力。 + +城市多任务时空场景尤其需要动态路由。即便同属于“城市问答”任务,不同样本也可能分别强调空间邻近关系、时间顺序关系、设施属性关系或常识推断关系。静态分配无法充分表达这种输入级差异。因此,HyCAM 引入基于输入上下文的软路由机制,对专用 CAM 的贡献进行逐 token 或逐样本的动态加权,从而实现更细粒度的知识调用。 + +\subsection{基于输入上下文的路由权重生成} +\label{subsec:ch3_router_weight} + +设第 $\ell$ 层的路由器参数为 +\begin{equation} +\mathbf{W}_{router}^{(\ell)} \in \mathbb{R}^{d \times N_s}, +\label{eq:ch3_router_param} +\end{equation} +则根据归一化后的输入表示 $\bar{\mathbf{H}}^{(\ell)}$,可生成第 $\ell$ 层的路由 logits: +\begin{equation} +\mathbf{\Pi}^{(\ell)} += +\bar{\mathbf{H}}^{(\ell)} \mathbf{W}_{router}^{(\ell)}, +\label{eq:ch3_router_logits} +\end{equation} +其中 $\mathbf{\Pi}^{(\ell)} \in \mathbb{R}^{T \times N_s}$,其第 $t$ 个 token 对应的第 $k$ 个专家 logit 记为 $\pi_{t,k}^{(\ell)}$。为了在保持可微性的同时鼓励离散化选择,本章采用 Gumbel-Softmax~\cite{jang2016categorical} 机制生成软路由权重: +\begin{equation} +p_{t,k}^{(\ell)} += +\frac{ +\exp\left( +(\log \pi_{t,k}^{(\ell)} + g_{t,k}^{(\ell)}) / \tau +\right) +}{ +\sum_{j=1}^{N_s} +\exp\left( +(\log \pi_{t,j}^{(\ell)} + g_{t,j}^{(\ell)}) / \tau +\right) +}, +\label{eq:ch3_gumbel} +\end{equation} +其中 $g_{t,k}^{(\ell)} \sim \mathrm{Gumbel}(0,1)$ 为 Gumbel 噪声,$\tau$ 为温度系数。温度较小时,权重分布更尖锐,更接近离散专家选择;温度较大时,分布更平滑,有利于训练早期稳定探索。 + +式~\eqref{eq:ch3_gumbel} 使得 HyCAM 可以根据输入上下文对专用模块进行自适应加权。进一步地,这种路由不是直接作用于模型最终输出,而是作用于注意力调制信号的融合,因此其本质是在输入依赖条件下\emph{动态选择不同的上下文组织方式},而不是简单切换不同解码器或任务头。这也是 HyCAM 能够兼顾统一骨干建模与多任务灵活适配的重要原因。 + +\subsection{共享与专用调制信号的融合} +\label{subsec:ch3_fusion} + +在获得共享 CAM 与专用 CAM 的调制信号之后,HyCAM 将其进行融合,形成最终的模块级调制张量。第 $\ell$ 层的融合调制信号定义为 +\begin{equation} +\mathbf{A}_{fusion}^{(\ell)} += +\mathbf{A}_{sh}^{(\ell)} ++ +\sum_{k=1}^{N_s} +\mathbf{P}_{k}^{(\ell)} \odot \mathbf{A}_{sp,k}^{(\ell)}, +\label{eq:ch3_fusion} +\end{equation} +其中 $\mathbf{P}_{k}^{(\ell)}$ 表示第 $k$ 个专用 CAM 的广播路由权重张量,其由式~\eqref{eq:ch3_gumbel} 生成的 $p_{t,k}^{(\ell)}$ 按维度扩展得到,以便与 $\mathbf{A}_{sp,k}^{(\ell)} \in \mathbb{R}^{T \times d}$ 做逐元素乘积。由此,第 $\ell$ 层经 HyCAM 调制后的注意力输出表示为 +\begin{equation} +\tilde{\mathbf{H}}_{att}^{(\ell)} += +\mathbf{H}_{att}^{(\ell)} ++ +\mathbf{H}_{att}^{(\ell)} \odot \mathbf{A}_{fusion}^{(\ell)}. +\label{eq:ch3_hycam_output} +\end{equation} + +式~\eqref{eq:ch3_fusion} 与式~\eqref{eq:ch3_hycam_output} 说明,HyCAM 的本质并不是对注意力层进行替代,而是在原始自注意力输出之上叠加一个由共享规律与专门化规律共同构成的动态调制残差。这种设计既保留了预训练模型原有的上下文建模能力,也为不同任务、不同输入模式引入了额外的适应自由度。 + +\subsection{负载均衡约束与专家协同} +\label{subsec:ch3_balance} + +在多专家结构中,若缺乏额外约束,路由器往往会偏向少数几个容易获得较高回报的专用模块,从而导致专家利用不均、训练效率下降和专用结构退化。为缓解这一问题,HyCAM 在训练中引入负载均衡损失,对各专用模块的使用分布施加约束。 + +设一个 batch 内共有 $B$ 个路由单元(可对应于 token 数或聚合后的样本数),则第 $k$ 个专用模块的平均软选择概率与平均标准 softmax 概率分别可统计为 +\begin{equation} +\bar{p}_{k} += +\frac{1}{B} +\sum_{b=1}^{B} +p_{b,k}, +\qquad +\bar{s}_{k} += +\frac{1}{B} +\sum_{b=1}^{B} +\mathrm{softmax}(\mathbf{\Pi}_{b})_{k}. +\label{eq:ch3_balance_avg} +\end{equation} +在此基础上,负载均衡损失定义为 +\begin{equation} +\mathcal{L}_{balance} += +\sum_{k=1}^{N_s} +\bar{p}_{k}\,\bar{s}_{k}. +\label{eq:ch3_balance} +\end{equation} + +该损失鼓励不同专用模块都能够在训练中获得一定程度的激活,从而避免少数模块垄断路由结果。对于城市多任务时空建模,这一约束具有重要意义:由于不同任务及其内部子模式具有复杂异质性,若专用模块过早塌缩为少量活跃分支,则模型将难以真正学习到多样化的调制行为,进而削弱 HyCAM 在多任务场景下的特化能力。 + +\subsection{训练目标} +\label{subsec:ch3_training_obj} + +本章方法在训练时保持骨干模型主体冻结,仅更新 HyCAM 相关的适配参数 $\Theta_a$,包括共享 CAM、专用 CAM 以及动态路由器。对于自回归生成式任务,给定输入输出对 $(\mathbf{X}_i,\mathbf{Y}_i)$,其任务损失可写为 +\begin{equation} +\mathcal{L}_{task} += +- +\sum_{i=1}^{|\mathcal{D}_b|} +\sum_{t=1}^{|\mathbf{Y}_i|} +\log +P +\left( +y_{i,t} +\mid +\mathbf{X}_i,\mathbf{Y}_{i, T_{\textup{warmup}}$ 且 $t \bmod u = 0$}{ + 使用LayerNorm梯度计算层重要性$\text{Score}(L_i)$(式~\ref{eq:ch4_dls_score})\; + 以概率$p_{\text{exploit}}$选择重要性最高的$k_{\text{ratio}}$比例的层(利用);否则随机选择(探索)\; + } + 对非选中层施加梯度掩码(式~\ref{eq:ch4_dls_mask})\; + 使用优化器以学习率$\eta$更新活跃层参数\; +} +\end{algorithm} +\subsection{RoSA整体算法} +\label{subsec:rosa_algorithm} + +RoSA将RoAE和DLS模块集成到标准的因果语言建模框架中,使用交叉熵损失进行训练。两个模块联合工作,分别在频率维度和模型层两个层面实现定向适配。整体训练流程如算法~\ref{alg:ch4_rosa}所示。 + +RoSA的主要超参数包括:低频维度比例$r_{\text{low}}$(默认0.25,即增强每个头25\%的低频维度)、缩放因子$\alpha$(默认0.1,控制增强幅度)、层选择比例$k_{\text{ratio}}$(默认0.5,每次更新一半的层)、选择间隔$u$(默认40步)、利用概率$p_{\text{exploit}}$(默认0.8)。低秩投影维度默认设为128。 + +RoSA的设计具有良好的模块化特性:RoAE和DLS各自独立运作,可以灵活地与其他微调技术组合使用。RoAE的投影模块也可替换为其他PEFT方法的适配器设计,体现了框架的可扩展性。 + + +\section{动态位置注意力调制方法} +\label{sec:dypam} + +RoSA通过低频维度选择性增强与动态层选择,初步实现了对维度级位置结构异质性的感知。然而,RoSA的维度增强机制仍然是"选择后增强"的模式——先静态地划定低频维度范围,再在该范围内生成适配信号。这种设计存在两个局限:第一,对低频维度的选择是固定的(由超参数$r_{\text{low}}$决定),无法根据不同输入的特性进行动态调整;第二,调制信号不区分不同注意力头的位置偏好差异。 + +为进一步推进维度级位置感知适配的精细化程度,本节提出动态位置注意力调制方法(Dynamic Positional Attention Modulation, DyPAM)。DyPAM直接在RoPE的维度对结构上进行操作,实现\emph{输入条件化}的维度级调制与\emph{头级/层级}的结构偏置,从"静态选择"跃迁至"动态调制"。 + +\begin{figure}[htp] + \centering + \includegraphics[width=0.85\linewidth]{assets/4_dypam_arch.pdf} + \caption{DyPAM方法框架图。DyPAM在RoPE之前,将输入条件化的维度级调制与头级和层级结构偏置共同施加于Query和Key表示,实现对位置注意力的细粒度动态适配。} + \label{fig:ch4_dypam_arch} +\end{figure} + +\subsection{框架概述} +\label{subsec:dypam_overview} + +DyPAM的核心设计原则是:针对注意力在维度、头、层和输入token四个层面的异质性行为,通过结构感知的乘性调制实现精细化的位置注意力适配。如图~\ref{fig:ch4_dypam_arch}所示,DyPAM直接在Query和Key表示上操作,联合建模两种互补的调制机制: + +(1)\textbf{输入条件化的维度级调制}:根据输入上下文动态生成逐维度对的调制因子,使不同维度的位置贡献能够随输入变化而自适应调整。 + +(2)\textbf{头级与层级结构偏置}:引入与输入无关的静态偏置项,编码不同注意力头和不同层在位置维度上的持久性结构偏好。 + +在统一分析框架下,DyPAM的调制操作可形式化为: +\begin{equation} +\mathcal{M}_{\theta}^{\text{DyPAM}}(\mathbf{Z}^{(\ell,h)}; \mathbf{X}, \mathcal{R}_{dim}) = +\mathbf{s}^{(\ell,h)}(\mathbf{X}) \odot \mathbf{Z}^{(\ell,h)}, +\label{eq:ch4_dypam_unified} +\end{equation} +其中$\mathbf{s}^{(\ell,h)}(\mathbf{X})$为同时融合了输入条件化信号和结构偏置的调制因子,作用于第$\ell$层第$h$头的Query/Key表示$\mathbf{Z}^{(\ell,h)}$。 + +\subsection{调制特征的构建} +\label{subsec:dypam_feature} + +DyPAM在自注意力中的Query和Key表示上进行操作。在每个Transformer层$\ell$,这些表示由token级的隐藏状态$\mathbf{H}^{(\ell)} \in \mathbb{R}^{B \times T \times d}$通过式~\eqref{eq:ch4_qkv_proj}的线性投影获得,随后重塑为逐头表示$\mathbf{Q}^{(\ell,h)}, \mathbf{K}^{(\ell,h)} \in \mathbb{R}^{T \times d_h}$。 + +为实现输入条件化的注意力适配,DyPAM直接从同一隐藏状态$\mathbf{H}^{(\ell)}$推导调制特征。由于隐藏状态编码了token特异性的上下文信息,由此产生的调制特征天然具有token依赖性,且因输入不同而各异,为输入条件化调制提供了基础。具体地,DyPAM对隐藏状态施加轻量级低秩投影以生成调制特征: +\begin{equation} +\mathbf{M}^{(\ell)} = \mathbf{H}^{(\ell)} \mathbf{A}^{(\ell)} \mathbf{B}^{(\ell)}, \quad +\mathbf{M}^{(\ell)} \in \mathbb{R}^{B \times T \times (H \cdot d_e)}, +\label{eq:ch4_dypam_feature} +\end{equation} +其中$\mathbf{A}^{(\ell)} \in \mathbb{R}^{d \times r}$和$\mathbf{B}^{(\ell)} \in \mathbb{R}^{r \times (H \cdot d_e)}$为可学习矩阵,秩$r \ll d$,$d_e$为每头特征维度。 + +投影后的特征被重塑为$H$个头特异性的成分,得到每个token位置$t$和注意力头$h$的调制特征$\mathbf{m}^{(\ell)}_{t,h} \in \mathbb{R}^{d_e}$。这些特征编码了每个token在不同头内的上下文表示信息,作为连接token级隐藏状态与后续维度级调制的中间桥梁。 + +\subsection{输入条件化的维度级调制} +\label{subsec:dypam_dim_modulation} + +基于调制特征,DyPAM将其映射为与注意力中Query和Key表示对齐的维度级调制值。该映射决定了每个注意力维度的贡献如何以输入条件化的方式被调制。 + +对于每一层$\ell$,DyPAM引入可学习的维度嵌入矩阵,将调制特征投影到注意力维度空间。具体地,对Query和Key分别使用独立的嵌入矩阵: +\begin{equation} +\mathbf{E}^{(\ell)}_Q \in \mathbb{R}^{\frac{d_h}{2} \times d_e}, \quad +\mathbf{E}^{(\ell)}_K \in \mathbb{R}^{\frac{d_h}{2} \times d_e}, +\label{eq:ch4_dypam_embedding} +\end{equation} +其中每一行对应一个注意力维度对。这一设计反映了RoPE诱导的结构:每个维度对共享相同的位置旋转,因此表现出相似的位置行为。通过为每个维度对分配单一调制值,DyPAM在尊重RoPE内在结构的同时降低了参数开销。该设计同时兼容分组查询注意力(GQA):Key端的调制在共享同一Key表示的头之间共享,而Query端的调制保持头特异性。 + +给定token位置$t$和注意力头$h$的调制特征$\mathbf{m}^{(\ell)}_{t,h} \in \mathbb{R}^{d_e}$,Query和Key的维度级调制分数分别计算为: +\begin{equation} +\mathbf{g}^{(\ell)}_{t,h,Q} = \mathbf{E}^{(\ell)}_Q \mathbf{m}^{(\ell)}_{t,h}, \quad +\mathbf{g}^{(\ell)}_{t,h,K} = \mathbf{E}^{(\ell)}_K \mathbf{m}^{(\ell)}_{t,h}, +\label{eq:ch4_dypam_score} +\end{equation} +其中$\mathbf{g}^{(\ell)}_{t,h,Q}, \mathbf{g}^{(\ell)}_{t,h,K} \in \mathbb{R}^{d_h/2}$分别表示Query和Key维度对的调制分数。 + +输入条件化的维度级调制使DyPAM能够根据输入上下文自适应调整各注意力维度的贡献。通过将调制与RoPE诱导的维度对结构对齐,DyPAM选择性地调整位置信息如何影响注意力计算,在保持参数效率的同时实现了对位置注意力的精细化控制。 + +\subsection{头级与层级结构偏置} +\label{subsec:dypam_structural} + +输入条件化的维度级调制捕获了token依赖的变化,但注意力行为在不同注意力头和不同网络层之间也表现出差异。为建模这种结构级的异质性,DyPAM引入与输入无关的头级和层级结构偏置。 + +对于每一层$\ell$,DyPAM维护一个层级偏置向量: +\begin{equation} +\boldsymbol{\beta}^{(\ell)} \in \mathbb{R}^{d_h/2}, +\end{equation} +捕获该层对注意力维度的特有偏好。此外,对于每个注意力头$h$,引入头级偏置向量: +\begin{equation} +\boldsymbol{\beta}^{(\ell)}_{h} \in \mathbb{R}^{d_h/2}, +\end{equation} +允许同一层内不同头维持各自的结构偏好。 + +这些偏置项叠加到维度级调制分数上。对于Query和Key,结构增强后的调制分数分别为: +\begin{equation} +\tilde{\mathbf{g}}^{(\ell)}_{t,h,Q} = +\mathbf{g}^{(\ell)}_{t,h,Q} + \boldsymbol{\beta}^{(\ell)}_{h,Q} + \boldsymbol{\beta}^{(\ell)}_{Q}, +\label{eq:ch4_dypam_struct_q} +\end{equation} +\begin{equation} +\tilde{\mathbf{g}}^{(\ell)}_{t,h,K} = +\mathbf{g}^{(\ell)}_{t,h,K} + \boldsymbol{\beta}^{(\ell)}_{h,K} + \boldsymbol{\beta}^{(\ell)}_{K}, +\label{eq:ch4_dypam_struct_k} +\end{equation} +其中$\mathbf{g}^{(\ell)}_{t,h,Q}$和$\mathbf{g}^{(\ell)}_{t,h,K}$为输入条件化的维度级分数。偏置项在token位置间共享,编码跨输入持久存在的结构偏好。 + +至此,调制分数同时融合了输入条件化的维度级调整与头级、层级的结构偏置,既捕获了token依赖的变化,又编码了持久性的结构偏好。 + +\subsection{调制因子的归一化与应用} +\label{subsec:dypam_application} + +组合后的调制分数编码了输入条件化和结构化的维度级调整。DyPAM通过归一化步骤将这些分数映射为有界的调制因子,确保稳定、受控的适配。 + +对于每一层$\ell$、token位置$t$、注意力头$h$和维度对$i$,归一化调制因子计算为: +\begin{equation} +s^{(\ell)}_{t,h,i} = 1 + \alpha \cdot \big(\sigma(\tilde{g}^{(\ell)}_{t,h,i}) - 0.5\big), +\label{eq:ch4_dypam_factor} +\end{equation} +其中$\sigma(\cdot)$为Sigmoid函数,$\alpha$控制调制强度。该归一化将调制因子映射到有界区间$[1 - \alpha/2, 1 + \alpha/2]$,使其围绕原始尺度居中,防止偏离预训练表示。 + +调制因子在位置编码之前应用于Query和Key表示。设$\mathbf{q}^{(\ell,h)}_{t,i} \in \mathbb{R}^{2}$和$\mathbf{k}^{(\ell,h)}_{t,i} \in \mathbb{R}^{2}$分别为对应维度对$i$的Query和Key向量配对维度。同一对内的两个维度使用相同的调制因子: +\begin{equation} +\hat{\mathbf{q}}^{(\ell,h)}_{t,i} = s^{(\ell)}_{t,h,i} \cdot \mathbf{q}^{(\ell,h)}_{t,i}, \quad +\hat{\mathbf{k}}^{(\ell,h)}_{t,i} = s^{(\ell)}_{t,h,i} \cdot \mathbf{k}^{(\ell,h)}_{t,i}. +\label{eq:ch4_dypam_apply} +\end{equation} + +调制后的Query和Key表示随后通过RoPE机制并用于标准注意力计算。通过在RoPE之前施加调制,DyPAM使适配与RoPE诱导的位置结构对齐——调制改变的是进入旋转的表示幅度,从而影响不同频率维度对在注意力计算中的相对重要性。 + +\subsection{DyPAM整体算法} +\label{subsec:dypam_algorithm} + +DyPAM使用标准的语言建模交叉熵损失进行端到端训练。给定输入序列$\mathbf{x} = (x_1, \dots, x_T)$和目标序列$\mathbf{y} = (y_1, \dots, y_T)$,训练损失定义为: +\begin{equation} +\mathcal{L} = -\sum_{t=1}^{T} \log p(y_t \mid x_{\leq t}). +\label{eq:ch4_dypam_loss} +\end{equation} + +整体前向计算与训练流程如算法~\ref{alg:ch4_dypam}所示。 + +\RestyleAlgo{ruled} +\begin{algorithm}[htp] +\caption{动态位置注意力调制(DyPAM)训练算法} +\label{alg:ch4_dypam} +\KwIn{输入序列$\mathbf{x}$,预训练RoPE大语言模型,DyPAM参数} +\KwOut{模型输出分布与训练损失$\mathcal{L}$} +获取$\mathbf{x}$的token嵌入\; +\For{每个Transformer层$\ell = 1, \dots, L$}{ + 计算隐藏状态$\mathbf{H}^{(\ell)}$\; + 投影隐藏状态得到Query和Key表示$\mathbf{Q}^{(\ell)}, \mathbf{K}^{(\ell)}$(式~\ref{eq:ch4_qkv_proj})\; + 重塑为逐头表示$\mathbf{Q}^{(\ell,h)}, \mathbf{K}^{(\ell,h)}$\; + 从隐藏状态构建调制特征$\mathbf{m}^{(\ell)}_{t,h}$(式~\ref{eq:ch4_dypam_feature})\; + 计算输入条件化的维度级调制分数(式~\ref{eq:ch4_dypam_score})\; + 叠加头级和层级结构偏置(式~\ref{eq:ch4_dypam_struct_q}、\ref{eq:ch4_dypam_struct_k})\; + 归一化得到调制因子(式~\ref{eq:ch4_dypam_factor})\; + 将调制因子应用于Query和Key表示(式~\ref{eq:ch4_dypam_apply})\; + 对调制后的Query和Key施加RoPE\; + 使用调制后的表示计算注意力输出\; +} +计算模型输出与训练损失$\mathcal{L}$(式~\ref{eq:ch4_dypam_loss})\; +\end{algorithm} + +DyPAM的主要超参数包括:调制嵌入维度$d_e$(默认64)、低秩投影秩$r$(默认128)、调制强度$\alpha$(默认0.3)。与RoSA相比,DyPAM不需要显式指定低频维度比例或层选择参数,因为其调制信号覆盖\emph{所有}维度对并在\emph{所有}层上部署,通过学习到的调制因子自动实现差异化分配。 + + +\section{两种方法的统一视角与比较分析} +\label{sec:ch4_unified_view} + +RoSA和DyPAM均针对维度级位置结构异质性($\mathcal{R}_{dim}$),但在设计理念和技术实现上形成了从"选择性增强"到"全面调制"的递进关系。本节从统一框架的视角对两种方法进行系统比较。 + +\subsection{统一框架下的形式化对比} + +在结构感知调制统一框架(式~\ref{eq:ch1_unified_M})下,两种方法可以统一理解为乘性调制的不同实例化: + +\textbf{RoSA}采用"选择+增强"的调制策略。其调制操作仅作用于维度空间的一个子集(低频维度),调制信号为上下文感知的缩放因子,形式上对应式~\eqref{eq:ch4_rosa_unified}。同时,通过DLS在层空间上进行二值选择(活跃/非活跃),实现层级的稀疏化适配。 + +\textbf{DyPAM}采用"全覆盖+精细化调制"的策略。其调制操作覆盖所有维度对,调制信号同时融合输入条件化成分和结构偏置成分,形式上对应式~\eqref{eq:ch4_dypam_unified}。调制因子被归一化到以1为中心的有界区间,通过学习实现差异化而非显式选择。 + +\subsection{设计维度对比} + +表~\ref{tab:ch4_compare}从多个设计维度对两种方法进行了系统比较。 + +\begin{table}[htp] +\centering +\caption{RoSA与DyPAM的设计维度对比} +\label{tab:ch4_compare} +\small +\begin{tabular}{lcc} +\toprule +\textbf{设计维度} & \textbf{RoSA} & \textbf{DyPAM} \\ +\midrule +维度选择 & 静态子集($r_{\text{low}}$) & 全覆盖 \\ +调制粒度 & 逐维度 & 逐维度对 \\ +输入依赖性 & 适配信号输入依赖 & 调制因子输入依赖 \\ +头级差异化 & 共享信号 & 头级偏置 \\ +层级策略 & 二值选择(DLS) & 层级偏置 \\ +调制作用点 & RoPE之后 & RoPE之前 \\ +归一化机制 & 缩放因子$\alpha$ & Sigmoid有界区间 \\ +\bottomrule +\end{tabular} +\end{table} + +\subsection{互补性与递进关系} + +从设计演进的角度看,DyPAM可以理解为对RoSA的全面推进: + +(1)\textbf{从静态选择到动态调制}。RoSA通过$r_{\text{low}}$静态划定增强范围,DyPAM则让所有维度对都参与调制,通过学习自动决定每个维度对的调制幅度。 + +(2)\textbf{从维度级到维度对级}。RoSA在逐维度粒度上操作,DyPAM则与RoPE的维度对结构严格对齐,以维度对为基本调制单位。 + +(3)\textbf{从层选择到层偏置}。RoSA通过DLS对层进行二值选择,DyPAM则通过可学习的层级偏置实现柔性的层间差异化。 + +(4)\textbf{引入头级感知}。RoSA在所有头之间共享适配信号,DyPAM则通过头级偏置允许不同头维持独立的位置偏好。 + +两种方法共同验证了一个核心观点:在RoPE驱动的大语言模型中,维度级位置结构异质性是影响适配效果的关键因素。感知并利用这种异质性,无论是通过选择性增强还是全面精细化调制,都能够显著提升参数高效微调的效能。 + + +\section{实验验证与结果分析} +\label{sec:ch4_experiments} + +本节通过大量实验系统评估RoSA和DyPAM的有效性。实验围绕以下核心问题展开:(1)两种方法相比现有PEFT基线方法的性能优势;(2)方法在不同骨干模型上的泛化能力;(3)跨模型规模的可扩展性;(4)各组件的贡献分析;(5)关键超参数的敏感性分析;(6)学习到的调制模式的可解释性分析。 + +\subsection{实验设置} +\label{subsec:ch4_exp_setup} + +\subsubsection{评测任务与数据集} + +遵循LLM-Adapters的标准设置,本章在两类代表性任务上进行评估: + +\textbf{常识推理任务}。在八个基准数据集上评估:BoolQ、PIQA、Social IQA、ARC-Challenge、ARC-Easy、OBQA、HellaSwag和WinoGrande,使用Commonsense15K作为训练数据。 + +\textbf{数学推理任务}。在七个基准数据集上评估:MultiArith、GSM8K、AddSub、AQuA、SingleEq、SVAMP和MAWPS,使用Math10K作为训练数据。 + +所有任务使用准确率作为评估指标,同时报告Micro-Avg(样本加权平均)和Macro-Avg(任务等权平均)。 + +\subsubsection{骨干模型} + +\textbf{RoSA实验}采用三种广泛使用的大语言模型作为骨干:Qwen2.5-7B、Llama-3.1-8B和Gemma2-9B。在可扩展性实验中进一步使用Qwen2.5系列的0.5B、1.5B、3B和7B四个规模。 + +\textbf{DyPAM实验}采用三种基于RoPE的大语言模型家族:LLaMA 3.2-3B、Qwen3-8B和Gemma3-4B。在可扩展性实验中使用Qwen3系列的0.6B、1.7B、4B和8B四个规模。 + +\subsubsection{基线方法} + +两组实验均与多类主流PEFT方法进行比较,覆盖不同的适配策略:低秩方法(LoRA、DoRA、AdaLoRA)、结构化矩阵方法(BOFT/OFT、C3A、BONE)、轻量缩放方法(IA$^3$、LN Tuning/VeRA)、频域方法(FourierFT)、稀疏适配方法(SHiRA)。DyPAM的实验中还包含RoSA作为基线之一,以直接比较两种方法。 + +\subsubsection{实现细节} + +\textbf{RoSA实验}在NVIDIA RTX 3090上使用PyTorch和HuggingFace Transformers进行。采用AdamW优化器,学习率1e-3,余弦学习率调度。RoSA超参数:$r_{\text{low}} = 0.25$,$\alpha = 0.1$,低秩投影维度128,$k_{\text{ratio}} = 0.5$,$u = 40$步,$p_{\text{exploit}} = 0.8$。使用BF16混合精度与DeepSpeed ZeRO-1优化。 + +\textbf{DyPAM实验}在NVIDIA RTX 4090上使用DeepSpeed和BF16精度进行。DyPAM超参数:$d_e = 64$,$r = 128$,$\alpha = 0.3$。对基线方法在可比可训练参数规模下进行公平比较。 + +\subsection{RoSA实验结果与分析} +\label{subsec:ch4_rosa_results} + +\subsubsection{常识推理性能} + +表~\ref{tab:ch4_rosa_common}展示了RoSA与基线方法在常识推理任务上的性能比较。 + +\begin{table}[htp] + \centering + \caption{RoSA与基线方法在常识推理任务上的性能比较。在三种骨干模型上,RoSA在可比参数预算下均取得最优平均性能。*表示相比最优基线的统计显著提升(双侧t检验,$p<0.05$)。} + \label{tab:ch4_rosa_common} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{0.96} + \begin{tabular}{l|lcccccccccc} + \toprule + \textbf{骨干模型} & \textbf{方法} & \textbf{参数(\%)} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} \\ + \midrule + \multirow{9}{*}{\textbf{Qwen2.5-7B}} + & LoRA & 0.527 & 66.9 & 86.8 & 76.7 & 88.2 & 93.9 & 87.2 & 89.7 & 72.2 & 84.3 \\ + & DoRA & 0.546 & 68.3 & \underline{87.4} & 77.2 & \underline{89.4} & 95.2 & 88.0 & \underline{90.0} & 70.4 & 84.9 \\ + & AdaLoRA & 0.396 & \underline{69.7} & \underline{87.4} & \underline{77.9} & 88.9 & \textbf{95.7} & \underline{89.4} & \textbf{90.6} & 72.6 & \underline{85.6} \\ + & BOFT & 0.023 & 68.5 & 86.0 & 76.1 & 87.5 & 94.6 & 82.4 & 86.1 & 65.3 & 82.4 \\ + & VERA & 0.018 & 55.4 & 83.7 & 74.1 & 85.1 & 93.6 & 77.2 & 82.2 & 64.1 & 77.9 \\ + & C3A & 0.665 & 69.5 & 87.0 & 77.5 & 88.9 & 95.2 & 86.6 & 89.9 & 71.6 & 85.0 \\ + & BONE & 0.291 & 67.6 & 84.9 & 76.8 & 85.2 & 94.3 & 87.4 & 88.3 & \textbf{77.9} & 83.9 \\ + & LN Tuning & 0.001 & 62.5 & 86.0 & 73.3 & 85.0 & 93.3 & 77.2 & 80.9 & 62.1 & 78.4 \\ + & \textbf{RoSA} & 0.261 & \textbf{70.5} & \textbf{88.0} & \textbf{79.1} & \textbf{90.1} & \underline{95.3} & \textbf{89.6} & \textbf{90.6} & \underline{73.7} & \textbf{85.9*} \\ + \midrule + \multirow{9}{*}{\textbf{Llama3.1-8B}} + & LoRA & 0.520 & \textbf{71.7} & 86.8 & 75.5 & 83.1 & \underline{92.7} & 82.4 & \underline{88.6} & 68.8 & 83.7 \\ + & DoRA & 0.537 & 71.5 & 86.9 & 75.8 & 83.2 & 92.5 & 82.2 & 88.5 & 70.0 & 83.8 \\ + & AdaLoRA & 0.390 & 71.1 & 86.2 & 74.7 & \textbf{83.6} & 92.6 & 82.8 & 87.2 & \underline{70.8} & 83.0 \\ + & BOFT & 0.028 & 70.5 & 85.5 & 72.4 & 80.0 & 91.9 & 79.0 & 82.4 & 62.5 & 79.7 \\ + & VERA & 0.017 & 68.8 & 82.9 & 68.4 & 77.6 & 91.4 & 77.4 & 75.2 & 57.4 & 75.2 \\ + & C3A & 0.674 & \underline{71.6} & \textbf{87.7} & \underline{76.2} & 83.1 & 92.6 & \textbf{84.4} & 88.3 & 70.6 & \underline{83.9} \\ + & BONE & 0.274 & 64.7 & 78.4 & 74.2 & 72.1 & 86.8 & 78.2 & 81.8 & 70.3 & 77.6 \\ + & LN Tuning & 0.003 & 70.1 & 84.6 & 70.9 & 80.2 & 91.8 & 78.8 & 80.6 & 61.8 & 78.6 \\ + & \textbf{RoSA} & 0.329 & \textbf{71.7} & \underline{87.1} & \textbf{76.4} & \underline{83.3} & \textbf{92.8} & \underline{83.6} & \textbf{89.0} & \textbf{74.8} & \textbf{84.4*} \\ + \midrule + \multirow{9}{*}{\textbf{Gemma2-9B}} + & LoRA & 0.581 & 69.3 & 88.0 & 77.8 & \textbf{88.0} & \textbf{95.5} & \underline{87.4} & 89.8 & \underline{77.4} & 85.4 \\ + & DoRA & 0.601 & 70.0 & 87.3 & \underline{78.1} & 86.1 & 94.3 & 87.0 & 89.4 & 76.8 & 85.0 \\ + & AdaLoRA & 0.437 & \underline{72.3} & \underline{88.2} & 77.4 & 87.5 & \textbf{95.5} & 86.2 & 89.0 & 73.4 & 85.1 \\ + & BOFT & 0.029 & 65.2 & 83.2 & 72.4 & 81.7 & 91.1 & 75.0 & 80.3 & 62.1 & 77.7 \\ + & VERA & 0.020 & 65.2 & 79.8 & 66.0 & 73.8 & 85.8 & 61.8 & 70.5 & 56.1 & 70.9 \\ + & C3A & 0.699 & 70.7 & 87.7 & 77.7 & 86.9 & \underline{94.5} & 86.8 & \textbf{90.4} & 75.3 & \underline{85.5} \\ + & BONE & 0.319 & 60.3 & 75.3 & 66.3 & 69.0 & 83.7 & 74.0 & 67.3 & 64.3 & 68.7 \\ + & LN Tuning & 0.007 & 61.2 & 78.1 & 66.1 & 73.2 & 85.0 & 65.0 & 71.9 & 55.1 & 70.7 \\ + & \textbf{RoSA} & 0.363 & \textbf{74.0} & \textbf{88.3} & \textbf{78.5} & \underline{87.8} & \textbf{95.5} & \textbf{87.8} & \underline{90.0} & \textbf{77.5} & \textbf{86.2*} \\ + \bottomrule + \end{tabular} + } +\end{table} + +实验结果表明,RoSA在所有三种骨干模型上均取得了最优的平均性能,同时保持了较低的可训练参数量。在Qwen2.5-7B上,RoSA以0.261\%的参数量(低于大多数基线)达到85.9\%的Micro-Avg;在Llama3.1-8B上,以0.329\%参数量达到84.4\%;在Gemma2-9B上,以0.363\%参数量达到86.2\%。 + +从基线方法的比较中可以观察到:(1)AdaLoRA的动态秩分配策略带来了较好的性能,这与DLS模块动态选择层的设计原则一致;(2)LN Tuning虽然参数极少但表现合理,进一步验证了使用LayerNorm作为层重要性代理的合理性。 + +\subsubsection{数学推理性能} + +表~\ref{tab:ch4_rosa_math}展示了RoSA在Qwen2.5-7B上数学推理任务的结果。 + +\begin{table}[htp] + \centering + \caption{RoSA与基线方法在Qwen2.5-7B上数学推理任务的性能比较。} + \label{tab:ch4_rosa_math} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{0.95} + \begin{tabular}{lcccccccc} + \toprule + \textbf{方法} & \textbf{参数(\%)} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} \\ + \midrule + LoRA & 0.527 & 93.0 & 68.7 & 88.8 & 33.8 & \underline{88.9} & 79.2 & 88.2 \\ + DoRA & 0.546 & 92.3 & \underline{70.0} & 88.6 & 34.6 & 88.5 & 79.6 & 87.3 \\ + AdaLoRA & 0.396 & 90.0 & 68.8 & 85.3 & 33.8 & 85.6 & 78.9 & 84.0 \\ + BOFT & 0.023 & 89.6 & 67.8 & 82.5 & 31.1 & 86.2 & 75.2 & 80.2 \\ + VERA & 0.018 & 72.5 & 63.7 & 80.7 & 31.1 & 80.3 & 74.2 & 83.1 \\ + C3A & 0.665 & \textbf{95.3} & 67.1 & \underline{90.3} & \textbf{35.4} & \textbf{90.1} & \underline{82.1} & \underline{89.4} \\ + BONE & 0.291 & 92.8 & 66.6 & 89.6 & 33.4 & 88.3 & \underline{82.1} & 89.0 \\ + LN Tuning & 0.001 & 79.6 & 63.6 & 72.1 & 34.2 & 75.3 & 68.1 & 70.1 \\ + \textbf{RoSA} & 0.261 & \underline{94.3} & \textbf{71.3} & \textbf{92.1} & \underline{35.0} & \textbf{90.1} & \textbf{82.2} & \textbf{92.0} \\ + \bottomrule + \end{tabular} + } +\end{table} + +数学推理任务上的结果与常识推理一致,RoSA在大部分基准数据集上取得最优或次优性能,综合Micro-Avg达到80.1\%,显著优于所有基线方法。这表明RoSA的维度级结构感知适配不仅适用于语义理解类任务,对数值计算与多步推理同样有效。 + +\subsubsection{跨模型规模的可扩展性} + +表~\ref{tab:ch4_rosa_scale}展示了RoSA在不同规模Qwen2.5模型上的可扩展性。 + +\begin{table}[htp] + \centering + \caption{RoSA在不同规模Qwen2.5模型上常识推理任务的可扩展性比较。} + \label{tab:ch4_rosa_scale} + \small + \begin{tabular}{lcccc} + \toprule + \textbf{方法} & \textbf{0.5B} & \textbf{1.5B} & \textbf{3B} & \textbf{7B} \\ + \midrule + AdaLoRA & \underline{53.5} & \underline{75.1} & 81.1 & \underline{85.6} \\ + C3A & 53.1 & 74.9 & \underline{81.2} & 85.0 \\ + \textbf{RoSA} & \textbf{53.7} & \textbf{75.5} & \textbf{82.0} & \textbf{85.9} \\ + \bottomrule + \end{tabular} +\end{table} + +结果显示,随着模型规模增大,所有方法的性能均有提升,但RoSA在各个规模上始终保持明显优势。这表明RoSA的结构感知适配策略具有良好的可扩展性和鲁棒性。 + +\subsection{DyPAM实验结果与分析} +\label{subsec:ch4_dypam_results} + +\subsubsection{数学推理性能} + +表~\ref{tab:ch4_dypam_math}展示了DyPAM在数学推理任务上的性能。 + +\begin{table}[htp] + \centering + \caption{DyPAM与基线方法在数学推理任务上的性能比较。*表示统计显著提升。} + \label{tab:ch4_dypam_math} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{0.9} + \begin{tabular}{l|lcccccccccc} + \toprule + \textbf{骨干} & \textbf{方法} & \textbf{参数(\%)} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} & \textbf{Macro-Avg$\uparrow$} \\ + \midrule + \multirow{10}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}} + & LoRA & 1.12 & 71.50 & 33.21 & 78.48 & 22.44 & 81.50 & 54.10 & 76.47 & 54.96 & 59.67 \\ + & AdaLoRA & 2.22 & 75.67 & 36.32 & 80.51 & 22.83 & 87.80 & 55.60 & 78.57 & 57.90 & 62.47 \\ + & OFT & 0.73 & 87.17 & \textbf{40.18} & \underline{85.82} & \underline{24.02} & 86.42 & 61.50 & \textbf{84.03} & \underline{62.75} & \underline{67.02} \\ + & Bone & 1.14 & \underline{87.50} & 39.73 & 85.57 & 23.62 & 86.61 & \textbf{63.70} & 81.93 & 63.03 & 66.95 \\ + & IA$^3$ & 0.02 & 58.33 & 27.37 & 68.61 & 20.47 & 72.83 & 47.90 & 58.82 & 46.89 & 50.62 \\ + & LN Tuning & 0.01 & 58.00 & 26.38 & 66.58 & 21.26 & 74.80 & 44.90 & 60.08 & 46.01 & 50.29 \\ + & FourierFT & 0.73 & 78.67 & 33.21 & 82.03 & 20.47 & 85.43 & 54.30 & 77.31 & 56.72 & 61.63 \\ + & SHiRA & 1.12 & 82.50 & 38.82 & 84.81 & \underline{24.02} & \underline{87.99} & 56.90 & 81.93 & 60.59 & 65.28 \\ + & RoSA & 0.54 & 84.33 & 37.91 & 82.78 & 22.83 & 87.01 & 52.50 & 78.99 & 59.02 & 63.77 \\ + & \textbf{DyPAM} & 0.92 & \textbf{88.50} & \underline{39.88} & \textbf{86.33} & \textbf{25.20} & \textbf{88.78} & \underline{63.00} & \textbf{84.03} & \textbf{63.58*} & \textbf{67.96*} \\ + \midrule + \multirow{10}{*}{\rotatebox{90}{\textbf{Qwen3-8B}}} + & LoRA & 0.79 & 97.67 & 74.91 & 89.87 & 35.83 & 90.55 & 84.70 & 89.08 & 82.04 & 80.37 \\ + & AdaLoRA & 1.57 & 95.17 & 73.01 & 90.63 & 37.01 & 92.32 & 84.80 & 91.60 & 81.62 & 80.65 \\ + & OFT & 0.51 & 95.67 & 73.46 & 90.38 & 33.07 & 94.09 & 84.90 & 91.60 & 81.80 & 80.45 \\ + & Bone & 0.81 & \underline{98.00} & 72.25 & \underline{91.65} & 33.46 & 93.90 & 83.80 & 90.34 & 81.55 & 80.49 \\ + & IA$^3$ & 0.02 & 92.50 & 72.18 & 84.81 & 35.04 & 86.61 & 80.90 & 86.55 & 78.49 & 76.94 \\ + & LN Tuning & 0.00 & 91.67 & 68.69 & 85.32 & \underline{39.76} & 87.40 & 78.00 & 85.71 & 77.01 & 76.65 \\ + & FourierFT & 0.37 & 94.50 & 70.05 & 87.34 & 31.50 & 86.81 & 82.70 & 81.09 & 78.28 & 76.28 \\ + & SHiRA & 0.79 & 94.83 & \underline{75.36} & 90.13 & 37.01 & 93.90 & \textbf{85.70} & 90.34 & \underline{82.57} & \underline{81.04} \\ + & RoSA & 0.36 & 97.83 & 74.07 & 90.38 & 35.43 & \underline{94.49} & 84.80 & \underline{92.02} & 82.48 & 81.29 \\ + & \textbf{DyPAM} & 0.61 & \textbf{99.17} & \textbf{76.72} & \textbf{91.90} & \textbf{40.94} & \textbf{95.28} & \underline{85.50} & \textbf{92.86} & \textbf{84.24*} & \textbf{83.20*} \\ + \midrule + \multirow{10}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}} + & LoRA & 1.33 & 86.00 & 51.25 & 72.41 & 25.98 & 75.59 & 62.20 & 75.21 & 63.26 & 64.09 \\ + & AdaLoRA & 2.62 & 82.67 & 51.86 & 66.33 & 31.50 & 73.82 & 62.30 & 73.95 & 62.49 & 63.20 \\ + & OFT & 0.75 & 85.83 & \underline{54.28} & 72.91 & \underline{32.28} & 75.59 & \textbf{63.80} & \underline{76.47} & \underline{65.02} & \underline{65.88} \\ + & Bone & 1.41 & \underline{86.17} & 45.87 & 71.39 & 30.31 & 72.64 & 55.10 & 73.11 & 59.69 & 62.08 \\ + & IA$^3$ & 0.03 & 42.67 & 38.89 & 40.51 & 27.17 & 40.75 & 37.20 & 37.39 & 38.62 & 37.80 \\ + & LN Tuning & 0.01 & 32.67 & 30.63 & 45.06 & 23.62 & 56.69 & 40.80 & 37.82 & 37.64 & 38.18 \\ + & FourierFT & 1.10 & 60.83 & 31.24 & 65.32 & 28.35 & 66.73 & 46.30 & 65.97 & 47.89 & 52.10 \\ + & SHiRA & 1.33 & 72.67 & 42.08 & \underline{73.16} & 31.50 & \textbf{76.57} & 61.30 & 75.63 & 58.92 & 61.84 \\ + & RoSA & 0.40 & 34.50 & 38.51 & 66.84 & 31.10 & 63.19 & 43.70 & 62.18 & 45.53 & 48.58 \\ + & \textbf{DyPAM} & 0.62 & \textbf{86.33} & \textbf{55.19} & \textbf{73.42} & \textbf{32.68} & \underline{76.18} & \underline{62.70} & \textbf{76.89} & \textbf{65.28*} & \textbf{66.20*} \\ + \bottomrule + \end{tabular} + } +\end{table} + +DyPAM在所有三种骨干模型上均取得了最优的Macro-Avg和Micro-Avg性能,且改进在统计上显著。值得注意的是,在Qwen3-8B上,DyPAM的Macro-Avg达到83.20\%、Micro-Avg达到84.24\%,显著优于RoSA的81.29\%/82.48\%(同为维度级适配方法),验证了从"静态选择"到"动态调制"的设计改进的有效性。 + +在Gemma3-4B上,RoSA的表现明显下降(Macro-Avg仅48.58\%),这可能源于其固定的低频维度选择比例在该架构上未能适配,而DyPAM的自适应调制机制成功避免了这一问题,取得66.20\%的Macro-Avg。 + +\subsubsection{常识推理性能} + +表~\ref{tab:ch4_dypam_common}展示了DyPAM在常识推理任务上的性能。 + +\begin{table}[htp] + \centering + \caption{DyPAM与基线方法在常识推理任务上的性能比较。*表示统计显著提升。} + \label{tab:ch4_dypam_common} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{0.9} + \begin{tabular}{l|lcccccccccc} + \toprule + \textbf{骨干} & \textbf{方法} & \textbf{参数(\%)} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Macro-Avg$\uparrow$} \\ + \midrule + \multirow{10}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}} + & LoRA & 1.12 & 63.61 & 79.71 & 66.94 & 69.45 & 84.05 & 67.00 & 73.94 & 55.56 & 70.03 \\ + & AdaLoRA & 2.22 & 63.52 & 78.94 & 67.09 & 68.94 & 85.14 & 70.20 & 78.11 & 56.35 & 71.04 \\ + & OFT & 0.73 & \underline{65.63} & 79.54 & 70.37 & 70.39 & 85.06 & 71.80 & \underline{83.15} & \underline{66.38} & \underline{74.04} \\ + & Bone & 1.14 & 64.56 & 75.68 & 69.34 & 64.42 & 79.76 & 70.20 & 75.92 & 65.75 & 70.70 \\ + & IA$^3$ & 0.02 & 62.32 & 77.09 & 59.67 & 57.94 & 77.10 & 57.40 & 50.48 & 52.25 & 61.78 \\ + & LN Tuning & 0.01 & 62.51 & 76.99 & 59.52 & 59.81 & 76.52 & 59.00 & 52.02 & 52.17 & 62.32 \\ + & FourierFT & 0.73 & 62.14 & 79.49 & 61.98 & 61.86 & 80.93 & 62.40 & 73.21 & 49.09 & 66.39 \\ + & SHiRA & 1.12 & 65.23 & \underline{79.65} & 69.14 & \underline{71.16} & \underline{84.97} & \underline{71.20} & 83.18 & 65.67 & 73.78 \\ + & RoSA & 0.54 & 64.53 & \underline{79.65} & \underline{69.86} & 69.28 & 84.43 & 70.80 & 83.12 & 63.54 & 73.15 \\ + & \textbf{DyPAM} & 0.92 & \textbf{65.93} & \textbf{79.76} & \textbf{70.88} & \textbf{70.39} & \textbf{85.19} & \textbf{71.80} & \textbf{83.71} & \textbf{65.35} & \textbf{74.13*} \\ + \midrule + \multirow{10}{*}{\rotatebox{90}{\textbf{Qwen3-8B}}} + & LoRA & 0.79 & 70.49 & 86.34 & 77.18 & 90.19 & 96.51 & 87.60 & 89.50 & 72.85 & 83.83 \\ + & AdaLoRA & 1.57 & 70.73 & 86.51 & 76.71 & 90.36 & 96.55 & 87.20 & 88.92 & 72.38 & 83.67 \\ + & OFT & 0.51 & 69.97 & 86.83 & 76.56 & 89.93 & 96.97 & 88.00 & 89.17 & \underline{76.48} & 84.24 \\ + & Bone & 0.81 & 69.02 & 85.31 & 75.64 & 88.91 & 95.58 & 87.60 & 89.30 & 76.56 & 83.49 \\ + & IA$^3$ & 0.02 & 69.51 & 86.34 & 76.71 & 90.27 & 96.09 & 84.40 & 85.12 & 66.77 & 81.90 \\ + & LN Tuning & 0.00 & 69.33 & 86.40 & 75.95 & 90.27 & 96.00 & 83.00 & 83.86 & 65.43 & 81.28 \\ + & FourierFT & 0.37 & 69.54 & 84.49 & 73.13 & 85.92 & 95.29 & 77.80 & 80.48 & 62.27 & 78.62 \\ + & SHiRA & 0.79 & \underline{70.83} & \underline{87.05} & \underline{77.33} & \underline{90.36} & \underline{96.97} & \underline{88.20} & \underline{89.56} & 75.77 & \underline{84.51} \\ + & RoSA & 0.36 & 68.96 & 86.94 & 75.33 & 89.85 & 96.38 & \underline{88.20} & 89.43 & 76.16 & 83.91 \\ + & \textbf{DyPAM} & 0.61 & \textbf{70.89} & \textbf{87.11} & \textbf{77.33} & \textbf{90.53} & \textbf{97.05} & \textbf{88.80} & \textbf{89.53} & \textbf{76.80} & \textbf{84.75*} \\ + \midrule + \multirow{10}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}} + & LoRA & 1.33 & 65.72 & 79.71 & 69.40 & 74.49 & 87.08 & 71.00 & 74.53 & 55.01 & 72.12 \\ + & AdaLoRA & 2.62 & 66.09 & 79.49 & 68.73 & \underline{76.54} & \underline{89.02} & 74.00 & 73.20 & 58.09 & 73.14 \\ + & OFT & 0.75 & 65.69 & \underline{81.99} & \underline{74.51} & 76.71 & 88.47 & \underline{78.00} & \underline{83.86} & \underline{65.27} & \underline{76.81} \\ + & Bone & 1.41 & 64.68 & 75.35 & 71.24 & 70.39 & 82.83 & 75.80 & 78.33 & 64.48 & 72.89 \\ + & IA$^3$ & 0.02 & 62.17 & 71.49 & 57.32 & 57.51 & 73.19 & 55.20 & 44.89 & 57.85 & 59.95 \\ + & LN Tuning & 0.00 & 62.60 & 66.70 & 49.85 & 49.91 & 63.59 & 45.20 & 47.29 & 60.46 & 55.70 \\ + & FourierFT & 0.37 & 63.94 & 75.57 & 67.14 & 67.32 & 76.05 & 57.80 & 71.81 & 59.35 & 67.37 \\ + & SHiRA & 0.79 & 65.57 & 82.25 & 74.53 & 76.19 & 89.71 & 78.20 & 83.19 & 64.48 & 76.77 \\ + & RoSA & 0.40 & 63.70 & 79.54 & 67.40 & 72.27 & 86.66 & 69.40 & 48.53 & 47.51 & 66.88 \\ + & \textbf{DyPAM} & 0.62 & \textbf{66.21} & \textbf{82.59} & \textbf{74.82} & \textbf{77.13} & \textbf{89.23} & \textbf{79.20} & \textbf{84.09} & \textbf{65.35} & \textbf{77.33*} \\ + \bottomrule + \end{tabular} + } +\end{table} + +DyPAM在所有三种骨干模型的常识推理任务上均取得统计显著的最优Macro-Avg性能。在LLaMA 3.2-3B上达到74.13\%,在Qwen3-8B上达到84.75\%,在Gemma3-4B上达到77.33\%。常识推理与数学推理上的一致性提升表明,DyPAM的位置注意力调制机制具有跨任务域的普适性。值得注意的是,在Gemma3-4B上,RoSA的Macro-Avg仅为66.88\%,远低于DyPAM的77.33\%,进一步验证了动态调制相对于静态维度选择的优势。 + +\subsubsection{跨模型规模的可扩展性} + +表~\ref{tab:ch4_dypam_scale}展示了DyPAM在Qwen3系列不同模型规模上的可扩展性分析。 + +\begin{table}[htp] + \centering + \caption{DyPAM与主要基线方法在不同模型规模上的数学推理性能比较(Macro-Avg准确率\%)。} + \label{tab:ch4_dypam_scale} + \small + \begin{tabular}{lcccc} + \toprule + \textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} & \textbf{Qwen3-8B} \\ + \midrule + LoRA & 64.06 & 66.64 & 75.60 & 80.37 \\ + OFT & \underline{65.96} & \underline{67.81} & 75.54 & 80.45 \\ + SHiRA & 63.95 & 64.65 & 73.33 & \underline{81.04} \\ + RoSA & 63.99 & 67.38 & \underline{77.92} & 81.29 \\ + \textbf{DyPAM} & \textbf{66.13} & \textbf{69.24} & \textbf{78.24} & \textbf{83.20} \\ + \bottomrule + \end{tabular} +\end{table} + +DyPAM在Qwen3系列四个规模(0.6B至8B)上均超越所有基线方法。随模型规模增大,DyPAM与基线之间的性能差距进一步扩大(0.6B上超过OFT 0.17个百分点,8B上超过RoSA 1.91个百分点),表明DyPAM能够更充分地利用大模型增加的表征容量来发挥位置感知调制的优势。 + +\subsection{消融实验与深入分析} +\label{subsec:ch4_ablation} + +\subsubsection{RoSA组件消融} + +表~\ref{tab:ch4_rosa_ablation}展示了RoSA各组件的消融分析,在Qwen2.5-7B常识推理任务上进行。 + +\begin{table}[htp] + \centering + \caption{RoSA消融实验结果(Qwen2.5-7B常识推理Micro-Avg)。} + \label{tab:ch4_rosa_ablation} + \small + \begin{tabular}{lc} + \toprule + \textbf{变体} & \textbf{Micro-Avg$\uparrow$} \\ + \midrule + RoSA(完整) & \textbf{85.9} \\ + RoSA-RoAEonly(移除DLS) & 84.8 \\ + RoSA-RoAE0.5($r_{\text{low}}=0.5$,含DLS) & 85.6 \\ + RoSA-Lr128(用LoRA$r$=128替代RoAE,含DLS) & 83.9 \\ + RoSA-Lr64(用LoRA$r$=64替代RoAE,含DLS) & 80.7 \\ + \bottomrule + \end{tabular} +\end{table} + +消融分析揭示:(1)移除DLS导致1.1\%的下降(85.9→84.8),证明动态层选择的贡献显著;(2)将$r_{\text{low}}$从0.25增至0.5(即扩大增强范围到一半维度)导致0.3\%下降(85.9→85.6),表明更集中地增强低频子空间更为有效;(3)用标准LoRA替代RoAE后性能大幅下降(85.9→83.9/80.7),说明RoPE感知的频率定向增强优于通用低秩适配。 + +\subsubsection{DyPAM组件消融} + +\begin{figure}[htp] + \centering + \includegraphics[width=0.9\linewidth]{assets/4_dypam_ablation.pdf} + \caption{DyPAM消融与超参数敏感性分析。(a)移除各组件后的性能变化;(b)调制强度$\alpha$的影响。} + \label{fig:ch4_dypam_ablation} +\end{figure} + +DyPAM的消融实验表明,每个核心组件在整体性能中发挥互补作用:移除任何单一组件均导致一致性的性能下降,表明DyPAM的性能提升源自各组件的联合设计而非孤立的架构选择。 + +\subsubsection{DLS层选择比例的敏感性} + +\begin{figure}[htp] + \centering + \includegraphics[width=0.45\linewidth]{assets/4_dls_sensitivity.pdf} + \caption{RoSA中层选择比例$k_{\text{ratio}}$的敏感性分析。} + \label{fig:ch4_dls_sensitivity} +\end{figure} + +对RoSA的DLS模块进行层选择比例$k_{\text{ratio}}$的敏感性分析。结果表明,$k_{\text{ratio}} \approx 0.5$时性能最佳。增大该比例反而略微降低性能,说明选择性地更新约一半的层比更新所有层更有效,这与层间异质性的假设一致。 + +\subsubsection{DyPAM调制强度的敏感性} + +对DyPAM的调制强度$\alpha$进行敏感性分析。适当的调制幅度显著优于过弱或过强的调制:$\alpha=0.3$附近取得最优性能。过小的$\alpha$限制了调制的表达能力,而过大的$\alpha$可能过度偏离预训练表示,破坏已学知识。 + +\subsection{可解释性分析} +\label{subsec:ch4_interpretability} + +\subsubsection{RoSA的层选择行为} + +\begin{figure}[htp] + \centering + \includegraphics[width=0.6\linewidth]{assets/4_layer_selection.pdf} + \caption{RoSA训练过程中各层被DLS选择的频率可视化(Qwen2.5-7B)。} + \label{fig:ch4_layer_sel} +\end{figure} + +对RoSA训练过程中DLS的层选择频率进行可视化分析。结果清晰地展现了层间的显著异质性:某些层被一致地识别为更重要并更频繁地被选择进行适配,而另一些层则很少被选中。这一观察从实证角度验证了层间异质性假设,也说明了DLS策略中利用-探索平衡机制的必要性——避免忽视那些选择频率较低但潜在有价值的层。 + +\subsubsection{DyPAM学习到的调制模式} + +\begin{figure}[htp] + \centering + \includegraphics[width=0.9\linewidth]{assets/4_bias_modulation.pdf} + \caption{DyPAM学习到的位置调制模式。(a)层级偏置在Query维度上的分布,展示异构且结构化的偏置变化;(b)层级调制范围,显示稳定受控的缩放行为。} + \label{fig:ch4_modulation_pattern} +\end{figure} + +对DyPAM学习到的层级偏置和调制范围进行可视化分析,揭示了两个关键发现: + +(1)\textbf{异构的结构偏置}。层级偏置在不同层和不同维度上展现出非均匀的变化模式,而非均匀的偏移。这种结构化的非均匀性表明,不同注意力维度在不同深度发展出了各自独特的位置偏好,与位置信息在各层被差异化利用的直觉一致。 + +(2)\textbf{受控的调制范围}。调制因子围绕1保持适度的方差,表明DyPAM进行的是精细化的微调而非大幅度的重塑。这种克制的调制行为在保留预训练注意力结构的同时提供了必要的适配灵活性。 + + + + + + + + +\section{本章小结} +\label{sec:ch4_summary} + +本章围绕维度级位置结构异质性($\mathcal{R}_{dim}$),在统一分析框架下提出了两种递进式的结构感知适配方法。 + +RoSA通过RoPE感知注意力增强模块(RoAE)选择性地增强Query/Key表示中功能关键的低频维度成分,并通过动态层选择策略(DLS)自适应地分配层间适配资源,实现了"维度内精准增强+层间动态选择"的双层级结构感知适配。在15个常识与数学推理基准上,RoSA在三种骨干模型上均取得了最优性能,同时保持了较低的参数开销。 + +DyPAM进一步将维度级适配从"静态选择"推进至"动态调制",引入输入条件化的维度级调制机制,使调制信号根据输入上下文动态生成;同时引入头级和层级结构偏置,实现多粒度的位置感知。DyPAM通过与RoPE维度对结构的严格对齐和有界调制因子的设计,在保留预训练知识的前提下实现了更精细化的适配。在三种新一代骨干模型和15个基准数据集上,DyPAM进一步超越了包括RoSA在内的所有基线方法。 + +从RoSA到DyPAM的递进演化验证了维度级位置结构异质性作为影响适配效果关键因素的假设,也展示了在统一框架下通过逐步深化结构感知能力来提升适配性能的方法论路径。 + +第三章和第四章分别从模块级功能异质性和维度级位置结构异质性出发,提出了乘性调制范式的结构感知适配方法。下一章将转向频谱级多尺度异质性和参数级容量分配异质性,探索组合式调制和结构分解调制两种新的调制形式,进一步丰富结构感知适配的方法体系。 + + + +% 第五章 多尺度结构建模与参数结构自适应学习方法 +\chapter{多尺度频谱感知与参数自适应的时空表征学习方法} +\label{chap:cascade_messa} + +\section{本章概述} +\label{sec:ch5_overview} + +前两章分别从模块级功能异质性($\mathcal{R}_{mod}$,第三章)和维度级位置结构异质性($\mathcal{R}_{dim}$,第四章)出发,提出了基于乘性调制的结构感知适配方法。这些方法的共同特点是在\emph{表示空间}中对中间表示流进行调制。本章将视角从表示空间转向\emph{参数空间},关注模型权重更新本身的结构特性,提出两种新的调制形式。 + +在将大语言模型适配到时空数据建模任务时,参数空间的结构异质性表现为两个互补的层面: + +\textbf{第一,频谱级多尺度异质性($\mathcal{R}_{spec}$)}。时空数据的动态变化同时包含多时间尺度成分。从参数更新的频谱视角来看,模型适配同样涉及全局性的平滑调整(低频成分)和局部性的精细修正(高频成分)。实证分析表明,权重更新的高频成分在频谱能量上占主导地位,但影响范围局限于少数参数区域;而低频成分虽然能量较小,却影响权重矩阵的大部分区域。这种能量-影响力失配揭示了从粗到细的适配模式——低频成分建立全局适配结构,高频成分在此基础上进行局部精修。现有PEFT方法通常采用单一结构假设(如纯低秩或纯频域),难以同时捕获这种异构的多尺度适配模式。 + +\textbf{第二,参数级容量分配异质性($\mathcal{R}_{param}$)}。面向多源时空数据的联合建模中,不同任务对模型参数容量的需求并不均匀。交通流量预测、区域功能分类、轨迹推理等任务可以共享部分适配参数(如通用的时空语义对齐),但也需要各自的专用参数支持任务特异性的精细化调整。如何在有限参数预算下,在共享与专用之间实现最优容量分配,构成参数级的结构异质性挑战。 + +针对上述两类异质性,本章提出两种方法: + +\textbf{(1)基于频谱级联的多尺度参数适配方法(CASCADE)}。CASCADE通过异构频域/空域专家(DCT低频专家、小波高频专家、空域残差专家)建模权重更新的多尺度结构,并引入级联频谱调制机制建立低频到高频的从粗到细依赖关系,辅以频谱复杂度感知路由实现自适应专家组合。CASCADE对应统一框架中的组合式调制形式(式~\ref{eq:ch1_compositional})。 + +\textbf{(2)基于共享-特有稀疏分解的多任务适配方法(MESSA)}。MESSA将任务适配分解为全局共享稀疏增量与任务特有稀疏增量,通过预算感知的软门控机制实现可微分的结构分配,最终通过一次性全局剪枝生成可部署的稀疏模型。MESSA对应统一框架中的结构分解调制形式(式~\ref{eq:ch1_structural})。 + +本章后续安排如下:第~\ref{sec:ch5_background}~节分析参数空间的结构异质性问题;第~\ref{sec:cascade}~节详述CASCADE方法;第~\ref{sec:messa}~节详述MESSA方法;第~\ref{sec:ch5_analysis}~节分析两种视角的关联与互补性;第~\ref{sec:ch5_experiments}~节给出实验验证;第~\ref{sec:ch5_summary}~节总结全章。 + + +\section{参数空间的结构异质性分析} +\label{sec:ch5_background} + +\subsection{权重更新的频谱特性} +\label{subsec:ch5_spectral} + +在标准PEFT框架下,给定预训练权重矩阵$\mathbf{W}_0 \in \mathbb{R}^{m \times n}$,适配操作引入加性权重更新$\Delta \mathbf{W}$,使得适配后的变换为$\mathbf{y} = (\mathbf{W}_0 + \Delta \mathbf{W}) \mathbf{x}$。不同PEFT方法通过对$\Delta \mathbf{W}$施加不同的结构约束来降低适配代价。 + +从频域视角来看,$\Delta \mathbf{W}$可以被视为定义在参数索引上的二维信号。通过施加适当的线性变换(如傅里叶变换、小波变换),可以将权重更新分解为与不同空间频率关联的成分。低频成分对应平滑、缓变的模式,跨越权重矩阵的大片区域;高频成分捕获集中于特定参数区域的快速变化。 + +\begin{figure}[htp] + \centering + \includegraphics[width=0.9\linewidth]{assets/5_spectral_analysis.pdf} + \caption{全量微调下权重更新的频谱特性。高频成分在频谱能量上占主导,但影响范围局限于少量参数;低频成分能量较小但影响权重矩阵的大部分区域。该模式在不同层和模块间保持一致。} + \label{fig:ch5_spectral} +\end{figure} + +对全量微调下权重更新的频谱分析揭示了一个重要发现:高频成分在频谱能量上占主导地位,但其影响范围往往局限于参数空间的有限子集;相反,低频成分虽然频谱能量较小,却影响着权重矩阵的大部分区域。这种能量-影响力失配具有明确的物理含义:大空间覆盖范围与低频谱能量对应着分布在大量参数上的平滑一致性变化,代表全局性结构适配;高频谱能量集中于有限参数子集则对应稀疏的局部化修正。 + +这一发现揭示了权重更新的\emph{从粗到细}适配模式:低频成分建立全局适配结构,高频成分在此基础上进行特定区域的精细修正。有效的适配需要同时建模这种异构频率成分及其依赖关系。 + +\subsection{多任务适配中的参数容量分配问题} +\label{subsec:ch5_capacity} + +\begin{figure}[htp] + \centering + \includegraphics[width=0.9\linewidth]{assets/5_task_activation.png} + \caption{多任务微调中不同任务在注意力模块各层的激活差异。红色表示任务A激活更强,蓝色表示任务B激活更强,揭示了不同层和模块对共享/专用适配的差异化需求。} + \label{fig:ch5_task_diff} +\end{figure} + +在实际的时空智能应用中,单一预训练模型通常需要同时服务多个下游任务。在严格的存储和推理效率约束下,如何在多个任务之间分配有限的适配参数预算,成为关键问题。 + +实证分析表明,不同任务在模型内部表现出显著的激活差异。某些层和模块的激活模式在任务间高度一致,适合共享适配参数;而另一些层和模块则表现出强烈的任务依赖性,需要专用参数支持。这种观察促使我们将多任务稀疏微调形式化为一个\emph{结构分配问题}。 + +形式上,考虑$T$个下游任务$\{\mathcal{T}_t\}_{t=1}^T$。每个任务$t$的适配通过稀疏更新$\Delta^{(t)}$实现,分解为共享成分和任务特有成分: +\begin{equation} +\Delta^{(t)} = \Delta_{\text{sh}} + \Delta_{\text{sp}}^{(t)}, +\label{eq:ch5_decomp} +\end{equation} +其中$\Delta_{\text{sh}}$为跨任务共享的稀疏更新,$\Delta_{\text{sp}}^{(t)}$为任务$t$的特有稀疏更新。所有任务的适配需满足统一的全局参数预算约束$B$。 + +现有方法在面对此问题时存在两个根本局限:(1)\textbf{任务共享挑战}——要么强制全部共享(无法捕获任务差异),要么完全独立(参数冗余);(2)\textbf{资源分配挑战}——缺乏全局分配机制,共享与专用参数无法在统一预算下联合竞争。 + +\subsection{对时空适配方法的启示} + +上述分析为时空适配方法的设计提供了以下启示: + +\textbf{(1)需要异构的参数化策略。}单一的结构假设(如纯低秩或纯频域)无法同时捕获全局平滑调整和局部精细修正。有效的方法应当为不同类型的更新模式提供各自适合的参数化方式。 + +\textbf{(2)需要跨频率的协调机制。}全局更新和局部更新并非独立,局部修正应当受全局结构的指导。需要显式建模这种从粗到细的依赖关系。 + +\textbf{(3)需要共享-专用的灵活分解。}多任务适配应当允许部分参数在任务间共享,同时保留足够的专用参数容量,且分配应当是数据驱动的而非人为预设的。 + +\textbf{(4)需要全局预算约束下的联合优化。}共享和专用参数应当在统一预算框架下竞争分配,避免孤立分配导致的次优解。 + +CASCADE和MESSA分别回应了上述启示的前两点和后两点。 + + +\section{基于频谱级联的多尺度参数适配方法} +\label{sec:cascade} + +基于上节对权重更新频谱特性的分析,本节提出基于频谱级联的多尺度参数适配方法(Coarse-to-Fine Spectral Cascading, CASCADE)。CASCADE的核心思想是:通过异构频域/空域专家分别建模不同尺度的适配模式,并通过级联调制建立从粗到细的跨频率依赖关系。 + +\begin{figure}[htp] + \centering + \includegraphics[width=0.85\linewidth]{assets/5_cascade_arch.pdf} + \caption{CASCADE方法框架图。CASCADE通过异构的频域和空域专家适配冻结的骨干模块,借助级联调制协调全局与局部更新,并通过频谱复杂度感知路由实现自适应专家组合。} + \label{fig:ch5_cascade_arch} +\end{figure} + +\subsection{框架概述} +\label{subsec:cascade_overview} + +如图~\ref{fig:ch5_cascade_arch}所示,CASCADE采用异构混合专家架构,在冻结的预训练骨干上引入三个互补的专家:(i)基于离散余弦变换(DCT)的低频专家,捕获全局平滑更新;(ii)基于小波细节子带的高频专家,建模局部精细修正;(iii)空域残差专家,处理频域难以表示的更新模式。 + +CASCADE进一步引入级联频谱调制机制,使低频更新条件化地指导高频修正的生成,建立显式的从粗到细依赖关系。同时,频谱复杂度感知路由模块基于输入特征动态组合不同专家的输出。 + +在统一分析框架下,CASCADE的适配操作形式化为: +\begin{equation} +\mathbf{y} = \mathbf{W}_0 \mathbf{x} + \sum_{e=1}^{E} w_e(\mathbf{x}) \cdot \Delta \mathbf{W}_e \mathbf{x}, +\label{eq:ch5_cascade_formulation} +\end{equation} +其中$w_e(\mathbf{x})$为输入依赖的路由权重,$\Delta \mathbf{W}_e$为第$e$个专家产生的结构化权重更新。三个专家分别在不同域中对$\Delta \mathbf{W}$施加互补的结构约束。 + +\subsection{异构频域专家设计} +\label{subsec:cascade_experts} + +\subsubsection{基于DCT的低频专家} + +低频专家旨在捕获跨越权重矩阵大片区域的全局平滑更新模式。这类模式通常源于语义对齐或全局推理行为的调整。 + +为引入全局平滑先验,该专家在离散余弦变换(DCT)域中参数化更新。设$\mathbf{S}_{\text{dct}} \in \mathbb{R}^{m \times n}$为DCT域系数矩阵。通过限制学习只在预定义的低频索引集$\mathcal{I}_{\text{dct}}$上进行: +\begin{equation} +\mathbf{S}_{\text{dct}}[i,j] = +\begin{cases} +s_k, & (i,j) \in \mathcal{I}_{\text{dct}}, \\ +0, & \text{otherwise}, +\end{cases} +\label{eq:ch5_dct_sparse} +\end{equation} +其中$\{s_k\}_{k=1}^{K_{\text{dct}}}$为与固定低频位置关联的可训练参数。索引集$\mathcal{I}_{\text{dct}}$通过选择距零频索引(0,0)曼哈顿距离最小的$K_{\text{dct}}$个位置获得。空域更新通过逆DCT变换重建: +\begin{equation} +\Delta \mathbf{W}_{\text{dct}} = \text{IDCT}(\mathbf{S}_{\text{dct}}). +\label{eq:ch5_dct_inverse} +\end{equation} + +通过限制学习低频系数,该专家对$\Delta \mathbf{W}_{\text{dct}}$施加全局平滑先验,以紧凑的参数化高效建模大尺度结构调整。 + +\subsubsection{基于小波的高频专家} + +低频专家捕获全局结构,但有效适配同样需要精细化的局部高频修正。为建模此类模式,高频专家在小波域中参数化更新,利用小波变换在空间和频率域上的联合局部化能力。 + +采用单层二维Haar小波基,定义四个子带:一个低频近似子带($\mathbf{LL}$)和三个细节子带($\mathbf{LH}$、$\mathbf{HL}$、$\mathbf{HH}$),分别对应不同方向的高频成分。为聚焦局部修正,丢弃近似成分,仅参数化细节子带。设$\mathcal{B}=\{\text{LH}, \text{HL}, \text{HH}\}$为细节子带集合,对每个$b \in \mathcal{B}$学习稀疏系数矩阵$\mathbf{B}_b$: +\begin{equation} +\mathbf{B}_b[i,j] = +\begin{cases} +s^{(b)}_k, & (i,j) \in \mathcal{I}_b, \\ +0, & \text{otherwise}, +\end{cases} +\label{eq:ch5_wavelet_sparse} +\end{equation} +其中$\mathcal{I}_b$为随机采样一次并在训练中保持不变的固定索引集。空域更新通过逆Haar变换重建: +\begin{equation} +\Delta \mathbf{W}_{\text{wav}} = \text{IHaar}(\mathbf{0}, \mathbf{B}_{\text{LH}}, \mathbf{B}_{\text{HL}}, \mathbf{B}_{\text{HH}}). +\label{eq:ch5_wavelet_inverse} +\end{equation} + +\subsubsection{空域残差专家} + +频域参数化虽然施加了有用的结构先验,但可能无法捕获某些不规则的更新模式。CASCADE包含一个轻量空域残差专家,直接在原始参数空间中以低秩分解参数化残差更新: +\begin{equation} +\Delta \mathbf{W}_{\text{spatial}} = \mathbf{B}\mathbf{A}, +\label{eq:ch5_spatial_update} +\end{equation} +其中$\mathbf{A} \in \mathbb{R}^{r \times n}$和$\mathbf{B} \in \mathbb{R}^{m \times r}$,$r$为较小的秩。该专家为频域专家无法充分表达的更新模式提供补偿。 + +\subsection{级联频谱调制机制} +\label{subsec:cascade_cascading} + +上述异构专家分别捕获权重更新的互补方面。然而,若将全局更新和局部更新视为独立成分,则忽略了它们之间的内在依赖——局部修正在实践中往往受全局结构的指导。为显式建模这种从粗到细的关系,CASCADE引入级联频谱调制机制。 + +具体地,将学习到的低频DCT系数展平为固定维度的条件化向量$\mathbf{z}$,该向量概括了全局适配模式,作为条件化网络的输入: +\begin{equation} +(\gamma_b, \beta_b)_{b \in \mathcal{B}} = g(\mathbf{z}), +\label{eq:ch5_film_params} +\end{equation} +其中$g(\cdot)$为轻量多层感知机,输出逐子带的标量调制参数。调制应用于小波细节子带系数: +\begin{equation} +\tilde{\mathbf{B}}_b = (1 + \gamma_b) \mathbf{B}_b + \beta_b, \quad b \in \mathcal{B}, +\label{eq:ch5_bandwise_film} +\end{equation} +其中$\gamma_b$和$\beta_b$为在子带$b$内所有位置间共享的标量参数。调制仅应用于$\mathcal{I}_b$中的采样系数位置。 + +该设计建立了显式的从粗到细依赖关系:全局低频结构引导局部修正的生成,确保局部化的精细调整与整体适配方向保持一致。 + +\subsection{频谱复杂度感知路由} +\label{subsec:cascade_routing} + +级联调制定义了不同更新成分之间的耦合方式,但这些成分的相对重要性可能因输入而异。CASCADE采用频谱复杂度感知路由机制,基于输入特征动态组合专家输出。 + +给定线性层的输入激活,通过池化获得序列级表示$\bar{\mathbf{x}}$。从该表示中提取两类互补的路由特征:轻量频谱统计特征$\bar{\mathbf{x}}_{\text{spec}}$(刻画输入的变化和振荡程度)和通过可学习线性投影获得的语义特征。两类特征通过线性投影融合: +\begin{equation} +\mathbf{h} = \mathbf{W}_{\text{spec}} \bar{\mathbf{x}}_{\text{spec}} + \mathbf{W}_{\text{sem}} \bar{\mathbf{x}}, +\label{eq:ch5_feature_fusion} +\end{equation} +并通过Softmax映射为专家权重: +\begin{equation} +\mathbf{w} = \text{softmax}(\mathbf{W}_{\text{out}} \mathbf{h}), +\label{eq:ch5_routing_weights} +\end{equation} +其中$\mathbf{w} \in \mathbb{R}^{E}$为每个专家分配的非负权重。 + +\subsection{训练目标} +\label{subsec:cascade_training} + +CASCADE在冻结骨干的基础上使用下游任务的标准监督目标进行端到端训练。整体训练目标包含任务损失和两个辅助正则化项: +\begin{equation} +\mathcal{L} = \mathcal{L}_{\text{task}} + \lambda_{\text{bal}} \mathcal{L}_{\text{bal}} + \lambda_{\text{orth}} \mathcal{L}_{\text{orth}}, +\label{eq:ch5_cascade_loss} +\end{equation} +其中$\mathcal{L}_{\text{bal}}$为路由负载均衡正则化,通过约束各专家路由权重的分布均匀性防止退化的路由解: +\begin{equation} +\mathcal{L}_{\text{bal}} = E \sum_{e=1}^{E} \left( \frac{1}{B} \sum_{b=1}^{B} w_e^{(b)} \right)^2, +\label{eq:ch5_load_balance} +\end{equation} +其中$w_e^{(b)}$为专家$e$在第$b$个样本上的路由权重,$B$为批次大小。$\mathcal{L}_{\text{orth}}$为频谱正交性正则化,鼓励频域专家捕获互补的频谱模式: +\begin{equation} +\mathcal{L}_{\text{orth}} = \left| \left\langle \mathrm{vec}(\mathbf{S}_{\text{dct}}), \mathrm{vec}([\mathbf{B}_{\mathrm{LH}}, \mathbf{B}_{\mathrm{HL}}, \mathbf{B}_{\mathrm{HH}}]) \right\rangle \right|. +\label{eq:ch5_orth_loss} +\end{equation} +该项通过最小化DCT系数向量与小波系数向量之间的内积绝对值,促使两类频域专家分别聚焦于互补的频谱模式。 + +CASCADE的主要超参数包括:低频DCT系数20K个、小波系数10K个、空域残差专家秩$r=48$、负载均衡和正交性损失权重均为0.01。CASCADE的整体训练流程如算法~\ref{alg:ch5_cascade}所示。 + +\RestyleAlgo{ruled} +\begin{algorithm}[htp] +\caption{CASCADE:从粗到细的频谱级联适配算法} +\label{alg:ch5_cascade} +\KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$} +\KwOut{适配后的输出$\mathbf{y}$} +计算基础输出 $\mathbf{y}_0 \leftarrow \mathbf{W}_0 \mathbf{x}$\; +\textbf{低频专家:}\; +构建稀疏DCT频谱$\mathbf{S}_{\text{dct}}$(式~\ref{eq:ch5_dct_sparse})\; +重建全局更新$\Delta \mathbf{W}_{\text{dct}}$(式~\ref{eq:ch5_dct_inverse})\; +\textbf{高频专家:}\; +构建稀疏小波细节系数$\{\mathbf{B}_b\}_{b\in\mathcal{B}}$(式~\ref{eq:ch5_wavelet_sparse})\; +计算调制参数$(\gamma_b,\beta_b)_{b\in\mathcal{B}}$(式~\ref{eq:ch5_film_params})\; +应用频段级FiLM调制$\tilde{\mathbf{B}}_b$(式~\ref{eq:ch5_bandwise_film})\; +重建局部更新$\Delta \mathbf{W}_{\text{wav}}$(式~\ref{eq:ch5_wavelet_inverse})\; +\textbf{空域残差专家:}\; +计算残差更新$\Delta \mathbf{W}_{\text{spatial}}$(式~\ref{eq:ch5_spatial_update})\; +\textbf{路由与聚合:}\; +计算专家权重$\mathbf{w}$(式~\ref{eq:ch5_routing_weights})\; +聚合更新 $\Delta \mathbf{W} \leftarrow \sum_{e=1}^{E} w_e \cdot \Delta \mathbf{W}_e$\; +\Return{$\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$} +\end{algorithm} + + +\section{基于共享-特有稀疏分解的多任务适配方法} +\label{sec:messa} + +CASCADE解决了单一适配中的频谱级多尺度异质性问题。本节进一步关注多任务场景下的参数级容量分配异质性,提出MESSA(Multi-task Efficient Shared-Specific Sparse Adaptation)方法。 + +\begin{figure}[htp] + \centering + \includegraphics[width=0.85\linewidth]{assets/5_messa_arch.pdf} + \caption{MESSA方法框架图。MESSA将适配分解为共享和任务特有的稀疏更新,通过预算感知的软门控学习稀疏结构,并通过软到硬的训练过程在统一参数预算下生成可部署的稀疏模型。} + \label{fig:ch5_messa_arch} +\end{figure} + +\subsection{框架概述} +\label{subsec:messa_overview} + +MESSA的核心思想是将多任务稀疏微调形式化为结构分配问题:参数组作为决策单元,被显式分配为冻结、跨任务共享或任务特有三种状态之一,且在统一全局预算约束下进行优化。 + +如图~\ref{fig:ch5_messa_arch}所示,MESSA包含三个关键设计:(1)共享-特有稀疏表示(SS-Sparse),将每个任务的适配分解为共享和任务特有的稀疏增量;(2)预算感知的软门控机制,通过可微分门控变量引导结构分配;(3)软到硬的结构学习策略,通过一次性剪枝将学习到的软结构转化为固定的可部署稀疏模型。 + +在统一分析框架下,MESSA的适配操作对应结构分解调制形式(式~\ref{eq:ch1_structural}): +\begin{equation} +\Delta^{(t)} = \sum_{g \in \mathcal{G}} \left( z^{\text{sh}}_g \cdot \Delta^{\text{sh}}_g + z^{\text{sp}}_{g,t} \cdot \Delta^{\text{sp}}_{g,t} \right), +\label{eq:ch5_messa_gated} +\end{equation} +其中$z^{\text{sh}}_g$和$z^{\text{sp}}_{g,t}$分别为共享和任务特有的软门控值,控制参数组$g$在共享与专用方向上的分配。 + +\subsection{共享-特有稀疏表示} +\label{subsec:messa_ss_sparse} + +\subsubsection{多任务共享-特有增量分解} + +MESSA将每个任务$t$的适配增量分解为共享成分和任务特有成分(式~\ref{eq:ch5_decomp})。共享增量$\Delta_{\text{sh}}$捕获跨任务的通用知识,任务特有增量$\Delta_{\text{sp}}^{(t)}$建模任务依赖的变化。 + +该分解的优势在于:第一,允许相关任务复用一组通用的稀疏更新,减少参数冗余;第二,保留足够的灵活性进行任务特有适配,避免强制完全共享的限制。 + +\subsubsection{行级结构化参数组} + +为实现结构化稀疏和高效的容量分配,MESSA将稀疏更新组织为参数组。对于权重矩阵$\mathbf{W} \in \mathbb{R}^{d_{\text{out}} \times d_{\text{in}}}$中的线性变换,每个输出行被视为一个独立的参数组。参数组$g$的参数代价为$s_g = d_{\text{in}}$。 + +行级分组在灵活性和结构化之间取得良好平衡:相比逐元素稀疏性,显著减少了结构决策数量;相比更粗粒度的层级分组,允许更精细的容量分配。在Transformer模型中,行级参数组自然对应输出神经元和注意力投影,适合作为选择性适配的基本单位。 + +\subsubsection{组级软门控} + +为实现可微分的结构分配,MESSA为每个参数组关联可学习的软门控。对于参数组$g$,引入共享门控$z^{\text{sh}}_g \in (0,1)$和任务特有门控$z^{\text{sp}}_{g,t} \in (0,1)$,分别调制共享和任务特有成分的贡献。 + +软门控作为离散结构决策的连续代理,允许梯度优化同时作用于参数值和结构分配变量。训练期间,参数组可以同时参与共享和任务特有更新,允许模型探索不同程度的跨任务共享。 + +\subsubsection{共享-特有重叠正则化} + +为防止共享和任务特有成分的过度同时激活(导致冗余适配和不清晰的结构分离),MESSA引入重叠正则化: +\begin{equation} +\mathcal{L}_{\text{overlap}} = \sum_{t=1}^T \sum_{g \in \mathcal{G}} z^{\text{sh}}_g \cdot z^{\text{sp}}_{g,t}, +\label{eq:ch5_overlap} +\end{equation} +鼓励每个参数组倾向于被分配给共享\emph{或}任务特有适配之一。 + +\subsection{预算感知的软到硬结构学习} +\label{subsec:messa_soft_to_hard} + +\subsubsection{预热阶段} + +训练初期,稀疏适配参数和结构门控尚不具备信息量。为避免不稳定的分配决策,MESSA引入预热阶段:冻结门控变量,仅优化候选池内的稀疏适配参数: +\begin{equation} +\mathcal{L}_{\text{warmup}} = \mathcal{L}_{\text{task}}. +\label{eq:ch5_warmup} +\end{equation} + +\subsubsection{预算感知的软学习} + +预热后,联合优化稀疏适配参数和结构门控。定义软门控下的预期适配代价: +\begin{equation} +\mathcal{C}_{\text{soft}} = \sum_{g \in \mathcal{G}} s_g \cdot z^{\text{sh}}_g + \sum_{t=1}^T \sum_{g \in \mathcal{G}} s_g \cdot z^{\text{sp}}_{g,t}, +\label{eq:ch5_soft_cost} +\end{equation} +通过惩罚超出目标预算$B$来施加预算约束: +\begin{equation} +\mathcal{L}_{\text{budget}} = \max(0, \mathcal{C}_{\text{soft}} - B). +\label{eq:ch5_budget} +\end{equation} + +该阶段的整体训练目标为: +\begin{equation} +\mathcal{L}_{\text{soft}} = \mathcal{L}_{\text{task}} + \mathcal{L}_{\text{budget}} + \lambda_{\text{overlap}} \mathcal{L}_{\text{overlap}}, +\label{eq:ch5_soft_objective} +\end{equation} +在任务性能、结构稀疏性和共享-特有分离之间取得平衡。 + + +\RestyleAlgo{ruled} +\begin{algorithm}[htp] +\caption{MESSA:软到硬的多任务稀疏微调算法} +\label{alg:ch5_messa} +\KwIn{冻结骨干模型$\mathcal{M}$,任务集合$\{\mathcal{T}_t\}_{t=1}^T$,全局预算$B$,训练步数$S$} +\KwOut{共享稀疏更新$\Delta_{\mathrm{sh}}$,各任务特有稀疏更新$\{\Delta_{\mathrm{sp}}^{(t)}\}_{t=1}^T$} +初始化$\Delta_{\mathrm{sh}}, \Delta_{\mathrm{sp}}^{(t)} \leftarrow \mathbf{0}$,对所有$t$\; +初始化所有参数组的软门控变量\; +基于行级权重范数构建候选池$\mathcal{C}$\; +设定预热步数$S_{\mathrm{warmup}}$和剪枝步$S_{\mathrm{prune}}$\; +\For{$s = 1$ \KwTo $S$}{ + 采样任务$t$和对应小批量数据\; + \If{$s \le S_{\mathrm{warmup}}$}{ + 冻结所有软门控\; + 在候选池$\mathcal{C}$内使用任务损失$\mathcal{L}_{\text{task}}$更新$\Delta_{\mathrm{sh}}$和$\Delta_{\mathrm{sp}}^{(t)}$(式~\ref{eq:ch5_warmup})\; + } + \Else{ + 使用软门控计算门控化更新(式~\ref{eq:ch5_messa_gated})\; + 使用预算感知目标$\mathcal{L}_{\text{soft}}$联合优化稀疏更新和门控变量(式~\ref{eq:ch5_soft_objective})\; + } + \If{$s = S_{\mathrm{prune}}$}{ + 按门控值对参数组排序\; + 在预算$B$约束下选择共享和任务特有参数组\; + 将软门控转为二值掩码,剪枝未选中组\; + 固定稀疏结构,进行剩余训练步的参数精调\; + } +} +\Return{$\Delta_{\mathrm{sh}}, \{\Delta_{\mathrm{sp}}^{(t)}\}_{t=1}^T$} +\end{algorithm} + +\subsubsection{一次性硬选择} + +预算感知软学习之后,通过一次性硬选择将学习到的软结构转化为固定的可部署稀疏结构。按门控值($z^{\text{sh}}_g$用于共享更新,$z^{\text{sp}}_{g,t}$用于任务特有更新)对参数组排序,依次选择得分最高的组直到满足全局预算约束。未选中组的更新被设为零,选中组的稀疏更新被固定用于推理。最终模型具有固定的稀疏结构,在推理时不引入额外开销。 + +\subsection{MESSA整体算法} +\label{subsec:messa_algorithm} + +MESSA的整体训练流程遵循软到硬的结构学习范式,如算法~\ref{alg:ch5_messa}所示。 + + +MESSA的主要超参数包括:参数预算2.5\%、门控预热比例5\%、在训练15\%处执行剪枝。候选池因子设为1.5,重叠允许比例为15\%。MESSA不修改骨干架构也不引入辅助模块,适合多任务部署场景。 + + +\section{频谱结构与稀疏结构的关联分析} +\label{sec:ch5_analysis} + +CASCADE和MESSA从不同角度应对参数空间的结构异质性挑战,两者之间存在深层的关联与互补性。 + +\subsection{统一框架下的定位} + +在结构感知调制统一框架中,CASCADE对应组合式调制(式~\ref{eq:ch1_compositional}),将权重更新分解为不同频段的成分进行独立参数化后重组;MESSA对应结构分解调制(式~\ref{eq:ch1_structural}),将适配参数分解为共享和专用两部分进行差异化分配。 + +两种调制形式反映了参数空间结构异质性的两个正交维度:CASCADE关注\emph{单一适配内部的多尺度频谱结构}——全局性的平滑调整与局部性的精细修正需要不同的参数化策略;MESSA关注\emph{多任务间的容量分配结构}——共享知识与专用知识需要在有限预算下进行最优分配。 + +\subsection{互补性分析} + +\textbf{(1)视角互补}。CASCADE从频谱分解的视角审视权重更新的内在结构,解决的是"如何表示不同尺度的适配模式"的问题;MESSA从任务分解的视角审视跨任务的参数分配,解决的是"如何在任务间分配适配容量"的问题。 + +\textbf{(2)适用场景互补}。CASCADE更适用于单一复杂任务的深度适配场景,其多尺度专家可以精细化地捕获不同层次的适配需求;MESSA更适用于多任务并行部署场景,其共享-特有分解与预算感知分配直接面向资源受限的多任务部署需求。 + +\textbf{(3)方法组合的可能性}。从原理上,CASCADE和MESSA的设计并不互斥。可以设想在MESSA的共享-特有框架内,对每个稀疏更新成分采用CASCADE的异构频域参数化,从而同时实现多尺度感知和跨任务分配。 + +\subsection{共同验证的核心观点} + +两种方法共同验证了一个核心观点:参数空间的结构异质性是影响适配效果的关键因素。无论是通过异构频域专家与级联调制来捕获多尺度适配模式(CASCADE),还是通过共享-特有分解与预算感知优化来实现跨任务容量分配(MESSA),显式地感知和利用参数空间的结构特性,都能显著提升参数高效微调的效能。 + + +\section{实验验证与结果分析} +\label{sec:ch5_experiments} + +本节通过大量实验系统评估CASCADE和MESSA的有效性。 + +\subsection{CASCADE实验验证} +\label{subsec:ch5_cascade_exp} + +\subsubsection{实验设置} + +\textbf{数据集与任务}。遵循LLM-Adapters设置,在常识推理(8个基准:BoolQ、PIQA、SocialIQA、ARC-Challenge、ARC-Easy、OpenBookQA、HellaSwag、WinoGrande)和数学推理(7个基准:MultiArith、GSM8K、AddSub、AQuA、SingleEq、SVAMP、MAWPS)两类任务上评估。训练数据包括Commonsense15K和Math10K。常识推理任务采用Micro-Avg准确率作为主要指标,数学推理任务同样报告Micro-Avg准确率。 + +\textbf{骨干模型}。采用Qwen3-4B、LLaMA 3.2-3B和Gemma3-4B三种预训练模型作为主要评估骨干。可扩展性实验使用Qwen3系列(0.6B、1.7B、4B)以评估方法在不同模型容量下的表现。 + +\textbf{基线方法}。与六种代表性PEFT方法进行比较:低秩方法(LoRA、AdaLoRA、BONE)、频域方法(FourierFT、LoCA)和MoE方法(FlyLoRA)。所有方法在可比参数预算下进行公平比较。 + +\textbf{实现细节}。在NVIDIA RTX 3090上使用BF16混合精度和DeepSpeed训练。采用AdamW优化器,学习率1e-4,余弦学习率调度,序列长度256。CASCADE配置:20K低频DCT系数、10K小波系数、空域残差专家秩$r=48$、负载均衡和正交性损失权重$\lambda_{\text{bal}}=\lambda_{\text{orth}}=0.01$。评估采用贪心解码,最大生成长度256 token,通过正则表达式提取答案计算准确率。 + +\subsubsection{常识推理性能} + +表~\ref{tab:ch5_cascade_common}展示了CASCADE在常识推理任务上的性能。 + +\begin{table}[htp] + \centering + \caption{CASCADE与基线方法在常识推理任务上的性能比较(Micro-Avg准确率\%)。*表示统计显著提升。} + \label{tab:ch5_cascade_common} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{1.05} + \begin{tabular}{l|lcccccccccc} + \toprule + \textbf{骨干} & \textbf{方法} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} \\ + \midrule + \multirow{7}{*}{\rotatebox{90}{\textbf{Qwen3-4B}}} + & LoRA & 66.88 & 82.97 & \underline{73.59} & 86.86 & 92.21 & \underline{83.60} & 85.37 & \underline{68.75} & 81.27 \\ + & AdaLoRA & \underline{67.34} & 82.64 & 73.44 & 87.03 & 92.89 & 82.00 & 79.99 & 67.88 & 78.89 \\ + & BONE & 66.15 & 81.61 & 72.62 & 85.24 & 92.55 & 75.40 & 78.85 & 68.11 & 77.78 \\ + & FourierFT & 66.57 & 80.30 & 73.54 & 86.01 & 92.09 & 82.40 & 79.59 & 63.14 & 78.01 \\ + & LoCA & 66.85 & 83.03 & 72.67 & 86.95 & \underline{93.27} & 80.60 & 84.33 & 66.69 & 80.66 \\ + & FlyLoRA & 66.51 & \underline{83.35} & 73.54 & \underline{87.20} & 93.06 & 78.20 & \underline{85.63} & 68.35 & \underline{81.33} \\ + & \textbf{CASCADE} & \textbf{67.74} & \textbf{83.46} & \textbf{75.49} & \textbf{87.88} & \textbf{93.64} & \textbf{86.40} & \textbf{85.75} & \textbf{71.98} & \textbf{82.22*} \\ + \midrule + \multirow{7}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}} + & LoRA & 61.41 & 78.62 & 66.79 & 68.26 & 84.05 & 70.20 & 79.49 & \underline{56.35} & \underline{74.05} \\ + & AdaLoRA & \underline{61.53} & 78.89 & 67.04 & \underline{69.71} & 83.63 & 69.60 & 79.31 & 54.78 & 73.96 \\ + & BONE & 60.61 & 76.17 & 66.53 & 67.24 & 79.88 & 63.20 & 79.28 & 50.04 & 72.61 \\ + & FourierFT & 60.92 & \underline{80.30} & 59.47 & 67.75 & 82.45 & 66.40 & 79.05 & 50.67 & 72.68 \\ + & LoCA & 61.07 & 78.51 & 64.12 & 66.47 & 82.37 & 67.20 & 77.07 & 55.88 & 72.31 \\ + & FlyLoRA & 59.02 & 78.94 & \underline{67.14} & 67.58 & \underline{84.22} & \underline{71.80} & \underline{79.66} & 52.49 & 73.64 \\ + & \textbf{CASCADE} & \textbf{62.66} & \textbf{80.69} & \textbf{67.40} & \textbf{69.97} & \textbf{84.68} & \textbf{73.60} & \textbf{79.94} & \textbf{62.59} & \textbf{75.25*} \\ + \midrule + \multirow{7}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}} + & LoRA & 64.34 & 78.07 & \underline{70.21} & 75.26 & \underline{87.37} & 75.60 & \underline{77.97} & \underline{61.88} & \underline{75.21} \\ + & AdaLoRA & \underline{64.86} & \underline{79.16} & 69.91 & 75.68 & 86.87 & 72.00 & 77.19 & 61.17 & 74.84 \\ + & BONE & 63.67 & 78.35 & 69.19 & \underline{76.11} & 86.95 & 70.60 & 73.97 & 48.22 & 72.37 \\ + & FourierFT & 64.22 & 77.42 & 68.68 & 74.32 & 87.33 & 72.00 & 74.49 & 50.75 & 72.68 \\ + & LoCA & 63.52 & 76.82 & 68.47 & 73.29 & 85.98 & 68.20 & 75.06 & 49.01 & 72.39 \\ + & FlyLoRA & 61.59 & 76.12 & 67.45 & 75.34 & 86.53 & \underline{77.60} & 77.88 & 58.72 & 74.15 \\ + & \textbf{CASCADE} & \textbf{65.81} & \textbf{80.36} & \textbf{73.39} & \textbf{77.39} & \textbf{88.97} & \textbf{79.00} & \textbf{78.47} & \textbf{64.09} & \textbf{76.59*} \\ + \bottomrule + \end{tabular} + } +\end{table} + +CASCADE在所有三种骨干模型上均取得了统计显著的最优Micro-Avg性能。在Qwen3-4B上达到82.22\%,超过最强基线FlyLoRA(81.33\%)0.89个百分点;在LLaMA 3.2-3B上达到75.25\%,超过LoRA(74.05\%)1.20个百分点;在Gemma3-4B上达到76.59\%,超过LoRA(75.21\%)1.38个百分点。这些一致性的提升表明,联合建模异构更新成分比依赖单一结构假设更为有效。 + +进一步分析各骨干模型的结果可以发现:在Qwen3-4B上,CASCADE在8个基准中的7个上取得最优或并列最优,仅在HellaSwag上略低于FlyLoRA(85.75\% vs 85.63\%),但差距极小且在OBQA上显著领先(86.40\% vs 78.20\%),体现了多尺度适配的全面优势;在LLaMA 3.2-3B上,CASCADE相比LoRA的提升在WinoGrande上最为显著(62.59\% vs 56.35\%,提升6.24个百分点),表明多尺度频谱分解对长程依赖建模有较大增益;在Gemma3-4B上,CASCADE在SIQA任务上的提升尤为突出(73.39\% vs 70.21\%),显示其对社会推理类任务的适配能力。 + +\subsubsection{数学推理性能} + +表~\ref{tab:ch5_cascade_math}展示了CASCADE在数学推理任务上的性能。 + +\begin{table}[htp] + \centering + \caption{CASCADE与基线方法在数学推理任务上的性能比较(Qwen3-4B,Micro-Avg准确率\%)。*表示统计显著提升。} + \label{tab:ch5_cascade_math} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{1.05} + \begin{tabular}{lcccccccc} + \toprule + \textbf{方法} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} \\ + \midrule + LoRA & \underline{77.50} & \underline{36.16} & \underline{83.80} & 26.77 & 85.83 & 55.90 & \underline{79.41} & \underline{58.53} \\ + AdaLoRA & 80.50 & 33.81 & 75.95 & 22.83 & 74.41 & 48.80 & 74.37 & 54.01 \\ + BONE & 79.50 & 31.69 & 78.99 & \underline{27.17} & 80.71 & 50.30 & 76.05 & 54.94 \\ + FourierFT & 68.67 & 31.08 & 76.46 & 23.62 & 78.54 & \underline{57.30} & 74.34 & 54.02 \\ + LoCA & 73.33 & 30.63 & 72.15 & 21.65 & 75.98 & 48.30 & 69.33 & 51.41 \\ + FlyLoRA & 79.67 & 35.33 & 81.52 & 22.83 & \underline{86.42} & 56.20 & 73.11 & 57.93 \\ + \textbf{CASCADE} & \textbf{81.33} & \textbf{37.00} & \textbf{86.08} & \textbf{27.56} & \textbf{87.60} & \textbf{57.90} & \textbf{80.25} & \textbf{60.29*} \\ + \bottomrule + \end{tabular} + } +\end{table} + +CASCADE在Qwen3-4B上取得了60.29\%的最优Micro-Avg性能,显著优于所有基线方法。相比次优方法LoRA(58.53\%),CASCADE提升了1.76个百分点。在7个数学推理基准中的6个上取得最优,表明其多尺度适配策略在数值计算和多步推理任务上同样有效。 + +\subsubsection{跨模型规模的可扩展性} + +表~\ref{tab:ch5_cascade_scale}展示了CASCADE在Qwen3系列不同模型规模上的常识推理性能。 + +\begin{table}[htp] + \centering + \caption{CASCADE与基线方法在不同模型规模上的常识推理性能比较(Micro-Avg准确率\%)。} + \label{tab:ch5_cascade_scale} + \small + \begin{tabular}{lccc} + \toprule + \textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} \\ + \midrule + LoRA & \underline{57.50} & \underline{66.25} & 81.27 \\ + AdaLoRA & 56.50 & 64.37 & 78.89 \\ + FlyLoRA & 54.37 & 62.12 & \underline{81.33} \\ + \textbf{CASCADE} & \textbf{58.07} & \textbf{66.75} & \textbf{82.22} \\ + \bottomrule + \end{tabular} +\end{table} + +CASCADE在所有模型规模上均取得最优性能,且在较小模型(0.6B)上的优势更为明显(超过次优方法0.57个百分点),表明CASCADE的多尺度频谱分解在参数容量有限时也能有效提取关键适配模式。 + +\subsubsection{消融与路由行为分析} + +\begin{figure}[htp] + \centering + \subcaptionbox{消融实验\label{fig:ch5_cascade_ablation_a}}{% + \includegraphics[width=0.48\linewidth]{assets/5_cascade_ablation_a.pdf}} + \hfill + \subcaptionbox{路由权重分布\label{fig:ch5_cascade_ablation_b}}{% + \includegraphics[width=0.48\linewidth]{assets/5_cascade_ablation_b.pdf}} + \caption{CASCADE的消融实验与路由行为分析。(a)移除各组件后的性能变化;(b)不同层中各专家的路由权重分布。} + \label{fig:ch5_cascade_ablation} +\end{figure} + +消融实验表明:(1)移除DCT低频专家后,Micro-Avg从82.22\%下降约0.8个百分点,证明全局性的平滑适配结构对于建立基础适配框架不可或缺;(2)移除小波高频专家导致约0.6个百分点的下降,说明局部精细修正在低频基础之上提供了必要的互补;(3)禁用级联频谱调制机制(即切断低频到高频的条件依赖,让各频段独立工作)进一步降低约0.5个百分点,突显了显式建模从粗到细依赖关系的重要性——高频调制需要以低频的全局结构为条件;(4)空域残差专家提供约0.3个百分点的一致性增益,补偿了频域变换难以表达的局部空间更新模式。上述结果表明CASCADE的四个组件各自独立贡献不可替代的适配功能。 + +路由权重的层间可视化揭示了一个有意义的模式:在Transformer的浅层(前1/3),DCT低频专家获得的平均路由权重显著高于其他专家,反映浅层偏好全局性的特征对齐;在中间层,三类专家的权重趋于均衡,表明中间表示同时需要多尺度的调整;在深层(后1/3),小波高频专家的权重明显增大,表明深层更需要对局部语义特征的精细修正。这种层间路由演化趋势与CASCADE预期的从粗到细适配行为高度一致,也从另一角度验证了级联调制机制的合理性。 + +\subsection{MESSA实验验证} +\label{subsec:ch5_messa_exp} + +\subsubsection{实验设置} + +\textbf{数据集与任务}。在五个多样化任务上评估多任务联合适配能力:BoolQ(布尔推理,Acc)、CodeAlpaca(代码生成,ICR)、MedQA(医学问答,Acc)、GSM8K(数学推理,EM)和HellaSwag(常识推理,Acc)。这五个任务涵盖了从事实判断、程序生成到领域知识和数学计算的异质推理场景,对多任务适配方法提出了全面的考验。报告三个聚合指标:Macro Average(宏平均)、Geometric Mean(几何平均,对低性能任务更敏感)和Worst-Task(最差任务性能,衡量任务间均衡性)。 + +\textbf{骨干模型}。采用Qwen3-4B、LLaMA 3.2-3B和Gemma3-4B三种架构差异显著的预训练模型,以评估方法的跨架构泛化能力。可扩展性实验使用Qwen3系列(0.6B、1.7B、4B)。 + +\textbf{基线方法}。包括低秩方法(LoRA、AdaLoRA,分shared和specific两种多任务设置)、稀疏方法(SHiRA,同样两种设置)和多任务专用方法(MTLoRA、MOELoRA)。其中shared设置为所有任务共享一组适配参数,specific设置为每个任务独立训练参数。所有方法在匹配的总参数预算(约2.25\%--2.70\%)下进行公平比较。 + +\textbf{实现细节}。在NVIDIA RTX 4090上使用BF16混合精度训练。采用AdamW优化器,学习率1e-4,余弦调度,采用基于epoch的混合任务采样策略。MESSA配置:参数预算2.5\%、候选池因子1.5、门控预热比例5\%、在训练15\%处执行一次性剪枝、重叠允许比例15\%。 + +\subsubsection{多任务总体性能} + +表~\ref{tab:ch5_messa_overall}展示了MESSA在多任务总体性能上的结果。 + +\begin{table}[htp] + \centering + \caption{MESSA与基线方法在多任务总体性能上的比较。Avg为宏平均,Geo为几何平均,Worst为最差任务性能。*表示统计显著提升。} + \label{tab:ch5_messa_overall} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{1.05} + \begin{tabular}{l|c|ccc|ccc|ccc} + \toprule + \multirow{2}{*}{\textbf{方法}} & \multirow{2}{*}{\textbf{参数(\%)}} & \multicolumn{3}{c|}{\textbf{Qwen3-4B}} & \multicolumn{3}{c|}{\textbf{LLaMA3.2-3B}} & \multicolumn{3}{c}{\textbf{Gemma3-4B}} \\ + \cmidrule(lr){3-5} \cmidrule(lr){6-8} \cmidrule(lr){9-11} + & & Avg & Geo & Worst & Avg & Geo & Worst & Avg & Geo & Worst \\ + \midrule + LoRA (shared) & 2.25 & 76.47 & 75.56 & 59.81 & 67.05 & 65.99 & 53.03 & 71.22 & 69.53 & 50.08 \\ + LoRA (specific) & 2.25 & \underline{76.66} & \underline{75.76} & 60.75 & 64.70 & 63.29 & 52.75 & \underline{71.86} & \underline{70.09} & 49.45 \\ + AdaLoRA (shared) & 2.50 & 74.82 & 73.94 & 58.24 & 63.02 & 62.10 & 51.18 & 65.39 & 62.85 & 42.27 \\ + AdaLoRA (specific) & 2.50 & 75.45 & 74.61 & 59.18 & 62.94 & 61.99 & 53.03 & 66.57 & 64.00 & 43.33 \\ + \midrule + SHiRA (shared) & 2.26 & 74.60 & 73.51 & 56.99 & 70.35 & 69.40 & 53.06 & 67.99 & 65.64 & 44.27 \\ + SHiRA (specific) & 2.26 & 76.62 & 75.67 & \underline{62.64} & 66.94 & 65.62 & 51.33 & 71.26 & 69.52 & \underline{50.86} \\ + \midrule + MTLoRA & 2.70 & \underline{76.81} & \underline{75.98} & 62.01 & \underline{71.95} & \underline{71.29} & \underline{58.08} & 71.60 & 69.84 & 50.24 \\ + MOELoRA & 2.26 & 76.07 & 75.27 & 60.91 & 70.96 & 70.24 & 55.42 & 70.52 & 68.78 & 48.67 \\ + \textbf{MESSA} & 1.86 & \textbf{78.01*} & \textbf{77.18*} & \textbf{62.79*} & \textbf{72.96*} & \textbf{72.42*} & \textbf{59.50*} & \textbf{72.40*} & \textbf{70.63*} & \textbf{51.33*} \\ + \bottomrule + \end{tabular} + } +\end{table} + +MESSA在所有三种骨干模型上均取得统计显著的最优多任务性能,且使用的可训练参数(1.86\%)少于所有基线方法。在Qwen3-4B上,MESSA的Avg达到78.01\%,超过最强基线MTLoRA(76.81\%)1.20个百分点;Worst-Task达到62.79\%,表明MESSA有效平衡了多任务间的性能。 + +从跨骨干分析来看,MESSA在不同架构上的优势具有一致性:在LLaMA 3.2-3B上,MESSA的Avg(72.96\%)和Geo(72.42\%)均显著领先次优方法MTLoRA(71.95\%/71.29\%),差距约1个百分点;在Gemma3-4B上,MESSA在Avg(72.40\%)和Worst-Task(51.33\%)上也取得最优。特别值得关注的是MESSA在Worst-Task指标上的表现:在Qwen3-4B上62.79\%、LLaMA 3.2-3B上59.50\%、Gemma3-4B上51.33\%,均为各自骨干下的最优值。这表明MESSA的共享-特有分解与预算感知分配机制不仅提升了平均性能,更有效地防止了对特定任务的过度偏好,从而在异质任务间实现了更均衡的资源分配。 + +另一个重要发现是MESSA的参数效率优势。MESSA仅使用1.86\%的可训练参数,少于所有基线方法(LoRA 2.25\%、SHiRA 2.26\%、MTLoRA 2.70\%),但性能全面领先。这一"更少参数,更优性能"的结果从侧面验证了预算感知稀疏分配的有效性——通过将有限预算精准分配到关键参数组,避免了低效参数的浪费。 + +\subsubsection{逐任务性能分析} + +表~\ref{tab:ch5_messa_pertask}进一步展示了MESSA在Qwen3-4B上五个任务的逐任务性能。 + +\begin{table}[htp] + \centering + \caption{MESSA与基线方法在各任务上的逐项性能比较(Qwen3-4B)。} + \label{tab:ch5_messa_pertask} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{1.05} + \begin{tabular}{lccccccc} + \toprule + \textbf{方法} & \textbf{BoolQ} & \textbf{CodeAlpaca} & \textbf{MedQA} & \textbf{GSM8K} & \textbf{HellaSwag} & \textbf{Avg} & \textbf{Geo} \\ + \midrule + LoRA (shared) & 86.79 & \underline{67.45} & 59.81 & 77.27 & 91.02 & 76.47 & 75.56 \\ + LoRA (specific) & \underline{87.89} & 67.40 & 60.75 & 76.06 & 91.20 & 76.66 & 75.76 \\ + AdaLoRA (shared) & 85.81 & 66.55 & 58.24 & 75.61 & 87.89 & 74.82 & 73.94 \\ + AdaLoRA (specific) & 85.02 & 66.75 & 59.18 & \underline{77.42} & 88.89 & 75.45 & 74.61 \\ + SHiRA (shared) & 86.79 & 64.65 & 56.99 & 74.85 & 89.70 & 74.60 & 73.51 \\ + SHiRA (specific) & 87.40 & 63.50 & \underline{62.64} & 77.73 & \underline{91.83} & 76.62 & 75.67 \\ + MTLoRA & 86.42 & 66.35 & 62.01 & \textbf{78.33} & 90.92 & \underline{76.81} & \underline{75.98} \\ + MOELoRA & 86.24 & \underline{67.65} & 60.91 & 75.61 & 89.92 & 76.07 & 75.27 \\ + \textbf{MESSA} & \textbf{88.07} & \textbf{68.30} & \textbf{62.79} & \textbf{78.33} & \textbf{92.57} & \textbf{78.01} & \textbf{77.18} \\ + \bottomrule + \end{tabular} + } +\end{table} + +逐任务分析揭示了MESSA在所有五个任务上均取得最优或并列最优的性能。特别地,在跨领域差异最大的任务对(如编程类CodeAlpaca与医学类MedQA)上,MESSA均显著优于所有基线,表明共享-特有稀疏分解有效地在异质任务之间实现了知识的选择性复用与差异化适配。 + +\subsubsection{跨模型规模的可扩展性} + +表~\ref{tab:ch5_messa_scale}展示了MESSA在Qwen3系列不同模型规模上的多任务性能。 + +\begin{table}[htp] + \centering + \caption{MESSA与基线方法在不同模型规模上的多任务性能比较。} + \label{tab:ch5_messa_scale} + \small + \resizebox{\linewidth}{!}{ + \renewcommand{\arraystretch}{1.05} + \begin{tabular}{lcccccc} + \toprule + \multirow{2}{*}{\textbf{方法}} & \multicolumn{2}{c}{\textbf{Qwen3-0.6B}} & \multicolumn{2}{c}{\textbf{Qwen3-1.7B}} & \multicolumn{2}{c}{\textbf{Qwen3-4B}} \\ + \cmidrule(lr){2-3} \cmidrule(lr){4-5} \cmidrule(lr){6-7} + & Avg & Geo & Avg & Geo & Avg & Geo \\ + \midrule + LoRA (shared) & 58.97 & 55.91 & 69.75 & 68.42 & 76.47 & 75.56 \\ + LoRA (specific) & 60.66 & 58.12 & 69.67 & 68.30 & 76.66 & 75.76 \\ + SHiRA (shared) & 56.59 & 53.21 & 68.47 & 66.83 & 74.60 & 73.51 \\ + SHiRA (specific) & 60.74 & 57.64 & \underline{70.96} & \underline{69.76} & 76.62 & 75.67 \\ + MTLoRA & \underline{61.13} & \underline{58.39} & 70.05 & 68.61 & \underline{76.81} & \underline{75.98} \\ + \textbf{MESSA} & \textbf{61.77} & \textbf{58.65} & \textbf{71.93} & \textbf{70.18} & \textbf{78.01} & \textbf{77.18} \\ + \bottomrule + \end{tabular} + } +\end{table} + +MESSA在所有模型规模上均取得最优性能。随着模型规模从0.6B增大到4B,MESSA相对于基线的优势保持稳定(Avg差距约0.6--1.9个百分点),表明共享-特有分解的结构分配策略在不同参数容量下均能有效运作。 + +\subsubsection{消融与结构分析} + +\begin{figure}[htp] + \centering + \includegraphics[width=0.9\linewidth]{assets/5_messa_analysis.pdf} + \caption{MESSA的消融实验与结构分析。(a)各组件对多任务性能的贡献;(b)共享和任务特有更新在注意力模块间的分配比例。} + \label{fig:ch5_messa_analysis} +\end{figure} + +消融实验表明,移除MESSA的任何核心组件均导致一致性的性能下降,验证了联合设计的必要性。具体而言:(1)移除共享-特有分解(即退化为纯共享或纯特有设置)导致Avg下降约1.2--1.5个百分点,表明显式的结构分离对多任务适配至关重要;(2)移除预算感知软门控(改为固定随机结构)导致Avg下降约0.8个百分点,证明数据驱动的结构发现优于手工或随机选择;(3)跳过门控预热阶段(直接开始联合优化门控和参数)导致训练不稳定和约0.5个百分点的性能损失,验证了预热阶段对初始化稳定稀疏结构的必要性;(4)移除共享-特有重叠正则化后,共享和特有参数组的重合比例显著增加,导致有效参数利用率下降和约0.4个百分点的性能损失。 + +结构分析可视化了注意力模块间的共享与任务特有更新分配,揭示了有意义的功能分化模式。共享稀疏更新在Key投影中被最频繁地选择(约占共享更新的35\%),其次是Value投影(约28\%)和Query投影(约22\%),Output投影最少(约15\%)。这一分布可以从注意力机制的功能角色来理解:Key投影定义了与任务无关的"被查询"表示空间,自然适合作为跨任务共享的适配目标;而Query投影更多地反映当前任务的查询意图,因此更倾向于被分配为任务特有更新。这种自发涌现的结构分化进一步验证了MESSA让数据驱动结构发现的设计理念。 + + +\section{本章小结} +\label{sec:ch5_summary} + +本章将视角从表示空间转向参数空间,围绕频谱级多尺度异质性($\mathcal{R}_{spec}$)和参数级容量分配异质性($\mathcal{R}_{param}$),提出了两种结构感知适配方法。 + +CASCADE通过异构频域/空域专家建模权重更新的多尺度结构,并引入级联频谱调制建立从粗到细的跨频率依赖关系。在三种骨干模型和15个基准数据集上,CASCADE在常识与数学推理任务上均显著优于现有PEFT基线,验证了联合建模异构更新成分的有效性。 + +MESSA针对多任务场景,将适配分解为共享和任务特有的稀疏增量,通过预算感知的软到硬结构学习在统一参数预算下实现最优容量分配。在三种骨干模型和五个多样化任务上,MESSA以更少的参数量取得了全面领先的多任务性能,验证了显式建模共享-特有结构的价值。 + +CASCADE和MESSA分别丰富了统一框架中的组合式调制和结构分解调制形式,与第三章的乘性调制共同构成了完整的结构感知适配方法体系。至此,本文围绕四类结构异质性($\mathcal{R}_{mod}$、$\mathcal{R}_{dim}$、$\mathcal{R}_{spec}$、$\mathcal{R}_{param}$)提出的适配方法已全部介绍完毕。下一章将转向评测基础设施建设,为上述方法提供时空场景下的系统性评测支持。 + +% 第六章 面向时空智能的大模型评测体系与实验基础设施,由于跟新题目没什么关系,我就不输入了 + +\chapter*{总结与展望} + +\subsubsection{本文工作总结} + +城市时空系统在空间组织形式、动态演化规律以及任务功能需求等方面呈现出显著的结构复杂性特征。这种复杂性不仅体现在观测数据的多尺度变化与多源耦合关系之中,也进一步映射为模型在统一表征学习过程中所面临的多层级结构适配问题。围绕这一科学问题,本文以时空数据的结构特性为研究出发点,对模型适配过程中所涉及的关键结构差异进行了系统归纳,构建了结构感知调制的统一分析框架,从模块功能组织、表示维度结构、多尺度动态模式以及参数容量分布等不同层级刻画时空数据诱导的结构异质性,并据此形成具有一致形式的结构化建模思路。 + +在方法研究方面,本文围绕多层级结构异质性逐步展开,形成了由表示空间到参数空间递进发展的适配策略体系。在模块级层面,通过上下文条件化的注意力调制机制,引导模型在多任务场景下实现知识共享与任务特化表达之间的协调;在维度级层面,通过位置结构感知的表示调制方法增强模型对空间依赖关系与时空位置编码的利用效率;在参数组织层面,结合多尺度频谱建模与容量分配机制,使模型能够在有限参数预算下同时捕获全局演化趋势与局部细粒度模式。上述方法从不同侧面探索了结构角色驱动的模型适配路径,体现了由数据结构特性引导模型能力发挥的建模思路。 + +在评测与验证层面,本文进一步构建了面向时空智能研究的实验基础设施体系。通过设计基于多智能体协同的交通预测持续评测框架,实现了交通预测模型从文献发现到统一评估的自动化工作流,为相关方法提供了可复现且可扩展的验证环境。同时,基于真实轨迹行为与地理兴趣点信息构建了大规模时空敏感问答数据集,对当前模型在复杂城市场景中的时空推理能力进行了系统评测。实验结果表明,尽管现有基础模型在通用任务中已展现出较强能力,但在细粒度时空推理问题上仍存在明显性能瓶颈,而结构感知的适配策略在提升模型表现方面具有一定潜力。 + +总体而言,本文围绕城市时空系统的结构复杂性这一核心问题,从统一分析框架构建、多层级适配方法设计到评测体系支撑三个层面开展研究,形成了较为完整的技术路径与研究闭环。相关工作为基础模型在复杂时空智能任务中的高效应用提供了系统性的理论参考与方法探索,也为后续城市智能建模研究奠定了进一步发展的基础。 +\subsection{主要创新点} + +围绕城市时空数据表征学习与基础模型高效适配这一核心问题,本文从结构特性分析、方法体系构建以及评测基础设施设计等方面开展了系统研究,主要创新性工作体现在以下三个方面。 + +\textbf{创新点一:提出了面向时空数据结构复杂性的统一分析框架。} + +针对复杂城市时空任务中模型适配困难来源缺乏系统性认识的问题,本文从表示学习过程出发,对时空数据在模型内部诱导的结构差异进行了层级化归纳与形式化刻画。通过从模块功能组织、表示维度结构、多尺度动态模式以及参数容量分布等多个层面分析结构异质性对模型建模过程的影响,本文构建了一个具有统一视角的结构感知分析框架。该框架将以往分散于具体任务或模型设计中的经验性现象上升为结构层面的机制性认识,有助于更清晰地理解复杂时空任务中模型适配难点的来源,并为后续结构感知建模方法的设计提供了具有指导意义的理论分析基础。 + +\textbf{创新点二:构建了面向城市多任务时空建模的多层级结构感知参数高效适配方法体系。} + +围绕结构异质性对模型表征能力的影响,本文从表示空间到参数空间逐层展开研究,形成了具有内在一致性的结构角色驱动适配策略。在模块级层面,通过上下文条件化的注意力调制机制协调跨任务知识共享与任务特化表达;在维度级层面,通过位置结构感知的动态表示调制增强模型对空间依赖关系的建模能力;在更高层级的参数组织层面,结合多尺度频谱建模与容量分配机制,使模型能够在有限参数预算下同时刻画全局演化趋势与局部细粒度模式。该方法体系体现了由时空数据结构特性引导模型能力发挥的建模范式,为基础模型在复杂城市任务中的高效适配提供了系统性技术路径。 + +\textbf{创新点三:构建了面向时空智能研究的持续评测基础设施与细粒度时空推理数据资源。} + +为解决交通预测基准难以持续更新以及大语言模型缺乏时空推理评测数据的问题,本文提出了AI驱动的交通预测持续评测框架AgentCity,实现了模型发现、复现与统一评估的自动化工作流;同时构建了大规模时空敏感问答数据集POI-QA,从真实轨迹行为出发系统评测模型在复杂城市场景中的时空推理能力。上述工作在方法研究与实验验证之间建立了稳定的评测支撑环境,为后续相关研究提供了可复现、可扩展的实验基础。 + +\subsection{未来工作展望} + +尽管本文围绕时空数据结构特性驱动的表征学习建模开展了系统研究,但面向更复杂的城市智能场景,相关理论与方法仍具有进一步拓展空间。未来研究可从模型范式层面对时空基础模型的构建展开探索。在现有通用预训练模型基础上的结构感知适配策略之外,有必要进一步研究原生面向时空数据的统一预训练框架,通过在大规模轨迹数据、路网结构数据及城市运行观测数据上的联合学习,增强模型对时空动态规律的内在表征能力,从而为多类型城市任务提供更加稳健的基础模型支撑。 + +随着城市运行环境中多源数据的持续积累,多模态时空信息融合将成为重要研究方向。真实场景下的时空行为往往同时受到地理结构、语义事件及环境因素的综合影响,例如文本信息、遥感影像与感知数据等均可能对时空模式产生显著作用。如何在统一表示空间中实现多模态信息的协同建模,并在保持模型计算效率的前提下提升其对复杂城市现象的理解能力,是未来值得深入探索的问题。 + +从应用角度看,开放环境中的时空推理与决策能力仍有较大提升空间。相关实验结果表明,当前模型在面对自然语言表达、复杂约束条件及细粒度空间推理任务时仍存在明显性能差距。未来可进一步研究面向长期行为预测与动态交互决策的建模机制,使模型能够在不断变化的城市环境中实现更稳定的推理与自适应调整,从而推动时空智能技术向真实应用场景的深入发展。 + +此外,评测体系与实际系统运行之间的持续联动也具有重要研究价值。随着AI驱动评测框架的逐步成熟,未来可探索将离线基准评测、在线数据更新与真实系统反馈相结合,构建具有持续演化能力的评测生态,从而更加全面地刻画模型在复杂城市系统中的长期性能表现与泛化能力。通过在模型设计、数据资源建设与评测机制完善等方面的协同推进,有望逐步形成更加系统化和可落地的城市时空智能研究范式。 diff --git a/main.tex b/main.tex index c0f2084..b471a00 100644 --- a/main.tex +++ b/main.tex @@ -96,7 +96,8 @@ % 在此修改 论文类型,密级,打印设置,系统类型,标题长短,学科类型 % 学科类型需填写“STEM”或者“HSS”,该项会影响章节条标题的形式 -\documentclass[master,public,library,win,short,STEM,AutoFakeBold]{def/buaa} +\documentclass[doctor,public,library,mac,short,STEM,AutoFakeBold]{def/buaa} +% \documentclass[doctor,public,library,mac,short,STEM,AutoFakeBold=true]{def/buaa} %\setlength{\abovedisplayskip}{1pt} %\setlength{\belowdisplayskip}{1pt} @@ -107,7 +108,7 @@ % 开启/关闭引用编号颜色:参考文献,公式,图,表,算法 等…… \refcolor{off} % 开启: on; 关闭: off[默认]; % 空白页留字,如果不需要空白页显示任何内容则删去方括号及其中的内容即可 -\emptypagewords{[ -- This page is a preset empty page -- ]} +% \emptypagewords{} %================================================================= % buaa模板已内嵌以下LaTeX工具包: @@ -138,10 +139,7 @@ \usepackage[T1]{fontenc} %%================================================================= -% 论文题目及副标题-{中文}{英文} 注意:论文题目应严格控制在25个汉字(符)以内 -\Title{北航硕博士学位论文~\LaTeX{}模板\BUAAThesis{}}{\LaTeX{} Template of Beihang University Thesis \BUAAThesis{}} -\Subtitle{版本 \BUAAThesisVer{}}{Version \BUAAThesisVer{}} - +\input{0.0_title.tex} % 学科大类,对应信息页中“申请学位级别”一项的内容,默认工学 \Branch{工学} @@ -150,84 +148,43 @@ % 学术学位硕士学位论文填写“Master of Arts in 学科英文名称”(哲学、文学、历史学、法学、教育学、艺术学)或“Master of Science in 学科英文名称”。获得一级学科授权的填写一级学科英文名称,获得二级学科授权的填写二级学科英文名称。 % 专业学位博士学位论文根据实际填写“Doctor of 加专业英文名称”。 % 专业学位硕士学位论文根据实际填写“Master of 加授予学位专业英文名称”。英文名称可参考“中国学位与研究生教育学会”网站信息。 -\Degree{Master of Science in Control Science and Engineering} +\Degree{Doctor of Philosophy in Computer Application Technology} % 院系-{中文}{英文},专业,研究方向,一级学科,学科方向(学术型学位) -\Department{宇航学院}{School of Astronautics} -\Major{控制科学与工程} -\Feild{控制理论与智能系统} -\Discipline{控制科学与工程} -\Direction{控制理论与智能系统} +\Department{计算机学院}{School of Computer Science and Engineering} +\Major{计算机应用技术} +\Feild{\highlight{时空数据挖掘TBD}} +\Discipline{计算机科学与技术} +\Direction{\highlight{计算机应用技术TBD}} % 导师信息-{中文名}{英文名}{职称} -\Tutor{导师姓名}{Tutor}{教授} -\Cotutor{副导师姓名}{Cotutor}{研究员} +\Tutor{熊璋}{Zhang Xiong}{教授} +\Cotutor{王静远}{Jingyuan Wang}{教授} % 学生姓名-{中文名}{英文名} -\Author{学生姓名}{Student} +\Author{潘达岩}{Dayan Pan} % 学生学号 -\StudentID{ID123456} +\StudentID{BY1906030} % 专项计划,如无则删除 -\SpecialProg{本行仅专项计划研究生添加} +% \SpecialProg{本行仅专项计划研究生添加} % 中图分类号 \CLC{TP391.4} % 时间节点-{月}{日}{年} -\DateEnroll{09}{01}{2015} -\DateGraduate{03}{31}{2018} -\DateSubmit{01}{10}{2018} -\DateDefence{03}{01}{2018} +\DateEnroll{09}{01}{2019} +\DateGraduate{\highlight{0x}}{31}{2026} +\DateSubmit{\highlight{0x}}{10}{2026} +\DateDefence{\highlight{0x}}{01}{2026} %%================================================================= -% 摘要-{中文}{英文} -\Abstract{% - 论文摘要是对论文研究内容的高度概括,应体现论文工作的核心思想。博士学 - 位论文的中文摘要一般约800~1200字;硕士学位论文的中文摘要一般约500字。摘 - 要内容应涉及本项科研工作的目的和意义、研究思想和方法、研究成果和结论,博 - 士学位论文应突出论文的创造性成果,硕士学位论文应突出论文的新见解。应具有 - 独立性和自含性,即应是一篇简短但意义完整的文章。论文摘要中不要出现图片、 - 图表、表格或其他插图材料。 - - 论文的关键词,是为了文献标引工作从论文中选取出来用以表示全文主题内容 - 信息的单词或术语,关键词一般为3~5个,按词条的外延层次排列(外延大的排在 - 前面)。每个关键词之间用逗号间隔,最后一个关键词后不缀标点符号。 - - 论文摘要的中文版与英文版文字内容要对应。从中文摘要开始编写页码并采用 - 双面印刷。“Keywords”与中文摘要部分的关键词对应,每个关键词之间用逗号间隔。 - }{ - The abstract is a concise summary of the research content of the thesis, reflecting the core ideas of the work. For a doctoral dissertation, the Chinese abstract is typically around 800–1,200 words, while for a master's thesis, it is generally about 500 words. The abstract should address the purpose and significance of the research, the methodology and approach, as well as the key findings and conclusions. Doctoral dissertations should emphasize original contributions, while master's theses should highlight novel insights. The abstract must be self-contained and independent, functioning as a complete yet concise standalone text. Figures, charts, tables, or other illustrative materials should not appear in the abstract. - - Keywords are terms or phrases selected from the thesis to represent the main thematic content for indexing purposes. Typically, 3–5 keywords are required, arranged in hierarchical order of scope (with broader terms listed first). Keywords are separated by semicolons, with no punctuation following the last keyword. - - The Chinese and English versions of the abstract must align in content. Page numbering begins with the Chinese abstract, and the document should be printed double-sided. The "Keywords" section in the English abstract corresponds to the Chinese version, with terms similarly separated by semicolons. -} -% 关键字-{中文}{英文} -\Keyword{北航,学位论文,博士,硕士,中文,\LaTeX{}模板,\BUAAThesis{}}{BeiHang, Degree thesis, PhD, Master, Chinese, \LaTeX{} template, \BUAAThesis{}} +\input{0.1_abs&keyw.tex} % 图表目录 \Listfigtab{on} % 启用: on[默认]; 关闭: off; -% 符号定义 按tabular环境或其他列表环境编写 不需要可直接删除 -\Signs{ \centering - \begin{tabular}{cl} - $E$ & 能量 \\ - $m$ & 质量 \\ - $c$ & 光速 \\ - $P$ & 概率 \\ - $T$ & 时间 \\ - $v$ & 速度 \\ - \end{tabular} -} - -% 缩写定义 按tabular环境或其他列表环境编写 不需要可直接删除 -\Abbreviations{ \centering -\begin{tabular}{lll} - 外文缩略字母 & 外文全称 & 中文说明\\ - LIF & Laster-induced fluorenscene & 激光诱导荧光\\ - NTC & Negative temperature coefficient & 负温度效应\\ -\end{tabular} -} +\input{0.2_signs.tex} +\input{0.3_abbrs.tex} \begin{document} %%================================================================= @@ -243,14 +200,26 @@ %%================================================================= % \emptypage:插入不计页码的空白页。如果需要第一章第一页从右页起,可以用这条命令插入一张空白页。 -% 说明 -\input{tex/chap_instruction} +% 第一章 绪论 +\input{chap01} -% 示例 -\input{tex/chap_sample} +% 第二章 国内外研究现状 +\input{chap02} -% 总结 -\input{tex/chap_summary} +% 第三章 模块角色感知的多任务时空表征学习方法 +\input{chap03} + +% 第四章 位置结构驱动的各向异性时空表征学习方法 +\input{chap04} + +% 第五章 多尺度结构建模与参数结构自适应学习方法 +\input{chap05} + +% 第六章 面向时空智能的大模型评测体系与实验基础设施 +\input{chap06} + +% 第七章 总结与展望 +\input{chap07} % 参考文献 % 选用参考文献格式 diff --git a/mypaper/AAAI2026_RoSA.bib b/mypaper/AAAI2026_RoSA.bib new file mode 100755 index 0000000..59e010d --- /dev/null +++ b/mypaper/AAAI2026_RoSA.bib @@ -0,0 +1,728 @@ +% AAAING + +% Datasets +% GSM8K +@article{cobbe2021training, + title={Training verifiers to solve math word problems}, + author={Cobbe, Karl and Kosaraju, Vineet and Bavarian, Mohammad and Chen, Mark and Jun, Heewoo and Kaiser, Lukasz and Plappert, Matthias and Tworek, Jerry and Hilton, Jacob and Nakano, Reiichiro and others}, + journal={arXiv preprint arXiv:2110.14168}, + year={2021} +} +% SVAMP +@article{patel2021nlp, + title={Are NLP models really able to solve simple math word problems?}, + author={Patel, Arkil and Bhattamishra, Satwik and Goyal, Navin}, + journal={arXiv preprint arXiv:2103.07191}, + year={2021} +} +% MultiArith +@article{roy2016solving, + title={Solving general arithmetic word problems}, + author={Roy, Subhro and Roth, Dan}, + journal={arXiv preprint arXiv:1608.01413}, + year={2016} +} +% Addsub +@inproceedings{hosseini2014learning, + title={Learning to solve arithmetic word problems with verb categorization}, + author={Hosseini, Mohammad Javad and Hajishirzi, Hannaneh and Etzioni, Oren and Kushman, Nate}, + booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)}, + pages={523--533}, + year={2014} +} +% AQuA +@article{ling2017program, + title={Program induction by rationale generation: Learning to solve and explain algebraic word problems}, + author={Ling, Wang and Yogatama, Dani and Dyer, Chris and Blunsom, Phil}, + journal={arXiv preprint arXiv:1705.04146}, + year={2017} +} +% SingleEq +@article{koncel2015parsing, + title={Parsing algebraic word problems into equations}, + author={Koncel-Kedziorski, Rik and Hajishirzi, Hannaneh and Sabharwal, Ashish and Etzioni, Oren and Ang, Siena Dumas}, + journal={Transactions of the Association for Computational Linguistics}, + volume={3}, + pages={585--597}, + year={2015}, + publisher={MIT Press One Rogers Street, Cambridge, MA 02142-1209, USA journals-info~…} +} +% MAWPS +@inproceedings{koncel2016mawps, + title={MAWPS: A math word problem repository}, + author={Koncel-Kedziorski, Rik and Roy, Subhro and Amini, Aida and Kushman, Nate and Hajishirzi, Hannaneh}, + booktitle={Proceedings of the 2016 conference of the north american chapter of the association for computational linguistics: human language technologies}, + pages={1152--1157}, + year={2016} +} +% BoolQ +@article{clark2019boolq, + title={Boolq: Exploring the surprising difficulty of natural yes/no questions}, + author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei and Kwiatkowski, Tom and Collins, Michael and Toutanova, Kristina}, + journal={arXiv preprint arXiv:1905.10044}, + year={2019} +} +% PIQA +@inproceedings{bisk2020piqa, + title={Piqa: Reasoning about physical commonsense in natural language}, + author={Bisk, Yonatan and Zellers, Rowan and Gao, Jianfeng and Choi, Yejin and others}, + booktitle={Proceedings of the AAAI conference on artificial intelligence}, + volume={34}, + number={05}, + pages={7432--7439}, + year={2020} +} +% SIQA +@article{sap2019socialiqa, + title={Socialiqa: Commonsense reasoning about social interactions}, + author={Sap, Maarten and Rashkin, Hannah and Chen, Derek and LeBras, Ronan and Choi, Yejin}, + journal={arXiv preprint arXiv:1904.09728}, + year={2019} +} +% HW +@article{zellers2019hellaswag, + title={Hellaswag: Can a machine really finish your sentence?}, + author={Zellers, Rowan and Holtzman, Ari and Bisk, Yonatan and Farhadi, Ali and Choi, Yejin}, + journal={arXiv preprint arXiv:1905.07830}, + year={2019} +} +% WN +@inproceedings{sakaguchi2020winogrande, + title={Winogrande: An adversarial winograd schema challenge at scale}, + author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin}, + booktitle={Proceedings of the AAAI Conference on Artificial Intelligence}, + volume={34}, + number={05}, + pages={8732--8740}, + year={2020} +} +% ARC +@article{clark2018think, + title={Think you have solved question answering? try arc, the ai2 reasoning challenge}, + author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind}, + journal={arXiv preprint arXiv:1803.05457}, + year={2018} +} +% OBDA +@article{mihaylov2018can, + title={Can a suit of armor conduct electricity? a new dataset for open book question answering}, + author={Mihaylov, Todor and Clark, Peter and Khot, Tushar and Sabharwal, Ashish}, + journal={arXiv preprint arXiv:1809.02789}, + year={2018} +} + +% Related +@inproceedings{houlsby2019parameter, + title={Parameter-efficient transfer learning for NLP}, + author={Houlsby, Neil and Giurgiu, Andrei and Jastrzebski, Stanislaw and Morrone, Bruna and De Laroussilhe, Quentin and Gesmundo, Andrea and Attariyan, Mona and Gelly, Sylvain}, + booktitle={International conference on machine learning}, + pages={2790--2799}, + year={2019}, + organization={PMLR} +} +@article{li2021prefix, + title={Prefix-tuning: Optimizing continuous prompts for generation}, + author={Li, Xiang Lisa and Liang, Percy}, + journal={arXiv preprint arXiv:2101.00190}, + year={2021} +} +@article{dong2025attention, + title={Attention Retrieves, MLP Memorizes: Disentangling Trainable Components in the Transformer}, + author={Dong, Yihe and Noci, Lorenzo and Khodak, Mikhail and Li, Mufan}, + journal={arXiv preprint arXiv:2506.01115}, + year={2025} +} +@article{michel2019sixteen, + title={Are sixteen heads really better than one?}, + author={Michel, Paul and Levy, Omer and Neubig, Graham}, + journal={Advances in neural information processing systems}, + volume={32}, + year={2019} +} +@article{belinkov2018evaluating, + title={Evaluating layers of representation in neural machine translation on part-of-speech and semantic tagging tasks}, + author={Belinkov, Yonatan and M{\`a}rquez, Llu{\'\i}s and Sajjad, Hassan and Durrani, Nadir and Dalvi, Fahim and Glass, James}, + journal={arXiv preprint arXiv:1801.07772}, + year={2018} +} +% Others +@article{ding2023parameter, + title={Parameter-efficient fine-tuning of large-scale pre-trained language models}, + author={Ding, Ning and Qin, Yujia and Yang, Guang and Wei, Fuchao and Yang, Zonghan and Su, Yusheng and Hu, Shengding and Chen, Yulin and Chan, Chi-Min and Chen, Weize and others}, + journal={Nature machine intelligence}, + volume={5}, + number={3}, + pages={220--235}, + year={2023}, + publisher={Nature Publishing Group UK London} +} +@article{peng2023instruction, + title={Instruction tuning with gpt-4}, + author={Peng, Baolin and Li, Chunyuan and He, Pengcheng and Galley, Michel and Gao, Jianfeng}, + journal={arXiv preprint arXiv:2304.03277}, + year={2023} +} + +% Baselines +@article{liu2024dora, + title={Dora: Weight-decomposed low-rank adaptation}, + author={Liu, Shih-Yang and Wang, Chien-Yi and Yin, Hongxu and Molchanov, Pavlo and Wang, Yu-Chiang Frank and Cheng, Kwang-Ting and Chen, Min-Hung}, + journal={arXiv preprint arXiv:2402.09353}, + year={2024} +} +@article{hu2021lora, + title={Lora: Low-rank adaptation of large language models}, + author={Hu, Edward J and Shen, Yelong and Wallis, Phillip and Allen-Zhu, Zeyuan and Li, Yuanzhi and Wang, Shean and Wang, Lu and Chen, Weizhu}, + journal={arXiv preprint arXiv:2106.09685}, + year={2021} +} +@article{zhang2023adalora, + title={Adalora: Adaptive budget allocation for parameter-efficient fine-tuning}, + author={Zhang, Qingru and Chen, Minshuo and Bukharin, Alexander and Karampatziakis, Nikos and He, Pengcheng and Cheng, Yu and Chen, Weizhu and Zhao, Tuo}, + journal={arXiv preprint arXiv:2303.10512}, + year={2023} +} +% C3A +@article{chen2024parameter, + title={Parameter-efficient fine-tuning via circular convolution}, + author={Chen, Aochuan and Cheng, Jiashun and Liu, Zijing and Gao, Ziqi and Tsung, Fugee and Li, Yu and Li, Jia}, + journal={arXiv preprint arXiv:2407.19342}, + year={2024} +} +% BONE +@article{kang2024balancing, + title={Balancing LoRA Performance and Efficiency with Simple Shard Sharing}, + author={Kang, Jiale and Yin, Qingyu}, + journal={arXiv preprint arXiv:2409.15371}, + year={2024} +} +% VERA-EDITED +@article{kopiczko2023vera, + title={Vera: Vector-based random matrix adaptation}, + author={{Kopiczko et al.}}, + journal={arXiv preprint arXiv:2310.11454}, + year={2023} +} +% BOFT +@article{liu2023parameter, + title={Parameter-efficient orthogonal finetuning via butterfly factorization}, + author={Liu, Weiyang and Qiu, Zeju and Feng, Yao and Xiu, Yuliang and Xue, Yuxuan and Yu, Longhui and Feng, Haiwen and Liu, Zhen and Heo, Juyeon and Peng, Songyou and others}, + journal={arXiv preprint arXiv:2311.06243}, + year={2023} +} +% LN-Tuning +@article{zhao2023tuning, + title={Tuning layernorm in attention: Towards efficient multi-modal llm finetuning}, + author={Zhao, Bingchen and Tu, Haoqin and Wei, Chen and Mei, Jieru and Xie, Cihang}, + journal={arXiv preprint arXiv:2312.11420}, + year={2023} +} + +% Deepspeed +@inproceedings{rasley2020deepspeed, + title={Deepspeed: System optimizations enable training deep learning models with over 100 billion parameters}, + author={Rasley, Jeff and Rajbhandari, Samyam and Ruwase, Olatunji and He, Yuxiong}, + booktitle={Proceedings of the 26th ACM SIGKDD international conference on knowledge discovery \& data mining}, + pages={3505--3506}, + year={2020} +} +% Huggingface Transformers +@inproceedings{wolf2020transformers, + title={Transformers: State-of-the-art natural language processing}, + author={Wolf, Thomas and Debut, Lysandre and Sanh, Victor and Chaumond, Julien and Delangue, Clement and Moi, Anthony and Cistac, Pierric and Rault, Tim and Louf, Remi and Funtowicz, Morgan and others}, + booktitle={Proceedings of the 2020 conference on empirical methods in natural language processing: system demonstrations}, + pages={38--45}, + year={2020} +} + +@inproceedings{geva2021transformer, + title={Transformer Feed-Forward Layers Are Key-Value Memories}, + author={Geva, Mor and Schuster, Roei and Berant, Jonathan and Levy, Omer}, + booktitle={Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing}, + pages={5484--5495}, + year={2021} +} + +@article{su2024roformer, + title={Roformer: Enhanced transformer with rotary position embedding}, + author={Su, Jianlin and Ahmed, Murtadha and Lu, Yu and Pan, Shengfeng and Bo, Wen and Liu, Yunfeng}, + journal={Neurocomputing}, + volume={568}, + pages={127063}, + year={2024}, + publisher={Elsevier} +} +@article{barbero2024round, + title={Round and round we go! what makes rotary positional encodings useful?}, + author={Barbero, Federico and Vitvitskyi, Alex and Perivolaropoulos, Christos and Pascanu, Razvan and Veli{\v{c}}kovi{\'c}, Petar}, + journal={arXiv preprint arXiv:2410.06205}, + year={2024} +} + +@article{jin2025massive, + title={Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding}, + author={Jin, Mingyu and Mei, Kai and Xu, Wujiang and Sun, Mingjie and Tang, Ruixiang and Du, Mengnan and Liu, Zirui and Zhang, Yongfeng}, + journal={arXiv preprint arXiv:2502.01563}, + year={2025} +} +@article{vaswani2017attention, + title={Attention is all you need}, + author={Vaswani, Ashish and Shazeer, Noam and Parmar, Niki and Uszkoreit, Jakob and Jones, Llion and Gomez, Aidan N and Kaiser, {\L}ukasz and Polosukhin, Illia}, + journal={Advances in neural information processing systems}, + volume={30}, + year={2017} +} +@article{touvron2023llama, + title={Llama: Open and efficient foundation language models}, + author={Touvron, Hugo and Lavril, Thibaut and Izacard, Gautier and Martinet, Xavier and Lachaux, Marie-Anne and Lacroix, Timoth{\'e}e and Rozi{\`e}re, Baptiste and Goyal, Naman and Hambro, Eric and Azhar, Faisal and others}, + journal={arXiv preprint arXiv:2302.13971}, + year={2023} +} +@article{shazeer2020glu, + title={Glu variants improve transformer}, + author={Shazeer, Noam}, + journal={arXiv preprint arXiv:2002.05202}, + year={2020} +} +@inproceedings{he2016deep, + title={Deep residual learning for image recognition}, + author={He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian}, + booktitle={Proceedings of the IEEE conference on computer vision and pattern recognition}, + pages={770--778}, + year={2016} +} +@article{bai2023qwen, + title={Qwen technical report}, + author={Bai, Jinze and Bai, Shuai and Chu, Yunfei and Cui, Zeyu and Dang, Kai and Deng, Xiaodong and Fan, Yang and Ge, Wenbin and Han, Yu and Huang, Fei and others}, + journal={arXiv preprint arXiv:2309.16609}, + year={2023} +} + +% SiLU +@article{elfwing2018sigmoid, + title={Sigmoid-weighted linear units for neural network function approximation in reinforcement learning}, + author={Elfwing, Stefan and Uchibe, Eiji and Doya, Kenji}, + journal={Neural networks}, + volume={107}, + pages={3--11}, + year={2018}, + publisher={Elsevier} +} +@article{ainslie2023gqa, + title={Gqa: Training generalized multi-query transformer models from multi-head checkpoints}, + author={Ainslie, Joshua and Lee-Thorp, James and De Jong, Michiel and Zemlyanskiy, Yury and Lebr{\'o}n, Federico and Sanghai, Sumit}, + journal={arXiv preprint arXiv:2305.13245}, + year={2023} +} +@article{voita2019bottom, + title={The bottom-up evolution of representations in the transformer: A study with machine translation and language modeling objectives}, + author={Voita, Elena and Sennrich, Rico and Titov, Ivan}, + journal={arXiv preprint arXiv:1909.01380}, + year={2019} +} +@article{hu2023llm, + title={Llm-adapters: An adapter family for parameter-efficient fine-tuning of large language models}, + author={Hu, Zhiqiang and Wang, Lei and Lan, Yihuai and Xu, Wanyu and Lim, Ee-Peng and Bing, Lidong and Xu, Xing and Poria, Soujanya and Lee, Roy Ka-Wei}, + journal={arXiv preprint arXiv:2304.01933}, + year={2023} +} +@article{team2024gemma, + title={Gemma 2: Improving open language models at a practical size}, + author={Team, Gemma and Riviere, Morgane and Pathak, Shreya and Sessa, Pier Giuseppe and Hardin, Cassidy and Bhupatiraju, Surya and Hussenot, L{\'e}onard and Mesnard, Thomas and Shahriari, Bobak and Ram{\'e}, Alexandre and others}, + journal={arXiv preprint arXiv:2408.00118}, + year={2024} +} +@article{dubey2024llama, + title={The llama 3 herd of models}, + author={Dubey, Abhimanyu and Jauhri, Abhinav and Pandey, Abhinav and Kadian, Abhishek and Al-Dahle, Ahmad and Letman, Aiesha and Mathur, Akhil and Schelten, Alan and Yang, Amy and Fan, Angela and others}, + journal={arXiv e-prints}, + pages={arXiv--2407}, + year={2024} +} +@article{team2024qwen2, + title={Qwen2 technical report}, + author={Team, Qwen}, + journal={arXiv preprint arXiv:2407.10671}, + year={2024} +} +% Old + +@article{sun2025stronger, + title={A Stronger Mixture of Low-Rank Experts for Fine-Tuning Foundation Models}, + author={Sun, Mengyang and Wang, Yihao and Feng, Tao and Zhang, Dan and Zhu, Yifan and Tang, Jie}, + journal={arXiv preprint arXiv:2502.15828}, + year={2025} +} +@article{pfeiffer2020mad, + title={Mad-x: An adapter-based framework for multi-task cross-lingual transfer}, + author={Pfeiffer, Jonas and Vuli{\'c}, Ivan and Gurevych, Iryna and Ruder, Sebastian}, + journal={arXiv preprint arXiv:2005.00052}, + year={2020} +} +@article{raffel2020exploring, + title={Exploring the limits of transfer learning with a unified text-to-text transformer}, + author={Raffel, Colin and Shazeer, Noam and Roberts, Adam and Lee, Katherine and Narang, Sharan and Matena, Michael and Zhou, Yanqi and Li, Wei and Liu, Peter J}, + journal={Journal of machine learning research}, + volume={21}, + number={140}, + pages={1--67}, + year={2020} +} +@article{zaken2021bitfit, + title={Bitfit: Simple parameter-efficient fine-tuning for transformer-based masked language-models}, + author={Zaken, Elad Ben and Ravfogel, Shauli and Goldberg, Yoav}, + journal={arXiv preprint arXiv:2106.10199}, + year={2021} +} +@inproceedings{papineni2002bleu, + title={Bleu: a method for automatic evaluation of machine translation}, + author={Papineni, Kishore and Roukos, Salim and Ward, Todd and Zhu, Wei-Jing}, + booktitle={Proceedings of the 40th annual meeting of the Association for Computational Linguistics}, + pages={311--318}, + year={2002} +} +@inproceedings{lin2004rouge, + title={Rouge: A package for automatic evaluation of summaries}, + author={Lin, Chin-Yew}, + booktitle={Text summarization branches out}, + pages={74--81}, + year={2004} +} +@article{jang2016categorical, + title={Categorical reparameterization with gumbel-softmax}, + author={Jang, Eric and Gu, Shixiang and Poole, Ben}, + journal={arXiv preprint arXiv:1611.01144}, + year={2016} +} +@inproceedings{he2015delving, + title={Delving deep into rectifiers: Surpassing human-level performance on imagenet classification}, + author={He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian}, + booktitle={Proceedings of the IEEE international conference on computer vision}, + pages={1026--1034}, + year={2015} +} +@article{guo2025nlora, + title={NLoRA: Nystr$\backslash$" om-Initiated Low-Rank Adaptation for Large Language Models}, + author={Guo, Chenlu and Wu, Yuan and Chang, Yi}, + journal={arXiv preprint arXiv:2502.14482}, + year={2025} +} + +@article{ba2016layer, + title={Layer normalization}, + author={Ba, Jimmy Lei and Kiros, Jamie Ryan and Hinton, Geoffrey E}, + journal={arXiv preprint arXiv:1607.06450}, + year={2016} +} + +@article{team2023gemini, + title={Gemini: a family of highly capable multimodal models}, + author={Team, Gemini and Anil, Rohan and Borgeaud, Sebastian and Alayrac, Jean-Baptiste and Yu, Jiahui and Soricut, Radu and Schalkwyk, Johan and Dai, Andrew M and Hauth, Anja and Millican, Katie and others}, + journal={arXiv preprint arXiv:2312.11805}, + year={2023} +} +@article{liu2023moelora, + title={Moelora: An moe-based parameter efficient fine-tuning method for multi-task medical applications}, + author={Liu, Qidong and Wu, Xian and Zhao, Xiangyu and Zhu, Yuanshao and Xu, Derong and Tian, Feng and Zheng, Yefeng}, + journal={arXiv preprint arXiv:2310.18339}, + year={2023} +} +@article{wang2023multilora, + title={Multilora: Democratizing lora for better multi-task learning}, + author={Wang, Yiming and Lin, Yu and Zeng, Xiaodong and Zhang, Guannan}, + journal={arXiv preprint arXiv:2311.11501}, + year={2023} +} +@article{liu2021p, + title={P-tuning v2: Prompt tuning can be comparable to fine-tuning universally across scales and tasks}, + author={Liu, Xiao and Ji, Kaixuan and Fu, Yicheng and Tam, Weng Lam and Du, Zhengxiao and Yang, Zhilin and Tang, Jie}, + journal={arXiv preprint arXiv:2110.07602}, + year={2021} +} +@article{brown2020language, + title={Language models are few-shot learners}, + author={Brown, Tom and Mann, Benjamin and Ryder, Nick and Subbiah, Melanie and Kaplan, Jared D and Dhariwal, Prafulla and Neelakantan, Arvind and Shyam, Pranav and Sastry, Girish and Askell, Amanda and others}, + journal={Advances in neural information processing systems}, + volume={33}, + pages={1877--1901}, + year={2020} +} +@article{liu2021conflict, + title={Conflict-averse gradient descent for multi-task learning}, + author={Liu, Bo and Liu, Xingchao and Jin, Xiaojie and Stone, Peter and Liu, Qiang}, + journal={Advances in Neural Information Processing Systems}, + volume={34}, + pages={18878--18890}, + year={2021} +} +@article{navon2022multi, + title={Multi-task learning as a bargaining game}, + author={Navon, Aviv and Shamsian, Aviv and Achituve, Idan and Maron, Haggai and Kawaguchi, Kenji and Chechik, Gal and Fetaya, Ethan}, + journal={arXiv preprint arXiv:2202.01017}, + year={2022} +} +@article{yu2020gradient, + title={Gradient surgery for multi-task learning}, + author={Yu, Tianhe and Kumar, Saurabh and Gupta, Abhishek and Levine, Sergey and Hausman, Karol and Finn, Chelsea}, + journal={Advances in Neural Information Processing Systems}, + volume={33}, + pages={5824--5836}, + year={2020} +} +@article{renduchintala2023tied, + title={Tied-lora: Enhacing parameter efficiency of lora with weight tying}, + author={Renduchintala, Adithya and Konuk, Tugrul and Kuchaiev, Oleksii}, + journal={arXiv preprint arXiv:2311.09578}, + year={2023} +} +@inproceedings{kwon2023efficient, + title={Efficient memory management for large language model serving with pagedattention}, + author={Kwon, Woosuk and Li, Zhuohan and Zhuang, Siyuan and Sheng, Ying and Zheng, Lianmin and Yu, Cody Hao and Gonzalez, Joseph and Zhang, Hao and Stoica, Ion}, + booktitle={Proceedings of the 29th Symposium on Operating Systems Principles}, + pages={611--626}, + year={2023} +} + +@article{dai2024deepseekmoe, + title={Deepseekmoe: Towards ultimate expert specialization in mixture-of-experts language models}, + author={Dai, Damai and Deng, Chengqi and Zhao, Chenggang and Xu, RX and Gao, Huazuo and Chen, Deli and Li, Jiashi and Zeng, Wangding and Yu, Xingkai and Wu, Y and others}, + journal={arXiv preprint arXiv:2401.06066}, + year={2024} +} +@article{guo2025deepseek, + title={Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning}, + author={Guo, Daya and Yang, Dejian and Zhang, Haowei and Song, Junxiao and Zhang, Ruoyu and Xu, Runxin and Zhu, Qihao and Ma, Shirong and Wang, Peiyi and Bi, Xiao and others}, + journal={arXiv preprint arXiv:2501.12948}, + year={2025} +} +@article{shazeer2017outrageously, + title={Outrageously large neural networks: The sparsely-gated mixture-of-experts layer}, + author={Shazeer, Noam and Mirhoseini, Azalia and Maziarz, Krzysztof and Davis, Andy and Le, Quoc and Hinton, Geoffrey and Dean, Jeff}, + journal={arXiv preprint arXiv:1701.06538}, + year={2017} +} +@inproceedings{rajbhandari2022deepspeed, + title={Deepspeed-moe: Advancing mixture-of-experts inference and training to power next-generation ai scale}, + author={Rajbhandari, Samyam and Li, Conglong and Yao, Zhewei and Zhang, Minjia and Aminabadi, Reza Yazdani and Awan, Ammar Ahmad and Rasley, Jeff and He, Yuxiong}, + booktitle={International conference on machine learning}, + pages={18332--18346}, + year={2022}, + organization={PMLR} +} +@article{zhang2023instruction, + title={Instruction tuning for large language models: A survey}, + author={Zhang, Shengyu and Dong, Linfeng and Li, Xiaoya and Zhang, Sen and Sun, Xiaofei and Wang, Shuhe and Li, Jiwei and Hu, Runyi and Zhang, Tianwei and Wu, Fei and others}, + journal={arXiv preprint arXiv:2308.10792}, + year={2023} +} +@article{han2024parameter, + title={Parameter-efficient fine-tuning for large models: A comprehensive survey}, + author={Han, Zeyu and Gao, Chao and Liu, Jinyang and Zhang, Jeff and Zhang, Sai Qian}, + journal={arXiv preprint arXiv:2403.14608}, + year={2024} +} +@article{pfeiffer2020adapterfusion, + title={Adapterfusion: Non-destructive task composition for transfer learning}, + author={Pfeiffer, Jonas and Kamath, Aishwarya and R{\"u}ckl{\'e}, Andreas and Cho, Kyunghyun and Gurevych, Iryna}, + journal={arXiv preprint arXiv:2005.00247}, + year={2020} +} +@article{pfeiffer2020adapterhub, + title={Adapterhub: A framework for adapting transformers}, + author={Pfeiffer, Jonas and R{\"u}ckl{\'e}, Andreas and Poth, Clifton and Kamath, Aishwarya and Vuli{\'c}, Ivan and Ruder, Sebastian and Cho, Kyunghyun and Gurevych, Iryna}, + journal={arXiv preprint arXiv:2007.07779}, + year={2020} +} +@article{lialin2023scaling, + title={Scaling down to scale up: A guide to parameter-efficient fine-tuning}, + author={Lialin, Vladislav and Deshpande, Vijeta and Rumshisky, Anna}, + journal={arXiv preprint arXiv:2303.15647}, + year={2023} +} + +@article{lu2023uniadapter, + title={Uniadapter: Unified parameter-efficient transfer learning for cross-modal modeling}, + author={Lu, Haoyu and Huo, Yuqi and Yang, Guoxing and Lu, Zhiwu and Zhan, Wei and Tomizuka, Masayoshi and Ding, Mingyu}, + journal={arXiv preprint arXiv:2302.06605}, + year={2023} +} + +@article{fedus2022switch, + title={Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity}, + author={Fedus, William and Zoph, Barret and Shazeer, Noam}, + journal={Journal of Machine Learning Research}, + volume={23}, + number={120}, + pages={1--39}, + year={2022} +} +@article{lepikhin2020gshard, + title={Gshard: Scaling giant models with conditional computation and automatic sharding}, + author={Lepikhin, Dmitry and Lee, HyoukJoong and Xu, Yuanzhong and Chen, Dehao and Firat, Orhan and Huang, Yanping and Krikun, Maxim and Shazeer, Noam and Chen, Zhifeng}, + journal={arXiv preprint arXiv:2006.16668}, + year={2020} +} +@article{luo2024moelora, + title={Moelora: Contrastive learning guided mixture of experts on parameter-efficient fine-tuning for large language models}, + author={Luo, Tongxu and Lei, Jiahe and Lei, Fangyu and Liu, Weihao and He, Shizhu and Zhao, Jun and Liu, Kang}, + journal={arXiv preprint arXiv:2402.12851}, + year={2024} +} +@article{guo2024large, + title={Large language model based multi-agents: A survey of progress and challenges}, + author={Guo, Taicheng and Chen, Xiuying and Wang, Yaqi and Chang, Ruidi and Pei, Shichao and Chawla, Nitesh V and Wiest, Olaf and Zhang, Xiangliang}, + journal={arXiv preprint arXiv:2402.01680}, + year={2024} +} +@article{zhao2023survey, + title={A survey of large language models}, + author={Zhao, Wayne Xin and Zhou, Kun and Li, Junyi and Tang, Tianyi and Wang, Xiaolei and Hou, Yupeng and Min, Yingqian and Zhang, Beichen and Zhang, Junjie and Dong, Zican and others}, + journal={arXiv preprint arXiv:2303.18223}, + year={2023} +} +@article{gao2024higher, + title={Higher layers need more lora experts}, + author={Gao, Chongyang and Chen, Kezhen and Rao, Jinmeng and Sun, Baochen and Liu, Ruibo and Peng, Daiyi and Zhang, Yawen and Guo, Xiaoyuan and Yang, Jie and Subrahmanian, VS}, + journal={arXiv preprint arXiv:2402.08562}, + year={2024} +} +@inproceedings{dou2024loramoe, + title={LoRAMoE: Alleviating world knowledge forgetting in large language models via MoE-style plugin}, + author={Dou, Shihan and Zhou, Enyu and Liu, Yan and Gao, Songyang and Shen, Wei and Xiong, Limao and Zhou, Yuhao and Wang, Xiao and Xi, Zhiheng and Fan, Xiaoran and others}, + booktitle={Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)}, + pages={1932--1945}, + year={2024} +} + + + +@article{achiam2023gpt, + title={Gpt-4 technical report}, + author={Achiam, Josh and Adler, Steven and Agarwal, Sandhini and Ahmad, Lama and Akkaya, Ilge and Aleman, Florencia Leoni and Almeida, Diogo and Altenschmidt, Janko and Altman, Sam and Anadkat, Shyamal and others}, + journal={arXiv preprint arXiv:2303.08774}, + year={2023} +} +@article{jaszczur2021sparse, + title={Sparse is enough in scaling transformers}, + author={Jaszczur, Sebastian and Chowdhery, Aakanksha and Mohiuddin, Afroz and Kaiser, Lukasz and Gajewski, Wojciech and Michalewski, Henryk and Kanerva, Jonni}, + journal={Advances in Neural Information Processing Systems}, + volume={34}, + pages={9895--9907}, + year={2021} +} +@inproceedings{standley2020tasks, + title={Which tasks should be learned together in multi-task learning?}, + author={Standley, Trevor and Zamir, Amir and Chen, Dawn and Guibas, Leonidas and Malik, Jitendra and Savarese, Silvio}, + booktitle={International conference on machine learning}, + pages={9120--9132}, + year={2020}, + organization={PMLR} +} +@article{cai2024survey, + title={A survey on mixture of experts}, + author={Cai, Weilin and Jiang, Juyong and Wang, Fan and Tang, Jing and Kim, Sunghun and Huang, Jiayi}, + journal={arXiv preprint arXiv:2407.06204}, + year={2024} +} +@article{karimi2021compacter, + title={Compacter: Efficient low-rank hypercomplex adapter layers}, + author={Karimi Mahabadi, Rabeeh and Henderson, James and Ruder, Sebastian}, + journal={Advances in Neural Information Processing Systems}, + volume={34}, + pages={1022--1035}, + year={2021} +} +@article{bommasani2021opportunities, + title={On the opportunities and risks of foundation models}, + author={Bommasani, Rishi and Hudson, Drew A and Adeli, Ehsan and Altman, Russ and Arora, Simran and von Arx, Sydney and Bernstein, Michael S and Bohg, Jeannette and Bosselut, Antoine and Brunskill, Emma and others}, + journal={arXiv preprint arXiv:2108.07258}, + year={2021} +} +@article{pan2024lisa, + title={LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning}, + author={Pan, Rui and Liu, Xiang and Diao, Shizhe and Pi, Renjie and Zhang, Jipeng and Han, Chi and Zhang, Tong}, + journal={arXiv preprint arXiv:2403.17919}, + year={2024} +} +@article{feng2024mixture, + title={Mixture-of-loras: An efficient multitask tuning for large language models}, + author={Feng, Wenfeng and Hao, Chuzhan and Zhang, Yuewei and Han, Yu and Wang, Hao}, + journal={arXiv preprint arXiv:2403.03432}, + year={2024} +} +@article{lester2021power, + title={The power of scale for parameter-efficient prompt tuning}, + author={Lester, Brian and Al-Rfou, Rami and Constant, Noah}, + journal={arXiv preprint arXiv:2104.08691}, + year={2021} +} +@article{zhou2024lima, + title={Lima: Less is more for alignment}, + author={Zhou, Chunting and Liu, Pengfei and Xu, Puxin and Iyer, Srinivasan and Sun, Jiao and Mao, Yuning and Ma, Xuezhe and Efrat, Avia and Yu, Ping and Yu, Lili and others}, + journal={Advances in Neural Information Processing Systems}, + volume={36}, + year={2024} +} +@article{wei2021finetuned, + title={Finetuned language models are zero-shot learners}, + author={Wei, Jason and Bosma, Maarten and Zhao, Vincent Y and Guu, Kelvin and Yu, Adams Wei and Lester, Brian and Du, Nan and Dai, Andrew M and Le, Quoc V}, + journal={arXiv preprint arXiv:2109.01652}, + year={2021} +} + +@article{brynjolfsson2025generative, + title={Generative AI at work}, + author={Brynjolfsson, Erik and Li, Danielle and Raymond, Lindsey}, + journal={The Quarterly Journal of Economics}, + pages={qjae044}, + year={2025}, + publisher={Oxford University Press} +} +@Misc{peft, + title = {PEFT: State-of-the-art Parameter-Efficient Fine-Tuning methods}, + author = {Sourab Mangrulkar and Sylvain Gugger and Lysandre Debut and Younes Belkada and Sayak Paul and Benjamin Bossan}, + howpublished = {\url{https://github.com/huggingface/peft}}, + year = {2022} +} +@article{li2023chatdoctor, + title={ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (LLaMA) Using Medical Domain Knowledge}, + author={Li, Yunxiang and Li, Zihan and Zhang, Kai and Dan, Ruilong and Jiang, Steve and Zhang, You}, + journal={Cureus}, + volume={15}, + number={6}, + year={2023}, + publisher={Cureus} +} +@online{DatabricksBlog2023DollyV2, + author = {Mike Conover and Matt Hayes and Ankit Mathur and Jianwei Xie and Jun Wan and Sam Shah and Ali Ghodsi and Patrick Wendell and Matei Zaharia and Reynold Xin}, + title = {Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM}, + year = {2023}, + url = {https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm}, + urldate = {2023-06-30} +} +@inproceedings{nakano2021webgpt, + author = {Reiichiro Nakano and Jacob Hilton and Suchir Balaji and Jeff Wu and Long Ouyang and Christina Kim and Christopher Hesse and Shantanu Jain and Vineet Kosaraju and William Saunders and Xu Jiang and Karl Cobbe and Tyna Eloundou and Gretchen Krueger and Kevin Button and Matthew Knight and Benjamin Chess and John Schulman}, + title = {WebGPT: Browser-assisted question-answering with human feedback}, + booktitle = {arXiv}, + year = 2021, +} +@inproceedings{zhang2023automatic, + title={Automatic Chain of Thought Prompting in Large Language Models}, + author={Zhang, Zhuosheng and Zhang, Aston and Li, Mu and Smola, Alex}, + booktitle={The Eleventh International Conference on Learning Representations (ICLR 2023)}, + year={2023} +} +@misc{codealpaca, + author = {Sahil Chaudhary}, + title = {Code Alpaca: An Instruction-following LLaMA model for code generation}, + year = {2023}, + publisher = {GitHub}, + journal = {GitHub repository}, + howpublished = {\url{https://github.com/sahil280114/codealpaca}}, +} +@article{zhao2024hypermoe, + title={HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts}, + author={Zhao, Hao and Qiu, Zihan and Wu, Huijia and Wang, Zili and He, Zhaofeng and Fu, Jie}, + journal={arXiv preprint arXiv:2402.12656}, + year={2024} +} \ No newline at end of file diff --git a/mypaper/AAAI2026_RoSA.tex b/mypaper/AAAI2026_RoSA.tex new file mode 100755 index 0000000..6be048b --- /dev/null +++ b/mypaper/AAAI2026_RoSA.tex @@ -0,0 +1,690 @@ +\title{RoSA: Enhancing Parameter-Efficient Fine-Tuning via \\ RoPE-aware Selective Adaptation in Large Language Models} + +\input{0_misc} +\begin{abstract} +Fine-tuning large language models is essential for task-specific adaptation, yet it remains computationally prohibitive. Parameter-Efficient Fine-Tuning (PEFT) methods have emerged as a solution, but current approaches typically ignore the distinct roles of model components and the heterogeneous importance across layers, thereby limiting adaptation efficiency. +Motivated by the observation that Rotary Position Embeddings (RoPE) induce critical activations in the low-frequency dimensions of attention states, we propose RoPE-aware Selective Adaptation (RoSA), a novel PEFT framework that allocates trainable parameters in a more targeted and effective manner. +RoSA comprises a RoPE-aware Attention Enhancement (RoAE) module, which selectively enhances the low-frequency components of RoPE-influenced attention states, and a Dynamic Layer Selection (DLS) strategy that adaptively identifies and updates the most critical layers based on LayerNorm gradient norms. +By combining dimension-wise enhancement with layer-wise adaptation, RoSA achieves more targeted and efficient fine-tuning. +Extensive experiments on fifteen commonsense and arithmetic benchmarks demonstrate that RoSA outperforms existing mainstream PEFT methods under comparable trainable parameters. The code is available to ease reproducibility\footnote{\codelink}. +\end{abstract} + + + +\section{Introduction} \label{sec:intro} +Large Language Models (LLMs) have achieved remarkable success across a wide range of natural language processing (NLP) tasks, becoming a foundational infrastructure in numerous real-world applications. %TODO +However, deploying these large-scale models often requires fine-tuning to align models with specific task requirements~\cite{peng2023instruction}. +Traditional fine-tuning methods, such as full-parameter fine-tuning, are extremely resource-intensive, severely constraining their broader applicability. +Consequently, exploring Parameter-Efficient Fine-Tuning~(PEFT) methods, which aim to substantially reduce fine-tuning costs without compromising model performance, has emerged as a key research focus in the LLM community~\cite{ding2023parameter}. + +Recent PEFT methods typically aim to adapt LLMs to specific downstream tasks by fine-tuning only a small fraction of parameters, significantly reducing computational cost compared to traditional full-parameter fine-tuning. For example, mainstream PEFT methods such as P-tuning~\cite{liu2021p}, LoRA~\cite{hu2021lora}, DoRA~\cite{liu2024dora}, and C3A~\cite{chen2024parameter}, +introduce lightweight and trainable adaptation modules into the pre-trained model, keeping most of the original model parameters frozen. + +Despite advancements, existing PEFT methods exhibit two critical limitations: +\textbf{(1) Component-Heterogeneity Neglect:} Current methods largely neglect the intrinsic functional roles of LLM components~\cite{zhang2023adalora}. For instance, LoRA inserts low-rank matrices into the linear layers of attention and feed-forward blocks, enabling adaptation with minimal trainable parameters. However, such designs are applied uniformly across modules without analyzing their distinct functional roles. +\textbf{(2) Layer-Heterogeneity Neglect:} Existing approaches often overlook the diversity across layers. +However, LLMs capture syntax in lower layers, semantics in higher layers~\cite{voita2019bottom}. +Most PEFT methods apply uniform adaptation schemes across all layers, limiting the potential efficiency and effectiveness of parameter allocation. + +\begin{figure}[t] + \centering + \begin{subfigure}[b]{0.47\linewidth} + \hspace{-3px} + \includegraphics[width=\linewidth]{assets/Layer10.pdf} + \caption{Across Head Dimensions} + \label{fig:attnindim} + \end{subfigure} + \hfill + \begin{subfigure}[b]{0.48\linewidth} + \hspace{-3px} + \includegraphics[width=\linewidth]{assets/AcrossLayer.pdf} + \caption{Across Layers} + \label{fig:attninlayer} + \end{subfigure} + \caption{Q-state activation strength visualizations in LLaMA-2-7B. +We compute the average L2 norm per attention head to quantify activation strength. +Stronger activations are concentrated in high-indexed (\ie low-RoPE frequency) dimensions and vary across layers, highlighting both dimension-wise and layer-wise heterogeneity. +} + \label{fig:hotattn} +\end{figure} + +Our approach is motivated by a key observation regarding LLM architectures: different components exhibit distinct roles and activation behaviors. +Recent studies suggest that Feed-Forward Networks (FFN) act as repositories for storing factual knowledge, while Multi-Head Attention (MHA) modules function primarily for knowledge retrieval and contextual routing~\cite{geva2021transformer}. +A key component within the MHA module is the Rotary Position Embedding (RoPE)~\cite{su2024roformer}, which plays a critical role in contextual understanding by encoding positional information into attention mechanisms. RoPE achieves this by applying pair-wise complex rotations to the Query (Q) and Key (K) state tensors of attention mechanism and the sinusoidal frequency increases geometrically across successive dimension pairs. + +This frequency-based encoding introduces unique activation patterns. +As shown in Fig.\ref{fig:hotattn}(\subref{fig:attnindim}), there are obvious distinctions in Q-state activations across different dimensional channels. +Specifically, low-frequency components (corresponding to higher-indexed dimensions within each half of the attention states) exhibit denser and more intense activations, while high-frequency shows sparser activations. +Analyses confirm that these prominent low-frequency activations are crucial for contextual understanding~\cite{barbero2024round, jin2025massive}. +Furthermore, Fig.\ref{fig:hotattn}(\subref{fig:attninlayer}) reveals that this activation intensity is also highly heterogeneous across different layers, suggesting their contributions are not equal. +These findings highlight that targeting these critical low-frequency components and the varying importance across layers for fine-tuning hold significant potential for enhancing both model performance and parameter efficiency. + +Building on this, we propose a novel parameter-efficient fine-tuning method called RoPE-aware Selective Adaptation (RoSA). Specifically, RoSA integrates two complementary modules: +(1) \textit{a RoPE-aware Attention Enhancement (RoAE)} module, explicitly designed to adaptively enhance the distinctive low-frequency components within query/key states influenced by the RoPE mechanism, thereby enhancing the model's contextual understanding capabilities with high parameter efficiency. +(2) a \textit{Dynamic Layer Selection~(DLS)} strategy, enabling RoSA to dynamically identify and adapt only the most critical layers during fine-tuning. Specifically, layer importance is quantified by computing the gradient norm of Layer Normalization parameters, serving as a reliable proxy for determining each layer's contribution to model performance. +By simultaneously leveraging RoPE's inherent structural characteristics and dynamically allocating fine-tuning resources to layers that matter most, RoSA substantially improves parameter efficiency and model effectiveness compared to existing PEFT techniques. The main contributions of this paper are summarized as follows: +\begin{itemize}[leftmargin=*, topsep=0pt] + \item To our knowledge, among PEFT works, we are the first to explicitly consider the distinctive low-frequency attention components induced by RoPE and propose RoAE, a RoPE-aware PEFT module that performs targeted enhancement of these functionally key dimensions. This adaptation effectively strengthens contextual understanding capabilities in a highly parameter-efficient manner. + \item We introduce RoSA, a comprehensive PEFT framework that combines the RoAE module with a Dynamic Layer Selection (DLS) strategy. Specifically, DLS adaptively identifies and selectively updates the most impactful layers based on gradient norms of Layer Normalization parameters. Thus, RoSA optimally allocates parameters both dimension-wise and layer-wise according to their functional importance, enhancing overall efficiency. + \item Extensive experiments on fifteen public benchmark datasets, using three backbone models and covering commonsense and arithmetic QA tasks, demonstrate that RoSA significantly outperforms existing mainstream PEFT methods under comparable trainable parameter scales, validating both its efficiency and effectiveness. +\end{itemize} + +\begin{figure*}[ht] + \centering + \includegraphics[width=0.81\linewidth]{assets/rosa_arch_deeper.pdf} + \caption{The architecture of RoSA. RoSA consists of two key modules: RoPE-aware Attention Enhancement (RoAE), which selectively enhances low-frequency components of RoPE-influenced Q/K states, and + Dynamic Layer Selection (DLS), which dynamically selects important layers for update. % based on LayerNorm gradient signals. + Enabling targeted, efficient adaptation both frequency-wise and layer-wise.} + \label{fig:framework} +\end{figure*} + +\section{Preliminaries} \label{sec:pre} +This section reviews the key architectural components of LLMs and the RoPE mechanism, which are essential for understanding the motivations behind our method. +\subsection{LLM Architecture} +Modern LLMs, such as the LLaMA family~\cite{touvron2023llama}, are primarily built upon the decoder-only Transformer architecture~\cite{vaswani2017attention}. This architecture consists of a stack of identical Transformer blocks, each containing two primary components: a Multi-Head Self-Attention (MHSA) module and a Feed-Forward Network (FFN) module. +The MHSA module allows the model to weigh the importance of different tokens in the input sequence, capturing complex contextual relationships. +To incorporate crucial information about token order, which self-attention itself lacks, these models integrate positional encodings. Specifically, modern LLMs heavily adopt the Rotary Position Embedding (RoPE)~\cite{su2024roformer} as a relative positional encoding mechanism, which directly injects relative positional information into the attention computation and plays a crucial role in the model's ability to generalize over long contexts. +The FFN, typically composed of two linear layers with a non-linear activation function, is responsible for feature transformation and is believed to be a key repository of factual and commonsense knowledge stored within the model's parameters~\cite{geva2021transformer}. +A residual connection~\cite{he2016deep} is applied around each of the two sub-modules, followed by a Layer Normalization step. +Most LLMs utilize Pre-LN for enhanced training stability, where normalization is applied directly to the input of each sub-module. In this design, LayerNorm acts as a bridge between residual stream and subsequent attention or FFN modules, modulating the information flow across modules and layers. +\subsection{Rotary Position Embedding (RoPE)} +As mentioned in the previous section, the original self-attention mechanism is inherently permutation-invariant, meaning that the order of input tokens does not affect the output. +Therefore, an external mechanism is required to encode token positions. +While early models use additive, learned absolute position embeddings, modern LLMs widely adopt Rotary Position Embedding (RoPE)~\cite{su2024roformer} due to its effectiveness and efficiency in encoding relative positional information, especially for long sequences. + +RoPE injects positional information by applying a rotational transformation directly to the Query ($q$) and Key ($k$) vectors in each attention head. +Specifically, given a vector $\mathbf{z} \in \mathbb{R}^d$, where $d$ is even, RoPE splits it into two halves: a \textit{real} part $\mathbf{z}^{\text{real}}$ and an \textit{imaginary} part $\mathbf{z}^{\text{imag}}$, each of dimension $d/2$. Then, for each index $i$, RoPE treats $(\mathbf{z}^{\text{real}}_i, \mathbf{z}^{\text{imag}}_i)$ as a complex-valued component and applies a 2D rotation: + +\begin{equation} +\text{RoPE}(\mathbf{z}^{\text{real}}_i, \mathbf{z}^{\text{imag}}_i) = +\begin{bmatrix} +\cos \theta_i & -\sin \theta_i \\ +\sin \theta_i & \cos \theta_i +\end{bmatrix} +\begin{bmatrix} +\mathbf{z}^{\text{real}}_i \\ +\mathbf{z}^{\text{imag}}_i +\end{bmatrix}, +\end{equation} +where $\theta_i = t \cdot \omega^{-2i/d}$, $t$ is the token position index, and $\omega$ is a base frequency constant (commonly set to $10{,}000$). This operation is equivalent to applying a complex-valued sinusoidal rotation, enabling relative positional relationships to be encoded directly into the attention mechanism. Since each rotation is applied to the corresponding dimensions in the two halves of the vector, both halves share the same rotation frequency $\theta_i$. As observed in Fig.\ref{fig:hotattn}(\subref{fig:attnindim}), the activation patterns exhibit similarity, highlighting the impact of RoPE on the attention mechanism across dimensions. + + +As $\theta_i$ decreases geometrically with the index $i$, low-indexed dimensions encode high-frequency positional patterns, while the high-indexed dimensions encode low-frequency, smoother components. +These low-frequency components often produce stronger and denser activations, and are crucial for long-range dependency modeling. +These observations suggest that the frequency structure induced by RoPE provides a meaningful basis for improving PEFT methods. +In this work, we explicitly target the low-frequency components of RoPE-influenced attention states, aiming to enhance parameter efficiency in a more targeted manner. + + +\section{Method} + +In this section, we first provide an overview of the RoSA framework, then describe its two core components in detail, and finally present the overall algorithm. + +\subsection{Framework Overview} +Existing PEFT methods often overlook two key aspects of LLMs: (\textit{i}) the frequency-specific structure introduced by RoPE, and (\textit{ii}) the layer-wise importance heterogeneity during adaptation. +This motivates us to design a more targeted and adaptive fine-tuning strategy. +To address these challenges, we propose RoPE-aware Selective Adaptation (RoSA). The core idea is to achieve a more targeted and efficient fine-tuning through a dual-level adaptation strategy, targeting critical low-frequency dimensions within layers and selecting the most important layers across the model. + +As illustrated in Fig.\ref{fig:framework}, RoSA achieves this through two main components. +First, the RoPE-aware Attention Enhancement (RoAE) module selectively enhancing the low-frequency components of RoPE-influenced attention states, which play a critical role in contextual understanding. +Further, the Dynamic Layer Selection (DLS) module identifies and adapts the most important layers during fine-tuning based on a gradient importance metric. +By combining frequency-wise and layer-wise selective adaptation, RoSA achieves a more effective and efficient adaptation process. + +\subsection{RoPE-aware Attention Enhancement (RoAE)} +Based on the observation that the low-frequency dimensions of RoPE-rotated attention states play a critical role in modeling long-range dependencies and contextual semantics~\cite{barbero2024round, jin2025massive}. +However, conventional PEFT methods do not explicitly consider this frequency structure, instead applying generic adaptations across all dimensions. +This limits their efficiency and effectiveness. +To address this, we introduce the RoPE-aware Attention Enhancement (RoAE) module, which selectively enhances the low-frequency components within the Query (Q) and Key (K) attention states in a lightweight and targeted manner. + +\subsubsection{Low-Frequency Components Selection:} +Given the hidden states $\mathbf{H} \in \mathbb{R}^{b \times l \times d}$ as input to a Transformer layer, where $b$ is the batch size, $l$ is the sequence length, and $d$ is the hidden dimension. After applying the standard linear projections to obtain the query and key tensors, these are reshaped into multi-head representations with shape $[b, h, l, d_h]$, where $h$ is the number of attention heads and $d_h = d / h$ is the dimension per head. +RoPE first splits each head vector into real $\mathbf{z}_{\text{real}}$ and imaginary $\mathbf{z}_{\text{imag}}$ halves, then applies a sinusoidal rotation to every resulting complex pair. + +To extract the low-frequency components, we follow the structure of RoPE and split each head vector into two halves of size $d_h/2$. From each half, we take the last +$(d_h \cdot r_{\text{low}}) / 2$ +dimensions and concatenate them to form a $d_{\text{low}}$-dimensional vector, denoted as $\mathbf{z}_{\text{low}}$. Here, $r_{\text{low}} \in (0, 1)$ is a hyperparameter controlling the ratio of the targeted low-frequency components. +This extracted vector captures the critical low-frequency components of the RoPE-influenced Q/K head, serving as the target for enhancement. + +\subsubsection{Adaptation Signal Generation:} +To enhance the extracted low-frequency components in a targeted way, we first generate a context-aware adaptation signal $\mathbf{S}$. +Specifically, the hidden state is passed through a trainable linear projection, $\mathbf{W}_{\text{proj}}$, followed by a non-linear activation (SiLU)~\cite{elfwing2018sigmoid} to introduce non-linearity: +\begin{equation} +\tilde{\mathbf{S}} = \text{SiLU}(\mathbf{H} \mathbf{W}_{\text{proj}}), \quad \mathbf{W}_{\text{proj}} \in \mathbb{R}^{d \times (h \cdot d_{\text{low}})}, +\label{eq:roae-proj} +\end{equation} +where $\tilde{\mathbf{S}} \in \mathbb{R}^{b \times l \times (h \cdot d_{\text{low}})}$. Similarly, we then reshape the projected tensors to the multi-head shape $\mathbf{S}\in\mathbb{R}^{b \times h \times l \times d_{\text{low}}}$. + +Notably, to improve parameter efficiency, the projection module $\mathbf{W}_{\text{proj}}$ is implemented using a low-rank decomposition ($\mathbf{W}_{\text{proj}} = \mathbf{B}\mathbf{A}$), adding only a small number of trainable parameters. +Further, this design remains compatible and can be flexibly replaced by other emerging PEFT methods. + +In typical settings, we use the same adaptation signal $\mathbf{S}$ for both query and key projections. +To ensure compatibility with modern architectures employing Grouped-Query Attention (GQA)~\cite{ainslie2023gqa}, where the number of query and key heads, denoted by $h_q$ and $h_k$, may differ, we apply an additional projection module to align the dimensions: +\begin{equation} +\tilde{\mathbf{S}}^{(K)} = \tilde{\mathbf{S}}^{(Q)} \cdot \mathbf{W}_{\text{GQA}}, \quad \mathbf{W}_{\text{GQA}} \in \mathbb{R}^{(h_q \cdot d_{\text{low}}) \times (h_k \cdot d_{\text{low}})}, +\label{eq:roae-gqa} +\end{equation} +ensuring compatibility across varying attention configs, thereby enabling RoAE to support GQA-enabled models. + +\subsubsection{Targeted Enhancement Application: } +After obtaining the adaptation signal $\mathbf{S}$, the final step is to apply it to the targeted low-frequency components. +Recall that in the previous step, we extracted the low-frequency vectors $\mathbf{z}_{\text{low}}$ of each head. +Denoting the extracted low-frequency components for all attention heads as $\mathbf{Z}\in\mathbb{R}^{b\times h\times l\times d_{\text{low}}}$, we perform the enhancement via an element-wise multiply modulation: +\begin{equation} +\mathbf{Z}^{*} = \mathbf{Z} + \mathbf{Z}\odot(\alpha\cdot\mathbf{S}), +\label{eq:roae-apply} +\end{equation} +here $\alpha$ is a scaling factor controlling the adaptation strength. + + + +Finally, the enhanced low-frequency tensors $\mathbf{Z}^{*}$ are re-integrated into their original positions of the attention head states, replacing the corresponding low-frequency dimensions. +The attention mechanism then proceeds with these selectively enhanced query and key representations, allowing the model to better leverage RoPE's critical frequency structure for improved contextual understanding abilities. + +In summary, the RoAE module introduces a targeted and efficient PEFT paradigm. +Its core innovation lies in its mechanism-aware design, which targets the critical components of RoPE-influenced attention states. +Furthermore, the enhancement is context-aware, as the adaptation signal is dynamically generated from the input states to provide token-specific modulations. +By achieving this with high parameter efficiency and maintaining compatibility across diverse architectures, RoAE establishes a more flexible and effective method for adapting LLMs into specific tasks. + +\subsection{Dynamic Layer Selection (DLS)} +While the RoAE module provides a targeted, mechanism-aware approach to adapting parameters within one layer, LLMs exhibit considerable heterogeneity across different layers, with lower layers primarily capturing syntactic features and higher layers encoding abstract semantic and contextual knowledge~\cite{voita2019bottom}. +Applying it uniformly across all layers, like common PEFT methods, overlooks the layer-wise importance heterogeneity. +To address this, we propose Dynamic Layer Selection (DLS) strategy, a method designed to dynamically select and adapt the most important layers, improving parameter utilization efficiency throughout the fine-tuning process. + +\subsubsection{Layer Importance Estimation:} +The core of DLS is to accurately estimate the importance of each layer with respect to the fine-tuning objective. +We propose to use the gradient norm of Layer Normalization (LayerNorm) parameters as an efficient proxy for this task. +Because LayerNorm directly controls information flow between Transformer submodules and layers. A large gradient for this parameter indicates that it is necessary for the model to significantly change the output distribution of this layer to minimize the loss. + +In the common-adopted Pre-LN architecture, LayerNorm modules are placed before the self-attention and before the FFN module. +Formally, for the $i$-th Transformer layer $L_i$, its importance score is calculated by aggregating the $\text{L}_2$ norms of the gradients from the LayerNorm parameters: +\begin{equation} +\text{Score}(L_i) = \sqrt{ \| \nabla \mathbf{\Theta}_{i, \text{attn}} \|_2^2 + \| \nabla \mathbf{\Theta}_{i, \text{ffn}} \|_2^2 } +\label{eq:dls-calc} +\end{equation} +where $\mathbf{\Theta}_{i, \text{attn}}$ and $\mathbf{\Theta}_{i, \text{ffn}}$ represent the learnable parameters for the two LayerNorm modules in the $i$-th layer. +In practice, we periodically compute these importance scores for all layers, providing an informative metric to guide selection. +\subsubsection{Dynamic Selection and Gradient Masking:} +The selection procedure is activated periodically at an interval of $u$ steps after an initial warmup phase. At each activation, DLS employs a strategy that balances exploitation and exploration to choose a subset of layers for updates, specifically: +\begin{itemize}[leftmargin=*, topsep=0pt] + \item \textbf{Exploitation:} With a high probability $p_{\text{exploit}}$, we rank all layers based on their scores and select the top-$k$ layers for training, where $k$ is determined by a predefined ratio $k_{\text{ratio}}$. + \item \textbf{Exploration:} Conversely, with a probability of $1-p_{\text{exploit}}$, we randomly select $k$ layers to ensure that all layers have a chance to adapt, thus reducing the risk of local optima. +\end{itemize} + +Once the set of selected layers $\mathcal{L_S}$ is determined, a gradient mask is applied. +Specifically, the gradients of parameters in all non-selected layers are set to 0 to prevent updating: +\begin{equation} +\nabla L_i \leftarrow \mathbf{0},\quad \text{if}\quad i \notin \mathcal{L_S}. +\label{eq:dls-mask} +\end{equation} + + +In summary, DLS reduces unnecessary parameter updates by dynamically identifying and adapting only the most critical layers, leading to improved efficiency and potentially superior downstream task performance. +It is noteworthy that DLS is model-agnostic and can be easily integrated into existing PEFT pipelines. Combined with RoAE, which enables selective adaptation over important frequency components, DLS completes the RoSA framework by jointly targeting both dimension-level and layer-level adaptation. + + +\subsection{Overall Algorithm} +RoSA integrates the RoAE and DLS modules into the standard causal language modeling framework, where the model is trained using cross-entropy loss between predicted and target tokens. These modules operate jointly, enabling targeted adaptation both across frequency dimensions and model layers, achieving effective and efficient fine-tuning. + +The full training procedure is summarized in Algorithm~\ref{alg:rosa}, +which outlines how RoSA applies frequency-aware enhancements via RoAE and dynamically selects critical layers for update via DLS. +Thus, RoSA optimally allocates parameters both dimension-wise and layer-wise according to their functional importance, enhancing overall efficiency. +Importantly, RoSA can be seamlessly integrated into existing PEFT frameworks or combined with other fine-tuning techniques due to its modular and adaptive design. +\begin{algorithm}[htbp] +\caption{RoPE-aware Selective Adaptation (RoSA)} +\label{alg:rosa} +\begin{algorithmic}[1] +\Require Pretrained LLM model $\mathcal{M}$, dataset $\mathcal{D}$, RoAE hyperparameters ($\alpha$, $r_{\text{low}}$), DLS hyperparameters ($k_{\text{ratio}}$, $p_{\text{exploit}}$, $u$), learning rate $\eta$, warmup steps $T_{\text{warmup}}$. +\State Initialize RoAE modules with $\alpha$ and $r_{\text{low}}$ and integrate them into $\mathcal{M}$; +\State Set only RoSA-related parameters $\mathbf{\Theta}_{\text{RoSA}}$ as trainable; +\For{each training step $t$} + \State Sample a batch of data from $\mathcal{D}$; + \State Compute forward pass with RoAE enhanced attention states (Eq.~\ref{eq:roae-proj}-\ref{eq:roae-apply}); + \State Compute loss and perform backward pass to obtain gradients; + \If{$t > T_{\text{warmup}}$ \textbf{and} $t$ mod $u$ == 0} + \State Calculate layer importance $\text{Score}(L_i)$ using LayerNorm gradients (Eq.~\ref{eq:dls-calc}); + \State With probability $p_{\text{exploit}}$, select the top $k_{\text{ratio}}$ fraction of layers \textit{(DLS-Exploitation)}; + otherwise, randomly select $k_{\text{ratio}}$ fraction of layers \textit{(DLS-Exploration)}; + + \EndIf + \State Mask gradients of parameters in non-selected layers (Eq.~\ref{eq:dls-mask}); + \State Update parameters of active layers using optimizer with learning rate $\eta$; +\EndFor +\end{algorithmic} +\end{algorithm} + + +\begin{table*}[t] + \centering + \small + \resizebox{0.96\linewidth}{!}{ + \renewcommand{\arraystretch}{0.96} + \begin{tabular}{l|lccccccccccc} % ← 无竖线的简洁风格 + \toprule + \textbf{Backbone LLM} & \textbf{Baseline} & \textbf{\# Param (\%)} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{micro-avg(\%)$\uparrow$} \\ % & \textbf{macro-avg$\uparrow$} + \midrule + \multirow{9}{*}{\textbf{Qwen 2.5 7B}} + & LoRA&0.527 &66.9&86.8&76.7&88.2&93.9&87.2&89.7&72.2&84.3 \\ + & DoRA&0.546 &68.3&\underline{87.4}&77.2&\underline{89.4}&95.2&88.0&\underline{90.0}&70.4&84.9 \\ + & AdaLoRA&0.396 &\underline{69.7}&\underline{87.4}&\underline{77.9}&88.9&\textbf{95.7}&\underline{89.4}&\textbf{90.6}&72.6&\underline{85.6} \\ + & BOFT&0.023 &68.5&86.0&76.1&87.5&94.6&82.4&86.1&65.3&82.4 \\ + & VERA&0.018 &55.4&83.7&74.1&85.1&93.6&77.2&82.2&64.1&77.9 \\ + & C3A&0.665 &69.5&87.0&77.5&88.9&95.2&86.6&89.9&71.6&85.0 \\ + & BONE&0.291 &67.6&84.9&76.8&85.2&94.3&87.4&88.3&\textbf{77.9}&83.9 \\ + & LN Tuning&0.001 &62.5&86.0&73.3&85.0&93.3&77.2&80.9&62.1&78.4 \\ + & \framework (ours)&0.261 &\textbf{70.5}&\textbf{88.0}&\textbf{79.1}&\textbf{90.1}&\underline{95.3}&\textbf{89.6}&\textbf{90.6}&\underline{73.7}&\textbf{85.9}* \\ + \midrule + \multirow{9}{*}{\textbf{Llama 3.1 8B}} + & LoRA&0.520 &\textbf{71.7}&86.8&75.5&83.1&\underline{92.7}&82.4&\underline{88.6}&68.8&83.7 \\ + & DoRA&0.537 &71.5&86.9&75.8&83.2&92.5&82.2&88.5&70.0&83.8 \\ + & AdaLoRA&0.390 &71.1&86.2&74.7&\textbf{83.6}&92.6&82.8&87.2&\underline{70.8}&83.0 \\ + & BOFT&0.028 &70.5&85.5&72.4&80.0&91.9&79.0&82.4&62.5&79.7 \\ + & VERA&0.017 &68.8&82.9&68.4&77.6&91.4&77.4&75.2&57.4&75.2 \\ + & C3A&0.674 &\underline{71.6}&\textbf{87.7}&\underline{76.2}&83.1&92.6&\textbf{84.4}&88.3&70.6&\underline{83.9} \\ + & BONE&0.274 &64.7&78.4&74.2&72.1&86.8&78.2&81.8&70.3&77.6 \\ + & LN Tuning&0.003 &70.1&84.6&70.9&80.2&91.8&78.8&80.6&61.8&78.6 \\ + & \framework (ours)&0.329 &\textbf{71.7}&\underline{87.1}&\textbf{76.4}&\underline{83.3}&\textbf{92.8}&\underline{83.6}&\textbf{89.0}&\textbf{74.8}&\textbf{84.4}* \\ + \midrule + \multirow{9}{*}{\textbf{Gemma 2 9B}} + & LoRA&0.581 &69.3&88.0&77.8&\textbf{88.0}&\textbf{95.5}&\underline{87.4}&89.8&\underline{77.4}&85.4 \\ + & DoRA&0.601 &70.0&87.3&\underline{78.1}&86.1&94.3&87.0&89.4&76.8&85.0 \\ + & AdaLoRA&0.437 &\underline{72.3}&\underline{88.2}&77.4&87.5&\textbf{95.5}&86.2&89.0&73.4&85.1 \\ + & BOFT&0.029 &65.2&83.2&72.4&81.7&91.1&75.0&80.3&62.1&77.7 \\ + & VERA&0.020 &65.2&79.8&66.0&73.8&85.8&61.8&70.5&56.1&70.9 \\ + & C3A&0.699 &70.7&87.7&77.7&86.9&\underline{94.5}&86.8&\textbf{90.4}&75.3&\underline{85.5} \\ + & BONE&0.319 &60.3&75.3&66.3&69.0&83.7&74.0&67.3&64.3&68.7 \\ + & LN Tuning&0.007 &61.2&78.1&66.1&73.2&85.0&65.0&71.9&55.1&70.7 \\ + & \framework (ours)&0.363 &\textbf{74.0}&\textbf{88.3}&\textbf{78.5}&\underline{87.8}&\textbf{95.5}&\textbf{87.8}&\underline{90.0}&\textbf{77.5}&\textbf{86.2}* \\ + \bottomrule + \end{tabular} + } + \caption{Performance comparison of RoSA and baseline methods on the Commonsense QA task across three backbone LLMs. + \textbf{{\large *}} indicates the statistically significant improvements (\ie two-sided t-test with $p<0.05$) over the best baseline. + RoSA consistently achieves the highest average performance under comparable parameter budgets.} + \label{tab:main_common} + \vspace{-4px} +\end{table*} + + +\begin{table}[t] + \centering + \small + \resizebox{1\linewidth}{!}{ + \renewcommand{\arraystretch}{1} + \begin{tabular}{lcccc} % ← 无竖线的简洁风格 + \toprule + \textbf{Baseline} & \textbf{Qwen2.5 0.5B} & \textbf{Qwen2.5 1.5B} & \textbf{Qwen2.5 3B} & \textbf{Qwen2.5 7B} \\ + \midrule + AdaLoRA &\underline{53.5}&\underline{75.1}&81.1&\underline{85.6} \\ + C3A &53.1&74.9&\underline{81.2}&85.0 \\ + \framework (ours) &\textbf{53.7}&\textbf{75.5}&\textbf{82.0}&\textbf{85.9} \\ + \bottomrule + \end{tabular} + } + \caption{Average Commonsense QA accuracy of RoSA, AdaLoRA, and C3A on varying sizes Qwen2.5 (0.5 to 7B). + \label{tab:scale} + } + \vspace{-9px} +\end{table} +\section{Experiments} +To comprehensively evaluate the performance of our proposed RoSA, we conduct extensive experiments guided by the following key research questions (RQs): + +\begin{itemize}[leftmargin=*] + \item \textbf{RQ1:} How does RoSA perform compared to state-of-the-art PEFT methods across different backbone LLMs and downstream tasks? + \item \textbf{RQ2:} How does RoSA demonstrate scalability performance with backbone LLMs of different parameter sizes? + \item \textbf{RQ3:} What are the contributions of each component within RoSA (RoAE and DLS) to its overall performance? + \item \textbf{RQ4:} How do RoSA's key hyperparameters affect its overall performance? +\end{itemize} + +We first introduce the experimental setup and then systematically address each of the above research questions. + + +\subsection{Experimental Setup} +\subsubsection{Datasets} +We follow the setup from LLM-Adapters~\cite{hu2023llm} and evaluate RoSA on two distinct tasks: Commonsense QA and Arithmetic QA. +Specifically, we fine-tune models using \texttt{Commonsense15K} and \texttt{Math10K}, which are constructed from multiple data sources. +For the \textit{Commonsense} task, we evaluate on eight diverse benchmarks: BoolQ, PIQA, SIQA, ARC-Challenge, ARC-Easy, OBQA, HellaSwag, and WinoGrande. +Further, we assess performance of the \textit{Arithmetic} task on seven benchmarks: MultiArith, GSM8K, AddSub, AQuA, SingleEq, SVAMP, and MAWPS. +We report accuracy on each benchmark as the evaluation metric. Further details can be found in Appendix. + +\subsubsection{Backbone Models} +We select three powerful and widely-used LLMs as backbone models to validate the generalization of RoSA: Qwen2.5-7B~\cite{bai2023qwen}, Llama-3.1-8B~\cite{dubey2024llama}, and Gemma2-9B~\cite{team2024gemma}. + +\subsubsection{Baseline Methods} +We evaluate our approach against a comprehensive set of recent and diverse PEFT methods. Specifically, we compare several low-rank methods and their variants, including the basic \textbf{LoRA}~\cite{hu2021lora}, its weights decomposing successor \textbf{DoRA}~\cite{liu2024dora}, dynamically rank-allocating \textbf{AdaLoRA}~\cite{zhang2023adalora}, and shared low-rank matrices \textbf{VERA}~\cite{kopiczko2023vera}. +Methods leveraging more complex structured matrices, such as the orthogonality-enforcing \textbf{BOFT}~\cite{liu2023parameter}, the circular-convolution-based \textbf{C3A}~\cite{chen2024parameter}, and the block-affine-transformation-based \textbf{BONE}~\cite{kang2024balancing} are also introduced. Finally, a simple and effective method \textbf{LN Tuning}~\cite{zhao2023tuning} is included, which only tunes the model's Layer Normalization parameters. + +\subsubsection{Implementation Details} +All experiments are conducted on NVIDIA GeForce RTX 3090 using PyTorch and HuggingFace Transformers. +We use an AdamW optimizer with a learning rate of 1e-3. +Hyperparameters used in RoSA are as follows: low-freq dimension ratio $r_{\text{low}}$: 0.25, scaling factor $\alpha$: 0.1, low-rank projection dimension: 128, layer selection ratio $k_{\text{ratio}}$: 0.5, selection interval $u$: 40 steps and exploitation probability $p_{\text{exploit}}$: 0.8. For detailed implementation, please refer to the Appendix and our code for reproducibility\footnote{\codelink}. + +\subsection{Overall Performance (RQ1, 2)} +To answer RQ1, we compare RoSA against all baselines on two distinct tasks: Commonsense and Arithmetic QA. +The results are summarized in Table \ref{tab:main_common} and Table \ref{tab:main_arith}, respectively. + +As shown in Table \ref{tab:main_common}, RoSA consistently achieves the best performance across all three backbone models, maintaining relatively low trainable parameters. This confirms that the low-frequency components introduced by RoPE play a crucial role in improving the model's contextual understanding. +Among LoRA variants, AdaLoRA's dynamic rank allocation yields better performance, aligning with the principles of dynamic selection of DLS module. Methods like C3A, which employ novel adapter designs, also show competitive results, highlighting the potential of more complex structured matrices for improving parameter efficiency. +Additionally, LN Tuning, a simple and effective method, performs well with minimal trainable parameters, further supporting the use of LayerNorm as an importance proxy in DLS. + +To validate RoSA's capabilities, we also conduct a focused comparison on the Arithmetic QA task, specifically using the Qwen2.5-7B model due to space constraints. The results, summarized in Table \ref{tab:main_arith}, are consistent with those observed in the Commonsense task, where RoSA still achieves the best performance among all methods. + +To further answer RQ2, we investigate how RoSA's performance scales with model size. We evaluate four Qwen2.5 variants (0.5B, 1.5B, 3B, and 7B) on the Commonsense QA task, comparing against two strong baselines, AdaLoRA and C3A. As shown in Table~\ref{tab:scale}, all methods improve with larger models, but RoSA consistently maintains a clear advantage across scales, highlighting its robustness and scalability. + +\begin{table*}[t] + \centering + \small + \resizebox{0.94\linewidth}{!}{ + \renewcommand{\arraystretch}{0.95} + \begin{tabular}{lcccccccccc} + \toprule + \textbf{Baseline} & \textbf{\# Param (\%)} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{micro-avg(\%)$\uparrow$} \\ + \midrule + LoRA&0.527 &93.0&68.7&88.8&33.8&\underline{88.9}&79.2&88.2&77.7 \\ + DoRA&0.546 &92.3&\underline{70.0}&88.6&34.6&88.5&79.6&87.3&78.1 \\ + AdaLoRA&0.396 &90.0&68.8&85.3&33.8&85.6&78.9&84.0&76.3 \\ + BOFT&0.023 &89.6&67.8&82.5&31.1&86.2&75.2&80.2&74.6 \\ + VERA&0.018 &72.5&63.7&80.7&31.1&80.3&74.2&83.1&70.0 \\ + C3A&0.665 &\textbf{95.3}&67.1&\underline{90.3}&\textbf{35.4}&\textbf{90.1}&\underline{82.1}&\underline{89.4}&\underline{78.7} \\ + BONE&0.291 &92.8&66.6&89.6&33.4&88.3&\underline{82.1}&89.0&77.8 \\ + LN Tuning&0.001 &79.6&63.6&72.1&34.2&75.3&68.1&70.1&67.7 \\ + \framework (ours)&0.261 &\underline{94.3}&\textbf{71.3}&\textbf{92.1}&\underline{35.0}&\textbf{90.1}&\textbf{82.2}&\textbf{92.0}&\textbf{80.1}* \\ + \bottomrule + \end{tabular} + } + \caption{Evaluation of RoSA and baseline methods on the Arithmetic QA task using the Qwen2.5-7B model. RoSA achieves the highest average accuracy across all benchmarks, demonstrating its generalization to mathematical tasks.} + \label{tab:main_arith} + \vspace{-4px} +\end{table*} + + + +\subsection{Ablation and Hyperparameter Analysis~(RQ3, 4)} +We then perform ablation and hyperparameter studies to analyze RoSA components and sensitivity to hyperparameters. % systematically choices +All results in this section are reported as average performance on the Commonsense QA task with Qwen2.5-7B. +\subsubsection{Ablation Study: } +We first conduct an ablation study comparing the full RoSA framework against several variants to evaluate the contributions of its components, as shown in Table~\ref{tab:abla}. +The full \textbf{RoSA} model includes both RoAE and DLS. We first examine the \textbf{RoSA-RoAEonly} variant by disabling DLS for evaluating the impact of layer selection. +We further investigate several RoAE replacement and modification variants, all retaining DLS: +(i) \textbf{RoSA-RoAE0.5}, which sets the low-freq dimension ratio $r_{\text{low}}$ to 0.5 while keeping all other settings unchanged, +(ii) \textbf{RoSA-Lr128}, which applies standard LoRA on Q/K with all other configs identical to RoSA, and +(iii) \textbf{RoSA-Lr64}, which uses LoRA with a similar number of trainable parameters as RoSA. +These variants also provide an implicit analysis of the effect of $r_{\text{low}}$, allowing us to compare targeted adaptation on varying frequency ranges. +Overall, the results indicate that each component of RoSA contributes to performance, and focusing adaptation on a compact low-frequency subspace is more effective. + +\subsubsection{Sensitivity of DLS: } + +To further evaluate the DLS module, we analyze the sensitivity of the layer selection ratio $k_{\text{ratio}}$, which controls the proportion of layers updated during fine-tuning. We vary $k_{\text{ratio}}$ over a range of values. As summarized in Fig.~\ref{fig:sens_dls}, RoSA performs best when $k_{\text{ratio}} \approx 0.5$. Increasing this ratio slightly degrades performance, suggesting that selectively updating fewer layers leads to more efficient optimization and enhances overall model performance. + +\begin{figure}[tb] +\vspace{-3pt} + \centering + \resizebox{0.98\linewidth}{!}{ + + \begin{minipage}[t]{.45\columnwidth} + \centering + \captionsetup{font=small} + \vspace{-0.1pt} + \renewcommand{\arraystretch}{0.95} + \resizebox{.9\linewidth}{!}{% + \begin{tabular}{lc} + \toprule + \textbf{Variant} & \textbf{micro-avg$\uparrow$}\\ + \midrule + RoSA & \textbf{85.9}\\ + \makecell[l]{RoSA-RoAEonly\\ (w/o DLS)} & 84.8\\ + \makecell[l]{RoSA-RoAE0.5\\ (w/ DLS \& RoAE)} & 85.6\\ + \makecell[l]{RoSA-Lr128\\ (w/ DLS, w/o RoAE)} & 83.9\\ + \makecell[l]{RoSA-Lr64\\ (w/ DLS, w/o RoAE)} & 80.7\\ + \bottomrule + \end{tabular}} + \captionof{table}{Ablation results of RoSA on Commonsense task using Qwen2.5-7B.} + % \vspace{1pt} + \label{tab:abla} + \end{minipage} + \hfill + \begin{minipage}[t]{.45\columnwidth} + \vspace{0.1pt} + \centering + \includegraphics[width=\linewidth]{assets/impact_larger.pdf} + \captionsetup{font=small} + \captionof{figure}{Impact of layer selection ratio $k_{\text{ratio}}$.} + \label{fig:sens_dls} + \end{minipage} + } + \vspace{-9px} +\end{figure} + + +\section{Related Work} + +\subsection{Parameter-Efficient Fine-Tuning} +Parameter-Efficient Fine-Tuning (PEFT) aims to adapt LLMs to downstream tasks by tuning only a small subset of parameters, significantly reducing computational and memory costs. +Adapter-based methods insert small trainable modules into Transformer layers, enabling effective task adaptation with minimal parameters~\cite{houlsby2019parameter}. +Prompt-based approaches, such as prefix-tuning~\cite{li2021prefix}, freeze pretrained weights and optimize only task-specific prompts. +Low-rank methods like LoRA~\cite{hu2021lora} and its variants, including DoRA~\cite{liu2024dora}, AdaLoRA~\cite{zhang2023adalora}, and VERA~\cite{kopiczko2023vera}, inject trainable low-rank matrices into pretrained weights to achieve efficient adaptation. +Advanced structured-matrix methods, such as C3A~\cite{chen2024parameter}, and BONE~\cite{kang2024balancing}, introduce circular convolution or block affine into PEFT, further enhancing parameter efficiency through structured constraints. +However, most existing methods apply adaptation uniformly across model components, often neglecting their distinct functional roles. + +\subsection{Analysis of LLM Internals} +Understanding the internal mechanics of LLMs is a growing research area that provides crucial insights for developing more principled and efficient methods. +Early research shows that each FFN can be seen as a key-value memory~\cite{geva2021transformer}. +Recent work provides evidence that attention mechanisms are crucial for retrieving relevant context and enabling dynamic reasoning, whereas the FFN layers are responsible for memorizing task-specific or factual content~\cite{dong2025attention}. +RoPE in particular has been discussed in recent studies, that RoPE induces strong and dense activations in the low-frequency dimensions of attention states, and these activations are crucial for the LLMs' contextual understanding capabilities ~\cite{jin2025massive, barbero2024round}. +Meanwhile, analyses of layer-wise behavior reveal that not all layers are equally important~\cite{belinkov2018evaluating}. +These findings underscore that different submodules contribute unique and complementary functions in LLMs, which motivating our RoSA method. % with RoSA and DLS. + +\section{Conclusion} +In this work, we introduce RoPE-aware Selective Adaptation (RoSA), a novel PEFT framework for LLMs. +RoSA explicitly leverages the frequency structure induced by RoPE by introducing a RoPE-aware Attention Enhancement (RoAE) module, which selectively enhances low-frequency attention components. Alongside, the Dynamic Layer Selection (DLS) strategy dynamically identifies and updates the most important layers based on LayerNorm gradients. +This dual-level design enables more effective and targeted use of trainable parameters both within and across layers. +Extensive experiments on fifteen commonsense and arithmetic QA datasets, covering multiple LLM families and model sizes, demonstrate that RoSA consistently outperforms baseline PEFT methods under comparable trainable parameters. + +\appendix +\section{Appendix} + +\subsection{Quantitative Analysis of Layer Selection Behavior} +To provide deeper insights into the effectiveness of the Dynamic Layer Selection (DLS) module, we visualize the frequency with which different layers are selected during training on the Commonsense QA task using the Qwen2.5-7B model. The results, illustrated in Fig.~\ref{fig:layer_sel}, clearly show significant heterogeneity across layers. Specifically, certain layers are consistently identified as more important and thus selected more frequently for adaptation, while others are rarely chosen. Additionally, the figure reveals that certain layers have very low selection frequencies, highlighting the effectiveness and necessity of our combined exploitation-exploration strategy in the DLS module to avoid neglecting potentially valuable but less frequently chosen layers. This observation empirically supports our motivation for dynamically allocating parameters and demonstrates that DLS successfully identifies layers that contribute more significantly to downstream task performance. +\begin{figure}[ht] +\centering +\includegraphics[width=0.75\linewidth]{assets/layer_sel.pdf} +\caption{Visualization of layer selection frequency by the DLS module across the training process on Qwen2.5-7B. +} +\label{fig:layer_sel} +\end{figure} + +\subsection{Experimental and Implementation Details} +All experiments reported in the main paper use a primary random seed of 2333, with additional experiments repeated using seeds 1000, 2000, 3000, and 4000 to assess statistical significance and reproducibility. +For computational efficiency, training employs mixed-precision (BF16) and DeepSpeed optimization~\cite{rasley2020deepspeed} configured with ZeRO Stage 1. One training epoch typically takes approximately 1 hour on a single NVIDIA RTX 3090 GPU. +A randomly selected validation set of 300 samples from the training data is used for checkpoint evaluation during training. Checkpoints with the lowest validation loss are chosen as the model for testing. + +Detailed hyperparameter settings are summarized below: + +\begin{itemize} +\item Optimizer: AdamW +\item Learning rate: $1\times10^{-3}$ +\item Learning rate scheduler: cosine +\item Batch size: 2 (with gradient accumulation steps of 2) +\item Warmup ratio: 0.05 +\item Max sequence length: 2048 +\item Low-frequency dimension ratio ($r_{\text{low}}$): 0.25 +\item Scaling factor ($\alpha$): 0.1 +\item Low-rank projection dimension: 128 +\item Dynamic layer selection ratio ($k_{\text{ratio}}$): 0.5 +\item Selection interval ($u$): every 40 steps +\item Exploitation probability ($p_{\text{exploit}}$): 0.8 +\end{itemize} + + +\subsubsection{Software and Environment} + +The experiments were conducted using the following software packages and versions for reproducibility: + +\begin{itemize} +\item torch==2.1.2 +\item deepspeed==0.12.6 +\item numpy==1.26.4 +\item peft==0.16.0 +\item transformers==4.47.1 +\item tokenizers==0.21.2 +\item CUDA==12.1 +\end{itemize} + +The hardware environment configuration is as follows: + +\begin{itemize}[leftmargin=*] +\item OS: Ubuntu 20.04 LTS +\item CPU: Intel Xeon Silver 4214R +\item GPU: NVIDIA GeForce RTX 3090 +\item Memory: 512GB RAM +\end{itemize} +Detailed implementation and datasets can be found in our codebase\footnote{\codelink}. + + +\subsection{Baseline Implementation Details} + +We briefly summarize the implementation details of baseline methods used in experiments: + +\begin{itemize}[leftmargin=*] +\item \textbf{LoRA}~\cite{hu2021lora}: Low-rank adaptation applied to all linear layers, with rank dimension $r=16$. +\item \textbf{DoRA}~\cite{liu2024dora}: LoRA variant with decomposition-based weights applied to all linear layers, rank dimension $r=16$. +\item \textbf{AdaLoRA}~\cite{zhang2023adalora}: Dynamically adjusts rank dimensions during training, applied to all linear layers. Initial rank set as 32, targeting an average rank of 16 over training steps. +\item \textbf{BOFT}~\cite{liu2023parameter}: Uses block orthogonal transformations, with butterfly block size set to 4, two butterfly factors, and dropout rate of 0.1, targeting attention query and value projections. +\item \textbf{VeRA}~\cite{kopiczko2023vera}: Shares low-rank matrices across modules with all linear layers, using the same rank dimension $r=16$. +\item \textbf{C3A}~\cite{chen2024parameter}: Applies circular-convolution-based adapters to all linear layers, with block size 128. +\item \textbf{BONE}~\cite{kang2024balancing}: Utilizes block affine transformations, targeting all linear layers, and rank dimension $r=16$. +\item \textbf{LN Tuning}~\cite{zhao2023tuning}: Trains only LayerNorm parameters, keeping all other parameters frozen. +\end{itemize} + + +\subsection{Evaluation Protocol and Metrics} + +\subsubsection{Generation Procedure.} +All model outputs are generated using auto-regressive decoding via the \texttt{generate()} API in Hugging Face Transformers. +We employ greedy decoding~(\texttt{do\_sample=False}), and set a maximum of 256 new tokens~(\texttt{max\_new\_tokens=256}). + +Each input follows a unified instruction template, as shown below: +\begin{tcolorbox}[boxrule=0.8pt] +\textless s\textgreater Below is an instruction that describes a task. Write a response that appropriately completes the request. + +\#\#\# Instruction:\\ +\{instruction\} +\\ +\\ +\#\#\# Response: +\end{tcolorbox} + +\subsubsection{Answer Extraction and Accuracy Calculation.} +Results are calculated based on extracted predictions from generated outputs using task-specific regular expressions: + +\begin{itemize}[leftmargin=*] +\item \textit{Commonsense QA:} Extracted exact match answers (true/ false, solution/answer/ending options) and computed accuracy by direct matching against ground truth labels. +\item \textit{Arithmetic QA:} Extracted numerical answers from output text (with absolute tolerance of $10^{-3}$) or alphabetic choices (A-E) for the AQuA dataset. +\end{itemize} + +All extraction and accuracy computation scripts are provided for reproducibility in our codebase. + + +\subsection{Dataset Details} + +\subsubsection{Training Datasets} +We utilize two unified instruction-tuning datasets provided by LLM-Adapters~\cite{hu2023llm}: +\begin{itemize}[leftmargin=*, topsep=0pt] + \item \textbf{Commonsense15K} covers a wide range of commonsense reasoning questions. All examples are template-normalized into a consistent instruction format, supporting robust cross-task generalization. + \item \textbf{Math10K} comprises diverse math word problems, each annotated with a step-by-step chain-of-thought solution and a final answer, enabling thorough evaluation of arithmetic reasoning under instruction-following settings. +\end{itemize} +The summary of dataset statistics is provided in Table~\ref{tab:dataset}. + +\begin{table}[t] + \centering + \small + \resizebox{0.95\linewidth}{!}{ + \renewcommand{\arraystretch}{1.01} + \begin{tabular}{lccc} + \toprule + \textbf{Dataset} & \textbf{Samples} & \textbf{Total Tokens} & \textbf{Avg. Tokens/Sample} \\ + \midrule + Commonsense15K & 15,119 & 1,778,782 & 117.65 \\ + Math10K & 9,919 & 2,273,016 & 229.16 \\ + \bottomrule + \end{tabular} + } + \caption{Statistics of the training datasets for commonsense and arithmetic QA tasks. + } + \label{tab:dataset} +\end{table} + + + + + +\subsubsection{Evaluation Benchmarks} +We evaluate model performance on a suite of well-established commonsense and arithmetic QA benchmarks, enabling comprehensive evaluation of both generalization and robustness. +Detailed statistics for all evaluation datasets can be found in Table~\ref{tab:commonsense-datasets}~(Commonsense) and Table \ref{tab:arith-datasets}~(Arithmetic). + +\noindent \textbf{a) Commonsense QA:} + \begin{itemize}[leftmargin=1em] + \item \textbf{BoolQ}~\cite{clark2019boolq}: BoolQ is a yes/no question answering dataset featuring naturally occurring, information-seeking queries and passage-based inference. + \item \textbf{PIQA}~\cite{bisk2020piqa}: PIQA is a benchmark for physical commonsense reasoning, focused on practical everyday tasks with two candidate solutions. + \item \textbf{SIQA}~\cite{sap2019socialiqa}: Social IQa is a multiple-choice benchmark that tests social and emotional commonsense reasoning in daily situations. + \item \textbf{ARC-Challenge / ARC-Easy}~\cite{clark2018think}: The AI2 Reasoning Challenge (ARC) is a science question answering benchmark consisting of grade-school level, multiple-choice questions divided into Easy and Challenge subsets by difficulty. + \item \textbf{OBQA}~\cite{mihaylov2018can}: OpenBookQA is a science question answering benchmark requiring multi-step reasoning over a provided set of core science facts. + \item \textbf{HellaSwag}~\cite{zellers2019hellaswag}: HellaSwag is a natural language inference benchmark with adversarially-filtered continuations requiring robust commonsense reasoning. + \item \textbf{WinoGrande}~\cite{sakaguchi2020winogrande}: WinoGrande is a binary fill-in-the-blank pronoun resolution benchmark designed to require advanced commonsense reasoning. + \end{itemize} +\begin{table}[t] +\centering +\small +\resizebox{1\linewidth}{!}{ + \renewcommand{\arraystretch}{1.01} + \begin{tabular}{lcc} + \toprule + \textbf{Dataset} & \textbf{Samples} & \textbf{Answer Format} \\ + \midrule + BoolQ & 3,270 & true / false \\ + PIQA & 1,838 & solution1 / solution2 \\ + SIQA & 1,954 & answer1 / answer2 / answer3 \\ + ARC-Challenge & 1,172 & answer1 / answer2 / answer3 / answer4 \\ + ARC-Easy & 2,376 & answer1 / answer2 / answer3 / answer4 \\ + OBQA & 500 & answer1 / answer2 / answer3 / answer4 \\ + HellaSwag & 10,042 & ending1 / ending2 / ending3 / ending4 \\ + WinoGrande & 1,267 & option1 / option2 \\ + \bottomrule + \end{tabular} +} +\caption{Statistics of Commonsense QA Test Datasets.} +\label{tab:commonsense-datasets} +\end{table} + +\noindent \textbf{b) Arithmetic QA:} + \begin{itemize}[leftmargin=1em] + \item \textbf{MultiArith}~\cite{roy2016solving}: MultiArith contains multi-step arithmetic word problems to evaluate a system's ability to handle complex reasoning chains. + \item \textbf{GSM8K}~\cite{cobbe2021training}: GSM8K is a dataset of multiple linguistically diverse grade school math word problems, designed for benchmarking multi-step arithmetic reasoning with natural language solutions. + \item \textbf{AddSub}~\cite{hosseini2014learning}: AddSub is a corpus of short word problems focused exclusively on addition and subtraction, used to assess basic arithmetic reasoning capabilities. + \item \textbf{AQuA}~\cite{ling2017program}: AQuA is a large-scale dataset of algebraic word problems, each paired with natural language rationales to support step-by-step reasoning. + \item \textbf{SingleEq}~\cite{koncel2015parsing}: SingleEq is a collection of multi-sentence algebraic word problems, emphasizing equation tree parsing and formal reasoning. + \item \textbf{SVAMP}~\cite{patel2021nlp}: SVAMP is a challenge set constructed from elementary math word problems, aimed at evaluating a model's robustness to question sensitivity, structural variations, and reasoning challenges. + \item \textbf{MAWPS}~\cite{koncel2016mawps}: MAWPS is a repository of multiple math word problems, offering a unified benchmark for evaluating models. + \end{itemize} + +\begin{table}[t] +\centering +\small +\resizebox{0.8\linewidth}{!}{ + \renewcommand{\arraystretch}{0.95} + \begin{tabular}{lcc} + \toprule + \textbf{Dataset} & \textbf{Samples} & \textbf{Answer Type} \\ + \midrule + MultiArith & 600 & Numeric \\ + GSM8K & 1,319 & Numeric \\ + AddSub & 395 & Numeric \\ + AQuA & 254 & Multiple Choice (A--E) \\ + SingleEq & 508 & Numeric \\ + SVAMP & 1,000 & Numeric \\ + MAWPS & 238 & Numeric \\ + \bottomrule + \end{tabular} +} +\caption{Statistics of Arithmetic QA Test Datasets.} +\label{tab:arith-datasets} +\end{table} + diff --git a/mypaper/CIKM2025_HyCAM.bib b/mypaper/CIKM2025_HyCAM.bib new file mode 100755 index 0000000..e1b4403 --- /dev/null +++ b/mypaper/CIKM2025_HyCAM.bib @@ -0,0 +1,609 @@ +@article{fu2025training, + title={Training-free LLM Merging for Multi-task Learning}, + author={Fu, Zichuan and Wu, Xian and Wang, Yejing and Wang, Wanyu and Ye, Shanshan and Yin, Hongzhi and Chang, Yi and Zheng, Yefeng and Zhao, Xiangyu}, + journal={arXiv preprint arXiv:2506.12379}, + year={2025} +} +@inproceedings{wang2025put, + title={Put Teacher in Student's Shoes: Cross-Distillation for Ultra-compact Model Compression Framework}, + author={Wang, Maolin and Chu, Jun and Xie, Sicong and Zang, Xiaoling and Zhao, Yao and Zhong, Wenliang and Zhao, Xiangyu}, + booktitle={Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining V. 2}, + pages={4975--4985}, + year={2025} +} +@article{wang2023large, + title={Large multimodal model compression via efficient pruning and distillation at AntGroup}, + author={Wang, Maolin and Zhao, Yao and Liu, Jiajia and Chen, Jingdong and Zhuang, Chenyi and Gu, Jinjie and Guo, Ruocheng and Zhao, Xiangyu}, + journal={arXiv preprint arXiv:2312.05795}, + year={2023} +} +@inproceedings{liu2024moe, + title={When moe meets llms: Parameter efficient fine-tuning for multi-task medical applications}, + author={Liu, Qidong and Wu, Xian and Zhao, Xiangyu and Zhu, Yuanshao and Xu, Derong and Tian, Feng and Zheng, Yefeng}, + booktitle={Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval}, + pages={1104--1114}, + year={2024} +} +@inproceedings{wang2025metalora, + title={MetaLoRA: Tensor-Enhanced Adaptive Low-Rank Fine-Tuning}, + author={Wang, Maolin and Zhao, Xiangyu and Guo, Ruocheng and Wang, Junhui}, + booktitle={2025 IEEE 41st International Conference on Data Engineering (ICDE)}, + pages={4680--4684}, + year={2025}, + organization={IEEE} +} +@inproceedings{wang2024llm4msr, + title={Llm4msr: An llm-enhanced paradigm for multi-scenario recommendation}, + author={Wang, Yuhao and Wang, Yichao and Fu, Zichuan and Li, Xiangyang and Wang, Wanyu and Ye, Yuyang and Zhao, Xiangyu and Guo, Huifeng and Tang, Ruiming}, + booktitle={Proceedings of the 33rd ACM International Conference on Information and Knowledge Management}, + pages={2472--2481}, + year={2024} +} +@article{luo2024moelora, + title={Moelora: Contrastive learning guided mixture of experts on parameter-efficient fine-tuning for large language models}, + author={Luo, Tongxu and Lei, Jiahe and Lei, Fangyu and Liu, Weihao and He, Shizhu and Zhao, Jun and Liu, Kang}, + journal={arXiv preprint arXiv:2402.12851}, + year={2024} +} +@article{guo2024large, + title={Large language model based multi-agents: A survey of progress and challenges}, + author={Guo, Taicheng and Chen, Xiuying and Wang, Yaqi and Chang, Ruidi and Pei, Shichao and Chawla, Nitesh V and Wiest, Olaf and Zhang, Xiangliang}, + journal={arXiv preprint arXiv:2402.01680}, + year={2024} +} +@article{zhao2023survey, + title={A survey of large language models}, + author={Zhao, Wayne Xin and Zhou, Kun and Li, Junyi and Tang, Tianyi and Wang, Xiaolei and Hou, Yupeng and Min, Yingqian and Zhang, Beichen and Zhang, Junjie and Dong, Zican and others}, + journal={arXiv preprint arXiv:2303.18223}, + year={2023} +} +@article{gao2024higher, + title={Higher layers need more lora experts}, + author={Gao, Chongyang and Chen, Kezhen and Rao, Jinmeng and Sun, Baochen and Liu, Ruibo and Peng, Daiyi and Zhang, Yawen and Guo, Xiaoyuan and Yang, Jie and Subrahmanian, VS}, + journal={arXiv preprint arXiv:2402.08562}, + year={2024} +} +@article{ji2023multi, + title={Multi-factor spatio-temporal prediction based on graph decomposition learning}, + author={Ji, Jiahao and Wang, Jingyuan and Mou, Yu and Long, Cheng}, + journal={arXiv preprint arXiv:2310.10374}, + year={2023} +} +@article{ji2025seeing, + title={Seeing the unseen: Learning basis confounder representations for robust traffic prediction}, + author={Ji, Jiahao and Zhang, Wentao and Wang, Jingyuan and Huang, Chao}, + year={2025} +} +@inproceedings{wang2025gtg, + title={GTG: Generalizable Trajectory Generation Model for Urban Mobility}, + author={Wang, Jingyuan and Lin, Yujing and Li, Yudong}, + booktitle={Proceedings of the AAAI Conference on Artificial Intelligence}, + volume={39}, + number={1}, + pages={834--842}, + year={2025} +} +@inproceedings{cheng2025poi, + title={Poi-enhancer: An llm-based semantic enhancement framework for poi representation learning}, + author={Cheng, Jiawei and Wang, Jingyuan and Zhang, Yichuan and Ji, Jiahao and Zhu, Yuanshao and Zhang, Zhibo and Zhao, Xiangyu}, + booktitle={Proceedings of the AAAI conference on artificial intelligence}, + volume={39}, + number={11}, + pages={11509--11517}, + year={2025} +} +@inproceedings{han2025bridging, + title={Bridging traffic state and trajectory for dynamic road network and trajectory representation learning}, + author={Han, Chengkai and Wang, Jingyuan and Wang, Yongyao and Yu, Xie and Lin, Hao and Li, Chao and Wu, Junjie}, + booktitle={Proceedings of the AAAI Conference on Artificial Intelligence}, + volume={39}, + number={11}, + pages={11763--11771}, + year={2025} +} + +@inproceedings{yu2025bigcity, + title={BIGCity: A universal spatiotemporal model for unified trajectory and traffic state data analysis}, + author={Yu, Xie and Wang, Jingyuan and Yang, Yifan and Huang, Qian and Qu, Ke}, + booktitle={2025 IEEE 41st International Conference on Data Engineering (ICDE)}, + pages={4455--4469}, + year={2025}, + organization={IEEE} +} + +@article{zhang2024veccity, + title={VecCity: A taxonomy-guided library for map entity representation learning}, + author={Zhang, Wentao and Wang, Jingyuan and Yang, Yifan and others}, + journal={arXiv preprint arXiv:2411.00874}, + year={2024} +} + +@article{hettige2024airphynet, + title={Airphynet: Harnessing physics-guided neural networks for air quality prediction}, + author={Hettige, Kethmi Hirushini and Ji, Jiahao and Xiang, Shili and Long, Cheng and Cong, Gao and Wang, Jingyuan}, + journal={arXiv preprint arXiv:2402.03784}, + year={2024} +} + + +@article{wang2023rethinking, + title={Rethinking the evaluation for conversational recommendation in the era of large language models}, + author={Wang, Xiaolei and Tang, Xinyu and Zhao, Wayne Xin and Wang, Jingyuan and Wen, Ji-Rong}, + journal={arXiv preprint arXiv:2305.13112}, + year={2023} +} + + +@article{li2023web, + title={The web can be your oyster for improving large language models}, + author={Li, Junyi and Tang, Tianyi and Zhao, Wayne Xin and Wang, Jingyuan and Nie, Jian-Yun and Wen, Ji-Rong}, + journal={arXiv preprint arXiv:2305.10998}, + year={2023} +} +@article{du2021gan, + title={GAN-based anomaly detection for multivariate time series using polluted training set}, + author={Du, Bowen and Sun, Xuanxuan and Ye, Junchen and Cheng, Ke and Wang, Jingyuan and Sun, Leilei}, + journal={IEEE Transactions on Knowledge and Data Engineering}, + volume={35}, + number={12}, + pages={12208--12219}, + year={2021}, + publisher={IEEE} +} + +@article{li2023e4srec, + title={E4srec: An elegant effective efficient extensible solution of large language models for sequential recommendation}, + author={Li, Xinhang and Chen, Chong and Zhao, Xiangyu and Zhang, Yong and Xing, Chunxiao}, + journal={arXiv preprint arXiv:2312.02443}, + year={2023} +} +@article{fu2025sliding, + title={Sliding Window Attention Training for Efficient Large Language Models}, + author={Fu, Zichuan and Song, Wentao and Wang, Yejing and Wu, Xian and Zheng, Yefeng and Zhang, Yingying and Xu, Derong and Wei, Xuetao and Xu, Tong and Zhao, Xiangyu}, + journal={arXiv preprint arXiv:2502.18845}, + year={2025} +} + +@article{wang2023multi, + title={Multi-task deep recommender systems: A survey}, + author={Wang, Yuhao and Lam, Ha Tsz and Wong, Yi and Liu, Ziru and Zhao, Xiangyu and Wang, Yichao and Chen, Bo and Guo, Huifeng and Tang, Ruiming}, + journal={arXiv preprint arXiv:2302.03525}, + year={2023} +} +@inproceedings{liu2023multi, + title={Multi-task recommendations with reinforcement learning}, + author={Liu, Ziru and Tian, Jiejie and Cai, Qingpeng and Zhao, Xiangyu and Gao, Jingtong and Liu, Shuchang and Chen, Dayou and He, Tonghao and Zheng, Dong and Jiang, Peng and others}, + booktitle={Proceedings of the ACM web conference 2023}, + pages={1273--1282}, + year={2023} +} +@inproceedings{liu2025multi, + title={Multi-task Offline Reinforcement Learning for Online Advertising in Recommender Systems}, + author={Liu, Langming and Wang, Wanyu and Zhang, Chi and Li, Bo and Yin, Hongzhi and Wei, Xuetao and Su, Wenbo and Zheng, Bo and Zhao, Xiangyu}, + booktitle={Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining V. 2}, + pages={4635--4646}, + year={2025} +} + + +@inproceedings{he2015delving, + title={Delving deep into rectifiers: Surpassing human-level performance on imagenet classification}, + author={He, Kaiming and Zhang, Xiangyu and Ren, Shaoqing and Sun, Jian}, + booktitle={Proceedings of the IEEE international conference on computer vision}, + pages={1026--1034}, + year={2015} +} +@article{guo2025nlora, + title={NLoRA: Nystr$\backslash$" om-Initiated Low-Rank Adaptation for Large Language Models}, + author={Guo, Chenlu and Wu, Yuan and Chang, Yi}, + journal={arXiv preprint arXiv:2502.14482}, + year={2025} +} +@article{elfwing2018sigmoid, + title={Sigmoid-weighted linear units for neural network function approximation in reinforcement learning}, + author={Elfwing, Stefan and Uchibe, Eiji and Doya, Kenji}, + journal={Neural networks}, + volume={107}, + pages={3--11}, + year={2018}, + publisher={Elsevier} +} +@article{vaswani2017attention, + title={Attention is all you need}, + author={Vaswani, Ashish and Shazeer, Noam and Parmar, Niki and Uszkoreit, Jakob and Jones, Llion and Gomez, Aidan N and Kaiser, {\L}ukasz and Polosukhin, Illia}, + journal={Advances in neural information processing systems}, + volume={30}, + year={2017} +} +@article{ba2016layer, + title={Layer normalization}, + author={Ba, Jimmy Lei and Kiros, Jamie Ryan and Hinton, Geoffrey E}, + journal={arXiv preprint arXiv:1607.06450}, + year={2016} +} +@article{jin2025massive, + title={Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding}, + author={Jin, Mingyu and Mei, Kai and Xu, Wujiang and Sun, Mingjie and Tang, Ruixiang and Du, Mengnan and Liu, Zirui and Zhang, Yongfeng}, + journal={arXiv preprint arXiv:2502.01563}, + year={2025} +} +@inproceedings{geva2021transformer, + title={Transformer Feed-Forward Layers Are Key-Value Memories}, + author={Geva, Mor and Schuster, Roei and Berant, Jonathan and Levy, Omer}, + booktitle={Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing}, + pages={5484--5495}, + year={2021} +} +@article{team2023gemini, + title={Gemini: a family of highly capable multimodal models}, + author={Team, Gemini and Anil, Rohan and Borgeaud, Sebastian and Alayrac, Jean-Baptiste and Yu, Jiahui and Soricut, Radu and Schalkwyk, Johan and Dai, Andrew M and Hauth, Anja and Millican, Katie and others}, + journal={arXiv preprint arXiv:2312.11805}, + year={2023} +} +@article{liu2023moelora, + title={Moelora: An moe-based parameter efficient fine-tuning method for multi-task medical applications}, + author={Liu, Qidong and Wu, Xian and Zhao, Xiangyu and Zhu, Yuanshao and Xu, Derong and Tian, Feng and Zheng, Yefeng}, + journal={arXiv preprint arXiv:2310.18339}, + year={2023} +} +@article{wang2023multilora, + title={Multilora: Democratizing lora for better multi-task learning}, + author={Wang, Yiming and Lin, Yu and Zeng, Xiaodong and Zhang, Guannan}, + journal={arXiv preprint arXiv:2311.11501}, + year={2023} +} +@article{liu2021p, + title={P-tuning v2: Prompt tuning can be comparable to fine-tuning universally across scales and tasks}, + author={Liu, Xiao and Ji, Kaixuan and Fu, Yicheng and Tam, Weng Lam and Du, Zhengxiao and Yang, Zhilin and Tang, Jie}, + journal={arXiv preprint arXiv:2110.07602}, + year={2021} +} +@article{brown2020language, + title={Language models are few-shot learners}, + author={Brown, Tom and Mann, Benjamin and Ryder, Nick and Subbiah, Melanie and Kaplan, Jared D and Dhariwal, Prafulla and Neelakantan, Arvind and Shyam, Pranav and Sastry, Girish and Askell, Amanda and others}, + journal={Advances in neural information processing systems}, + volume={33}, + pages={1877--1901}, + year={2020} +} +@article{liu2021conflict, + title={Conflict-averse gradient descent for multi-task learning}, + author={Liu, Bo and Liu, Xingchao and Jin, Xiaojie and Stone, Peter and Liu, Qiang}, + journal={Advances in Neural Information Processing Systems}, + volume={34}, + pages={18878--18890}, + year={2021} +} +@article{navon2022multi, + title={Multi-task learning as a bargaining game}, + author={Navon, Aviv and Shamsian, Aviv and Achituve, Idan and Maron, Haggai and Kawaguchi, Kenji and Chechik, Gal and Fetaya, Ethan}, + journal={arXiv preprint arXiv:2202.01017}, + year={2022} +} + +@inproceedings{wang2023wavelet, + title={WHEN: A Wavelet-DTW hybrid attention network for heterogeneous time series analysis}, + author={Wang, Jingyuan and Yang, Chen and Jiang, Xiaohan and Wu, Junjie}, + booktitle={Proceedings of the 29th ACM SIGKDD conference on knowledge discovery and data mining}, + pages={2361--2373}, + year={2023} +} + +@article{sun2025stronger, + title={A Stronger Mixture of Low-Rank Experts for Fine-Tuning Foundation Models}, + author={Sun, Mengyang and Wang, Yihao and Feng, Tao and Zhang, Dan and Zhu, Yifan and Tang, Jie}, + journal={arXiv preprint arXiv:2502.15828}, + year={2025} +} +@article{pfeiffer2020mad, + title={Mad-x: An adapter-based framework for multi-task cross-lingual transfer}, + author={Pfeiffer, Jonas and Vuli{\'c}, Ivan and Gurevych, Iryna and Ruder, Sebastian}, + journal={arXiv preprint arXiv:2005.00052}, + year={2020} +} +@article{raffel2020exploring, + title={Exploring the limits of transfer learning with a unified text-to-text transformer}, + author={Raffel, Colin and Shazeer, Noam and Roberts, Adam and Lee, Katherine and Narang, Sharan and Matena, Michael and Zhou, Yanqi and Li, Wei and Liu, Peter J}, + journal={Journal of machine learning research}, + volume={21}, + number={140}, + pages={1--67}, + year={2020} +} +@article{zaken2021bitfit, + title={Bitfit: Simple parameter-efficient fine-tuning for transformer-based masked language-models}, + author={Zaken, Elad Ben and Ravfogel, Shauli and Goldberg, Yoav}, + journal={arXiv preprint arXiv:2106.10199}, + year={2021} +} +@inproceedings{papineni2002bleu, + title={Bleu: a method for automatic evaluation of machine translation}, + author={Papineni, Kishore and Roukos, Salim and Ward, Todd and Zhu, Wei-Jing}, + booktitle={Proceedings of the 40th annual meeting of the Association for Computational Linguistics}, + pages={311--318}, + year={2002} +} +@inproceedings{lin2004rouge, + title={Rouge: A package for automatic evaluation of summaries}, + author={Lin, Chin-Yew}, + booktitle={Text summarization branches out}, + pages={74--81}, + year={2004} +} +@article{jang2016categorical, + title={Categorical reparameterization with gumbel-softmax}, + author={Jang, Eric and Gu, Shixiang and Poole, Ben}, + journal={arXiv preprint arXiv:1611.01144}, + year={2016} +} +@article{yu2020gradient, + title={Gradient surgery for multi-task learning}, + author={Yu, Tianhe and Kumar, Saurabh and Gupta, Abhishek and Levine, Sergey and Hausman, Karol and Finn, Chelsea}, + journal={Advances in Neural Information Processing Systems}, + volume={33}, + pages={5824--5836}, + year={2020} +} +@article{renduchintala2023tied, + title={Tied-lora: Enhacing parameter efficiency of lora with weight tying}, + author={Renduchintala, Adithya and Konuk, Tugrul and Kuchaiev, Oleksii}, + journal={arXiv preprint arXiv:2311.09578}, + year={2023} +} +@inproceedings{kwon2023efficient, + title={Efficient memory management for large language model serving with pagedattention}, + author={Kwon, Woosuk and Li, Zhuohan and Zhuang, Siyuan and Sheng, Ying and Zheng, Lianmin and Yu, Cody Hao and Gonzalez, Joseph and Zhang, Hao and Stoica, Ion}, + booktitle={Proceedings of the 29th Symposium on Operating Systems Principles}, + pages={611--626}, + year={2023} +} + +@article{dai2024deepseekmoe, + title={Deepseekmoe: Towards ultimate expert specialization in mixture-of-experts language models}, + author={Dai, Damai and Deng, Chengqi and Zhao, Chenggang and Xu, RX and Gao, Huazuo and Chen, Deli and Li, Jiashi and Zeng, Wangding and Yu, Xingkai and Wu, Y and others}, + journal={arXiv preprint arXiv:2401.06066}, + year={2024} +} +@inproceedings{houlsby2019parameter, + title={Parameter-efficient transfer learning for NLP}, + author={Houlsby, Neil and Giurgiu, Andrei and Jastrzebski, Stanislaw and Morrone, Bruna and De Laroussilhe, Quentin and Gesmundo, Andrea and Attariyan, Mona and Gelly, Sylvain}, + booktitle={International conference on machine learning}, + pages={2790--2799}, + year={2019}, + organization={PMLR} +} +@article{guo2025deepseek, + title={Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning}, + author={Guo, Daya and Yang, Dejian and Zhang, Haowei and Song, Junxiao and Zhang, Ruoyu and Xu, Runxin and Zhu, Qihao and Ma, Shirong and Wang, Peiyi and Bi, Xiao and others}, + journal={arXiv preprint arXiv:2501.12948}, + year={2025} +} +@article{shazeer2017outrageously, + title={Outrageously large neural networks: The sparsely-gated mixture-of-experts layer}, + author={Shazeer, Noam and Mirhoseini, Azalia and Maziarz, Krzysztof and Davis, Andy and Le, Quoc and Hinton, Geoffrey and Dean, Jeff}, + journal={arXiv preprint arXiv:1701.06538}, + year={2017} +} +@inproceedings{rajbhandari2022deepspeed, + title={Deepspeed-moe: Advancing mixture-of-experts inference and training to power next-generation ai scale}, + author={Rajbhandari, Samyam and Li, Conglong and Yao, Zhewei and Zhang, Minjia and Aminabadi, Reza Yazdani and Awan, Ammar Ahmad and Rasley, Jeff and He, Yuxiong}, + booktitle={International conference on machine learning}, + pages={18332--18346}, + year={2022}, + organization={PMLR} +} +@article{zhang2023instruction, + title={Instruction tuning for large language models: A survey}, + author={Zhang, Shengyu and Dong, Linfeng and Li, Xiaoya and Zhang, Sen and Sun, Xiaofei and Wang, Shuhe and Li, Jiwei and Hu, Runyi and Zhang, Tianwei and Wu, Fei and others}, + journal={arXiv preprint arXiv:2308.10792}, + year={2023} +} +@article{han2024parameter, + title={Parameter-efficient fine-tuning for large models: A comprehensive survey}, + author={Han, Zeyu and Gao, Chao and Liu, Jinyang and Zhang, Jeff and Zhang, Sai Qian}, + journal={arXiv preprint arXiv:2403.14608}, + year={2024} +} +@article{pfeiffer2020adapterfusion, + title={Adapterfusion: Non-destructive task composition for transfer learning}, + author={Pfeiffer, Jonas and Kamath, Aishwarya and R{\"u}ckl{\'e}, Andreas and Cho, Kyunghyun and Gurevych, Iryna}, + journal={arXiv preprint arXiv:2005.00247}, + year={2020} +} +@article{pfeiffer2020adapterhub, + title={Adapterhub: A framework for adapting transformers}, + author={Pfeiffer, Jonas and R{\"u}ckl{\'e}, Andreas and Poth, Clifton and Kamath, Aishwarya and Vuli{\'c}, Ivan and Ruder, Sebastian and Cho, Kyunghyun and Gurevych, Iryna}, + journal={arXiv preprint arXiv:2007.07779}, + year={2020} +} +@article{lialin2023scaling, + title={Scaling down to scale up: A guide to parameter-efficient fine-tuning}, + author={Lialin, Vladislav and Deshpande, Vijeta and Rumshisky, Anna}, + journal={arXiv preprint arXiv:2303.15647}, + year={2023} +} +@article{li2021prefix, + title={Prefix-tuning: Optimizing continuous prompts for generation}, + author={Li, Xiang Lisa and Liang, Percy}, + journal={arXiv preprint arXiv:2101.00190}, + year={2021} +} +@article{lu2023uniadapter, + title={Uniadapter: Unified parameter-efficient transfer learning for cross-modal modeling}, + author={Lu, Haoyu and Huo, Yuqi and Yang, Guoxing and Lu, Zhiwu and Zhan, Wei and Tomizuka, Masayoshi and Ding, Mingyu}, + journal={arXiv preprint arXiv:2302.06605}, + year={2023} +} + +@article{fedus2022switch, + title={Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity}, + author={Fedus, William and Zoph, Barret and Shazeer, Noam}, + journal={Journal of Machine Learning Research}, + volume={23}, + number={120}, + pages={1--39}, + year={2022} +} +@article{lepikhin2020gshard, + title={Gshard: Scaling giant models with conditional computation and automatic sharding}, + author={Lepikhin, Dmitry and Lee, HyoukJoong and Xu, Yuanzhong and Chen, Dehao and Firat, Orhan and Huang, Yanping and Krikun, Maxim and Shazeer, Noam and Chen, Zhifeng}, + journal={arXiv preprint arXiv:2006.16668}, + year={2020} +} + +@inproceedings{dou2024loramoe, + title={LoRAMoE: Alleviating world knowledge forgetting in large language models via MoE-style plugin}, + author={Dou, Shihan and Zhou, Enyu and Liu, Yan and Gao, Songyang and Shen, Wei and Xiong, Limao and Zhou, Yuhao and Wang, Xiao and Xi, Zhiheng and Fan, Xiaoran and others}, + booktitle={Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)}, + pages={1932--1945}, + year={2024} +} +@article{zhang2023adalora, + title={AdaLoRA: Adaptive budget allocation for parameter-efficient fine-tuning}, + author={Zhang, Qingru and Chen, Minshuo and Bukharin, Alexander and Karampatziakis, Nikos and He, Pengcheng and Cheng, Yu and Chen, Weizhu and Zhao, Tuo}, + journal={arXiv preprint arXiv:2303.10512}, + year={2023} +} +@article{liu2024dora, + title={Dora: Weight-decomposed low-rank adaptation}, + author={Liu, Shih-Yang and Wang, Chien-Yi and Yin, Hongxu and Molchanov, Pavlo and Wang, Yu-Chiang Frank and Cheng, Kwang-Ting and Chen, Min-Hung}, + journal={arXiv preprint arXiv:2402.09353}, + year={2024} +} +@article{hu2021lora, + title={Lora: Low-rank adaptation of large language models}, + author={Hu, Edward J and Shen, Yelong and Wallis, Phillip and Allen-Zhu, Zeyuan and Li, Yuanzhi and Wang, Shean and Wang, Lu and Chen, Weizhu}, + journal={arXiv preprint arXiv:2106.09685}, + year={2021} +} + +@article{achiam2023gpt, + title={Gpt-4 technical report}, + author={Achiam, Josh and Adler, Steven and Agarwal, Sandhini and Ahmad, Lama and Akkaya, Ilge and Aleman, Florencia Leoni and Almeida, Diogo and Altenschmidt, Janko and Altman, Sam and Anadkat, Shyamal and others}, + journal={arXiv preprint arXiv:2303.08774}, + year={2023} +} +@article{jaszczur2021sparse, + title={Sparse is enough in scaling transformers}, + author={Jaszczur, Sebastian and Chowdhery, Aakanksha and Mohiuddin, Afroz and Kaiser, Lukasz and Gajewski, Wojciech and Michalewski, Henryk and Kanerva, Jonni}, + journal={Advances in Neural Information Processing Systems}, + volume={34}, + pages={9895--9907}, + year={2021} +} +@inproceedings{standley2020tasks, + title={Which tasks should be learned together in multi-task learning?}, + author={Standley, Trevor and Zamir, Amir and Chen, Dawn and Guibas, Leonidas and Malik, Jitendra and Savarese, Silvio}, + booktitle={International conference on machine learning}, + pages={9120--9132}, + year={2020}, + organization={PMLR} +} +@article{cai2024survey, + title={A survey on mixture of experts}, + author={Cai, Weilin and Jiang, Juyong and Wang, Fan and Tang, Jing and Kim, Sunghun and Huang, Jiayi}, + journal={arXiv preprint arXiv:2407.06204}, + year={2024} +} +@article{karimi2021compacter, + title={Compacter: Efficient low-rank hypercomplex adapter layers}, + author={Karimi Mahabadi, Rabeeh and Henderson, James and Ruder, Sebastian}, + journal={Advances in Neural Information Processing Systems}, + volume={34}, + pages={1022--1035}, + year={2021} +} +@article{bommasani2021opportunities, + title={On the opportunities and risks of foundation models}, + author={Bommasani, Rishi and Hudson, Drew A and Adeli, Ehsan and Altman, Russ and Arora, Simran and von Arx, Sydney and Bernstein, Michael S and Bohg, Jeannette and Bosselut, Antoine and Brunskill, Emma and others}, + journal={arXiv preprint arXiv:2108.07258}, + year={2021} +} +@article{pan2024lisa, + title={LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning}, + author={Pan, Rui and Liu, Xiang and Diao, Shizhe and Pi, Renjie and Zhang, Jipeng and Han, Chi and Zhang, Tong}, + journal={arXiv preprint arXiv:2403.17919}, + year={2024} +} +@article{feng2024mixture, + title={Mixture-of-loras: An efficient multitask tuning for large language models}, + author={Feng, Wenfeng and Hao, Chuzhan and Zhang, Yuewei and Han, Yu and Wang, Hao}, + journal={arXiv preprint arXiv:2403.03432}, + year={2024} +} +@article{lester2021power, + title={The power of scale for parameter-efficient prompt tuning}, + author={Lester, Brian and Al-Rfou, Rami and Constant, Noah}, + journal={arXiv preprint arXiv:2104.08691}, + year={2021} +} +@article{zhou2024lima, + title={Lima: Less is more for alignment}, + author={Zhou, Chunting and Liu, Pengfei and Xu, Puxin and Iyer, Srinivasan and Sun, Jiao and Mao, Yuning and Ma, Xuezhe and Efrat, Avia and Yu, Ping and Yu, Lili and others}, + journal={Advances in Neural Information Processing Systems}, + volume={36}, + year={2024} +} +@article{wei2021finetuned, + title={Finetuned language models are zero-shot learners}, + author={Wei, Jason and Bosma, Maarten and Zhao, Vincent Y and Guu, Kelvin and Yu, Adams Wei and Lester, Brian and Du, Nan and Dai, Andrew M and Le, Quoc V}, + journal={arXiv preprint arXiv:2109.01652}, + year={2021} +} + +@article{brynjolfsson2025generative, + title={Generative AI at work}, + author={Brynjolfsson, Erik and Li, Danielle and Raymond, Lindsey}, + journal={The Quarterly Journal of Economics}, + pages={qjae044}, + year={2025}, + publisher={Oxford University Press} +} +@Misc{peft, + title = {PEFT: State-of-the-art Parameter-Efficient Fine-Tuning methods}, + author = {Sourab Mangrulkar and Sylvain Gugger and Lysandre Debut and Younes Belkada and Sayak Paul and Benjamin Bossan}, + howpublished = {\url{https://github.com/huggingface/peft}}, + year = {2022} +} +@article{li2023chatdoctor, + title={ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (LLaMA) Using Medical Domain Knowledge}, + author={Li, Yunxiang and Li, Zihan and Zhang, Kai and Dan, Ruilong and Jiang, Steve and Zhang, You}, + journal={Cureus}, + volume={15}, + number={6}, + year={2023}, + publisher={Cureus} +} +@online{DatabricksBlog2023DollyV2, + author = {Mike Conover and Matt Hayes and Ankit Mathur and Jianwei Xie and Jun Wan and Sam Shah and Ali Ghodsi and Patrick Wendell and Matei Zaharia and Reynold Xin}, + title = {Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM}, + year = {2023}, + url = {https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm}, + urldate = {2023-06-30} +} +@inproceedings{nakano2021webgpt, + author = {Reiichiro Nakano and Jacob Hilton and Suchir Balaji and Jeff Wu and Long Ouyang and Christina Kim and Christopher Hesse and Shantanu Jain and Vineet Kosaraju and William Saunders and Xu Jiang and Karl Cobbe and Tyna Eloundou and Gretchen Krueger and Kevin Button and Matthew Knight and Benjamin Chess and John Schulman}, + title = {WebGPT: Browser-assisted question-answering with human feedback}, + booktitle = {arXiv}, + year = 2021, +} +@inproceedings{zhang2023automatic, + title={Automatic Chain of Thought Prompting in Large Language Models}, + author={Zhang, Zhuosheng and Zhang, Aston and Li, Mu and Smola, Alex}, + booktitle={The Eleventh International Conference on Learning Representations (ICLR 2023)}, + year={2023} +} +@misc{codealpaca, + author = {Sahil Chaudhary}, + title = {Code Alpaca: An Instruction-following LLaMA model for code generation}, + year = {2023}, + publisher = {GitHub}, + journal = {GitHub repository}, + howpublished = {\url{https://github.com/sahil280114/codealpaca}}, +} +@article{zhao2024hypermoe, + title={HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts}, + author={Zhao, Hao and Qiu, Zihan and Wu, Huijia and Wang, Zili and He, Zhaofeng and Fu, Jie}, + journal={arXiv preprint arXiv:2402.12656}, + year={2024} +} diff --git a/mypaper/CIKM2025_HyCAM.tex b/mypaper/CIKM2025_HyCAM.tex new file mode 100755 index 0000000..7cd040a --- /dev/null +++ b/mypaper/CIKM2025_HyCAM.tex @@ -0,0 +1,587 @@ +\title{Contextual Attention Modulation: Towards Efficient Multi-Task Adaptation in Large Language Models} +\begin{abstract} +Large Language Models (LLMs) possess remarkable generalization capabilities but struggle with multi-task adaptation, particularly in balancing knowledge retention with task-specific specialization. +Conventional fine-tuning methods suffer from catastrophic forgetting and substantial resource consumption, while existing parameter-efficient methods perform suboptimally in complex multi-task scenarios. +To address this, we propose Contextual Attention Modulation (CAM), a novel mechanism that dynamically modulates the representations of self-attention modules in LLMs. CAM enhances task-specific features while preserving general knowledge, thereby facilitating more effective and efficient adaptation. +For effective multi-task adaptation, CAM is integrated into our Hybrid Contextual Attention Modulation (HyCAM) framework, which combines a shared, full-parameter CAM module with multiple specialized, lightweight CAM modules, enhanced by a dynamic routing strategy for adaptive knowledge fusion. +Extensive experiments on heterogeneous tasks, including question answering, code generation, and logical reasoning, demonstrate that our approach significantly outperforms existing approaches, achieving an average performance improvement of 3.65\%. The implemented code and data are available to ease reproducibility.\footnote{https://github.com/Applied-Machine-Learning-Lab/HyCAM} +\end{abstract} + +\input{0_misc} + +\section{Introduction} \label{sec:intro} +Large Language Models (LLMs) have demonstrated remarkable capabilities by their extensive general knowledge and powerful reasoning abilities~\cite{achiam2023gpt, team2023gemini}. +More than just a conversation, these models are increasingly proving invaluable as core components in advanced information retrieval~\cite{li2023e4srec, li2023web}, critical decision-making systems~\cite{brynjolfsson2025generative, wang2023rethinking}, and spatiotemporal applications~\cite{cheng2025poi, zhang2024veccity}. +The success has led to increasing demand for adapting such models to specialized domains and, more importantly, to handle multiple diverse tasks simultaneously. +This capability is essential for effective deployment in real-world applications~\cite{bommasani2021opportunities, yu2025bigcity, ji2025seeing}. + +Supervised Fine-Tuning (SFT), a widely adopted adaptation approach, involves further tuning a pre-trained model on task-specific instruction data~\cite{wei2021finetuned}. +However, achieving effective adaptation remains significant challenges. +Conventional full parameter fine-tuning, a common SFT implementation that updates all parameters, needs to achieve effective adaptation while preserving foundational capabilities. +The training process on a narrow task-specific dataset can significantly change the model's pre-trained weights, leading to catastrophic forgetting~\cite{lester2021power}. +Furthermore, such an approach typically demands substantial computational resources. +Such limitations hinder its applicability in many practical scenarios, especially in multi-task settings~\cite{wang2023multi, fu2025training}, where models must balance between generalization and specialization. +To address these limitations, various Parameter-Efficient Fine-Tuning (PEFT) techniques have been proposed. These approaches adapt pre-trained LLMs to new tasks by updating only a small number of trainable parameters while leaving the backbone model unchanged, thereby reducing computational cost and overfitting risks~\cite{han2024parameter}. +Common PEFT strategies include adapter-based methods~\cite{houlsby2019parameter} that insert lightweight trainable modules, prompt-based methods such as Prefix Tuning~\cite{li2021prefix} that modify input representations, and reparameterization methods like Low-Rank Adaptation (LoRA)~\cite{hu2021lora} and its variants. LoRA, a widely utilized PEFT method, employs low-rank decomposition to weight updates, making it both efficient and effective. + +However, these methods face limitations in complex multi-task scenarios due to their limited generalization and representational capacity across diverse tasks and potential interference when adapting to multiple objectives simultaneously~\cite{yu2020gradient, liu2021conflict, navon2022multi}. +Specifically for low-rank reparameterization approaches like LoRA, the low-rank adaptability may restrict model expressiveness when applied to highly complex tasks, resulting in suboptimal performance~\cite{pan2024lisa}. +While strategies like incorporating the Mixture-of-Experts (MoE) mechanism, which combines multiple specialized PEFT modules for multi-task adaptation, aim to enhance model capacity for diverse tasks, these MoE-based approaches can introduce additional challenges, including mitigating coupling effects and effectively managing the contributions of different experts~\cite{rajbhandari2022deepspeed}. + + +Overall, adapting LLMs to diverse tasks presents two major challenges: (1) preserving rich pretrained general knowledge while specializing for specific tasks, and (2) extending the multi-task capabilities of Parameter-Efficient Methods. + + + +Our approach is motivated by a key observation regarding LLM architectures: different components in the Transformer reveal different roles and activation behaviors. +Existing literature suggests that Feed-Forward Network (FFN) layers, constituting the bulk of model parameters, primarily function as key repositories for storing and recalling general knowledge~\cite{geva2021transformer}. +In contrast, self-attention mechanisms are primarily responsible for processing and integrating contextual information within the input sequence, capturing dependencies between tokens~\cite{jin2025massive}. +This functional difference is also reflected in the parameter activation. +While FFNs, comprising approximately 90\% of model parameters, exhibit high activation sparsity, self-attention mechanisms typically demonstrate denser activation patterns~\cite{cai2024survey, fedus2022switch, jaszczur2021sparse}. +This denser engagement highlights its critical role in integrating latent general knowledge with contextual information derived from the input. + +Given these differences, we argue that focusing on the modulation of self-attention during multi-task adaptation provides a more effective and specialized strategy. +The key insight is that large-scale pre-training has equipped LLMs with extensive general knowledge, so effective adaptation should focus on enabling LLMs to better integrate task-specific contextual information. +Such an approach can refine how general knowledge is integrated with specific contextual demands of diverse tasks. Importantly, this modulation preserves pre-trained general knowledge, thereby mitigating issues like catastrophic forgetting and task interference. + +To this end, we introduce Contextual Attention Modulation (CAM), a novel mechanism designed to dynamically modulate the representations within the self-attention modules of LLMs based on the input context. +CAM learns to dynamically modulate self-attention representations to adapt the input context. +This context-aware mechanism selectively amplifies task-relevant attentional signals and suppresses irrelevant or interfering ones, thereby enhancing task-specific features while preserving the model's pre-trained general knowledge. +Directly modulating the organization of contextual information within attention modules promotes more effective knowledge retention and specialized adaptation, thereby supporting more robust and efficient multi-task learning. + +To extend the multi-task capabilities, we embed CAM into our Hybrid Contextual Attention Modulation (HyCAM) framework. +HyCAM combines a shared, full-parameter CAM module, which is designed to capture and leverage common knowledge across all tasks, with multiple specialized, lightweight CAM modules. +These specialized modules implement the CAM mechanism using PEFT techniques to efficiently capture distinct features, allowing effective multi-task adaptation with minimal additional trainable parameters. +A soft-routing strategy, further augmented by a load-balancing constraint, dynamically manages the fusion of knowledge from these shared and specialized CAM components. +This design empowers HyCAM to extend multi-task performance by enabling both efficient knowledge sharing and fine-grained specialization. + + +The main contributions of this paper are summarized as follows: +\begin{itemize}[leftmargin=*, topsep=0pt] + \item We propose Contextual Attention Modulation (CAM), a novel mechanism that learns to dynamically modulate self-attention representations in LLMs based on input context. + CAM is designed to enhance task-specific features while preserving pre-trained general knowledge, thereby facilitating more effective knowledge retention and specialized adaptation. + \item We introduce the Hybrid Contextual Attention Modulation (HyCAM) framework, which extends multi-task adaptation capabilities by integrating our CAM mechanism in distinct forms. This integration empowers HyCAM to achieve superior multi-task performance by effectively balancing efficient knowledge sharing with fine-grained task specialization. + \item We conduct extensive experiments across a range of tasks covering question answering, code generation, logical reasoning, and other domains. Comparative experiments demonstrate that HyCAM significantly outperforms existing state-of-the-art approaches with faster convergence. +\end{itemize} +\section{Preliminaries} +This section briefly reviews the fundamental concepts essential for understanding our proposed method. We discuss the relevant components of the Transformer architecture, the basics of task-adaptive fine-tuning, and common PEFT techniques. + +\subsection{Transformer Architecture} +The Transformer architecture~\cite{vaswani2017attention} serves as the backbone of most LLMs owing to its ability to efficiently process sequences of data through attention mechanisms, making it especially powerful for understanding and generating human language. +A Transformer model is typically composed of a stack of identical blocks. +Each block primarily contains two core components: the self-attention mechanism and the Feed-Forward Network (FFN). +Self-Attention mechanism allows the model to weigh the importance of different tokens in an input sequence and capture contextual relationships by computing attention scores using Query ($Q$), Key ($K$), and Value ($V$) projections, often via scaled dot-product attention: $Attention(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$. Following this, the FFN, typically composed of two linear transformations with a non-linear activation, further processes each token's representation independently to express the complex knowledge of the model. + + +\subsection{Task-Adaptive Fine-Tuning} \label{sec:finetune} + +While LLMs acquire extensive general knowledge and reasoning capabilities, they typically require further adaptation to specialize them for specific tasks and align their behavior with desired objectives, such as following instructions. +A common approach for such task-adaptive fine-tuning is Supervised Fine-Tuning (SFT). In SFT, the model learns from examples that provide explicit input-output pairings. +These pairings might illustrate a question with its corresponding answer or an instruction followed by the desired model output. +The primary goal is to adjust the model's parameters to minimize a task-specific loss function, such as cross-entropy loss for sequence generation or classification tasks. + + +\subsection{Parameter-Efficient Fine-Tuning} +Adapting LLMs to specific tasks often involves fine-tuning, but updating all parameters is computationally expensive. PEFT methods enable model adaptation by introducing a small set of new parameters or reparameterizing existing ones while keeping the backbone model weights frozen, significantly reducing computational costs. + +A mainstream PEFT category is reparameterization, which introduces a smaller set of trainable parameters that efficiently influence the model's behavior. +For instance, a common strategy is to represent the change in a pre-trained weight matrix $W_0$ during adaptation as a low-rank update, based on the observation that task-specific changes often lie in a subspace of much lower dimensionality than the full parameter space. +Thus, instead of learning a large, dense update matrix $\Delta W$, these methods learn a low-rank approximation of it, such as $\Delta W = BA$, where $B$ and $A$ are much smaller matrices~\cite{hu2021lora}. + +\begin{figure*}[ht] + \centering + \includegraphics[width=0.75\linewidth]{assets/model_v4.pdf} + \caption{The architecture of the CAM and HyCAM framework. HyCAM applies a hybrid CAM mechanism to the output of the Attention module within each Transformer block, while the backbone LLM remains frozen. Specifically, HyCAM integrates a shared, full-parameter CAM module and multiple lightweight Specialized CAMs for common and task-specific knowledge.} + \label{fig:model} +\end{figure*} + +\section{Method} +We first illustrate an overview of our proposed HyCAM framework. +Next, the core CAM mechanism is further detailed. We then provide an in-depth description of the HyCAM framework, including its hybrid components and dynamic knowledge fusion strategies with a soft-routing method and load-balancing constraint, and conclude by specifying the training objective. +\subsection{Framework Overview} +To address the critical challenge of enabling LLMs to efficiently adapt to diverse tasks while balancing knowledge retention with task-specific specialization, we introduce the Hybrid Contextual Attention Modulation (HyCAM) framework. +The core mechanism of HyCAM is Contextual Attention Modulation (CAM), which dynamically learns context-dependent modulation of self-attention representations, selectively amplifying task-relevant signals while suppressing irrelevant or potentially interfering ones to enhance task-specific features and preserve general knowledge. +As illustrated in Figure~\ref{fig:model}, the HyCAM framework employs a novel hybrid architecture that integrates a shared, full-parameter CAM module, designed for capturing common knowledge across tasks, with multiple specialized CAM modules that utilize parameter-efficient techniques for efficient, fine-grained adaptation to distinct task features. +The contributions of these diverse CAM modules are managed by a dynamic routing strategy to ensure balanced utilization of the specialized components and adaptive knowledge fusion. + +\subsection{Contextual Attention Modulation} \label{sec:cam} +The CAM mechanism is the core of our HyCAM framework, designed to dynamically modulate self-attention representations at each Transformer block. +It learns to dynamically amplify task-relevant attentional signals and suppress irrelevant ones based on the input context, thereby enhancing task-specific features while preserving the model's pre-trained general knowledge, which facilitates more effective and efficient task adaptation. + +\subsubsection{\textbf{Motivation}} +Our motivation for developing CAM comes from the analysis of distinct roles and activation patterns across different Transformer components, as described in Section~\ref{sec:intro}. +While FFN modules account for a large portion of parameters and store a vast amount of an LLM's parameterized knowledge, self-attention modules are crucial for dynamically processing and integrating contextual information. +The varying activation patterns of these components highlight the important role of the self-attention modules in integrating latent general knowledge with the specific context derived from an input. +With extensive general knowledge from large-scale pre-training of LLMs, the key to effective adaptation lies in enabling them to better integrate this foundational knowledge with task-specific contextual information. +Conventional fine-tuning approaches, however, can often overwrite the valuable pre-trained representations by introducing new task-specific knowledge. + +This observation motivated us to develop CAM, a mechanism that refines how general knowledge is integrated with specific contextual demands of diverse tasks by modulating self-attention representations. This approach aims to facilitate task-adaptive specialization while preserving valuable pre-trained knowledge. + +\subsubsection{\textbf{The CAM Mechanism}} \label{subsec:camdetail} +The CAM mechanism is integrated into each Transformer block, operating on the output of the self-attention modules to dynamically modulate its representations based on the input context. This process allows for a fine-grained modulation of contextual information flow. +Specifically, the CAM mechanism proceeds as follows: + +\paratitle{Input Normalization: } +Let $h_{in} \in \mathbb{R}^{L \times d}$ be the input hidden state to a Transformer layer, where $L$ denotes the sequence length and $d$ represents the hidden dimension. +Consistent with standard Transformer operations, these input hidden states are first normalized using Layer Normalization~\cite{ba2016layer}, producing $h_{norm} \in \mathbb{R}^{L \times d}$: +\begin{equation} + h_{norm} = \text{LayerNorm}(h_{in}). +\end{equation} +The resulting $h_{norm}$ serves as the input for both the conventional self-attention computation and our CAM module. + + + +\paratitle{Modulation Weight Generation: } +CAM then computes a context-dependent modulation weight tensor, denoted as $\mathbf{A}_{\text{CAM}} \in \mathbb{R}^{L \times d}$. +These weights are derived from the normalized hidden state $h_{norm}$ through a linear projection parameterized by a trainable weight matrix $W_{proj} \in \mathbb{R}^{d \times d}$, followed by a SiLU activation function~\cite{elfwing2018sigmoid}: +\begin{equation} + \mathbf{A}_{\text{CAM}} = \text{SiLU}(h_{norm} W_{proj}). +\end{equation} + The matrix $W_{proj}$ is specific to the CAM module and is crucial for learning how to modulate the attention representations based on the input context. + To ensure stability during the initial phases of fine-tuning and to allow the model to gradually learn the modulation, $W_{proj}$ is initialized as a zero matrix. + This initialization strategy ensures that at the beginning of the fine-tuning, CAM does not alter the pre-trained model's behavior. That is, the model initially maintains its original approach to processing contextual information, which is then gradually modulated as training progresses for a stable adaptation. + +\paratitle{Application of Modulation: } +Concurrently, the standard attention output $h_{att} \in \mathbb{R}^{L \times d}$ is computed using the normalized input $h_{norm}$: +\begin{equation} + h_{att} = \text{Self-Attention}(h_{norm}). + \label{eq:oriattn} +\end{equation} + The CAM mechanism then refines this $h_{att}$ by applying the learned modulation weights $\mathbf{A}_{\text{CAM}}$. This is performed via an element-wise Hadamard product ($\odot$). + The modulated signal is integrated with the original $h_{att}$ through a residual connection, forming the final output $h_{out} \in \mathbb{R}^{L \times d}$ of the attention mechanism incorporating CAM. +\begin{equation} + h_{out} = h_{att} + h_{att} \odot \mathbf{A}_{\text{CAM}}. +\end{equation} + +\subsubsection{\textbf{Advantages}} + By dynamically generating and applying these modulation weights, CAM refines the contextual representation from the self-attention modules to adapt it to specific tasks while preserving the pre-trained general knowledge, thereby mitigating catastrophic forgetting. + Thus, CAM facilitates an effective balance between achieving task-specific adaptation and retaining extensive general knowledge. + Moreover, by modulating attentional outputs instead of fine-tuning a large number of backbone parameters, CAM achieves computational efficiency. + +\vspace{-5px} +\subsection{The HyCAM Framework} +While the CAM mechanism provides a powerful tool for modulating attention representations, +adapting LLMs to handle multiple diverse tasks simultaneously presents significant challenges. +Conventional full fine-tuning struggles with catastrophic forgetting and resource demands, while existing PEFT methods still face limitations for multi-tasking. +Specifically, the limited capacity of representation makes it suboptimal for highly complex tasks, and simple applications of expert-based strategies lead to an imbalance in expert utilization. + +To address these multiple challenges and effectively leverage the CAM mechanism for complex multi-task learning scenarios, we introduce the HyCAM framework. +The framework is designed to extend the multi-task adaptation capabilities by integrating CAM in hybrid forms, enabling both efficient knowledge sharing and fine-grained task specialization. +This is achieved through strategically combining shared, full-parameter CAM module, for efficient knowledge sharing, with multiple specialized, parameter-efficient CAM modules, for fine-grained specialization. +The contributions of these components are coordinated by a dynamic routing mechanism with a load-balancing constraint to ensure adaptive knowledge fusion. + +\subsubsection{\textbf{Hybrid CAM Components}} +The hybrid architecture of the HyCAM framework is designed to leverage both general context understanding and specialized, task-specific adaptation capabilities. This architecture comprises a shared, full-parameter CAM module and multiple lightweight, specialized CAM modules: + + \paratitle{Shared CAM Module: } + The Shared CAM module serves as a global modulator, for capturing and refining common contextual patterns and general knowledge across all tasks. This module is a full-parameter CAM, as detailed in Section~\ref{sec:cam}. Its trainable projection matrix, denoted as $W_{Shared} \in \mathbb{R}^{d \times d}$, is shared and updated across all tasks to produce a modulation weight tensor: +\begin{equation} + \mathbf{A}_{Shared} = \text{SiLU}(h_{norm}W_{Shared}). +\end{equation} + +\paratitle{Specialized CAM Modules: } +In addition to the shared module, HyCAM incorporates multiple ($N_s$) lightweight Specialized CAM modules. +Specialized CAM modules are designed to learn and apply attention modulations for the distinct features of specific tasks. + +Different tasks often require different ways of handling contextual information in the self-attention layer. For example, code generation may need to focus on long-range dependencies, while question answering systems may prioritize specific entities and their relationships in a local context. This design is to enable the model to develop fine-grained adaptations for +diverse tasks, thereby mitigating the interference when a single component attempts to learn potentially conflicting objectives from multiple tasks. + +The implementation of Specialized CAM modules leverages the PEFT technique for reducing the number of trainable parameters per specialized module, making the framework scalable. +Besides, it helps in mitigating overfitting, especially when task-specific data might be limited. +Specifically, each Specialized CAM module, indexed by $k \in \{1, ..., N_s\}$, generates its unique modulation weight tensor $\mathbf{A}_{\text{Spec}_k} \in \mathbb{R}^{L \times d}$ as follows: +\begin{equation} + \mathbf{A}_{\text{Spec}_k} = \text{SiLU}(h_{norm} W_{\text{Spec}_k}), +\end{equation} +where $W_{\text{Spec}_k}$ is the trainable projection matrix specific to the $k$-th specialized module. To achieve parameter efficiency while enhancing representational capacity, we adopt the SLoRA~\cite{guo2025nlora} technique for the structure of $W_{Spec_k}$. Instead of a direct low-rank decomposition like LoRA, typically $W = BA$, SLoRA introduces an intermediate trainable matrix $N$ between $B$ and $A$. Thus, $W_{Spec_k}$ is parameterized as: +\begin{equation} + W_{Spec_k} = B_k N_k A_k. +\end{equation} +Here, $A_k \in \mathbb{R}^{r \times d}$ is a matrix that projects the $d$-dimensional hidden state $h_{norm}$ into a lower-dimensional space of rank $r$. $N_k \in \mathbb{R}^{r \times r}$ is a trainable intermediate matrix within the low-rank space. +$B_k \in \mathbb{R}^{d \times r}$ is a matrix that projects the $r$-dimensional representation back to the original $d$-dimensional space. +The rank $r$ is significantly smaller than $d$, ensuring a substantial reduction in trainable parameters compared to a full $d \times d$ matrix. + +For initialization, and similar to the zero-initialization of $W_{\text{Shared}}$ in the Shared CAM module, we adopt a strategy to ensure training stability. Specifically, the matrices $A_k$ and $N_k$ are initialized using Kaiming Uniform~\cite{he2015delving}. The matrix $B_k$ is initialized with zeros. This structure allows each Specialized CAM to develop task-specific modulations with very small parameters, thus enhancing the adaptability of the model without sacrificing efficiency. + +\subsubsection{\textbf{Dynamic Routing}} \label{sec:routing} +To effectively leverage the diverse contributions from the Shared CAM and multiple Specialized CAM modules, HyCAM incorporates a dynamic soft-routing mechanism coupled with a load-balancing constraint. +This mechanism adaptively determines the influence of each module based on the input context and promotes load-balance to ensure efficient utilization of all Specialized CAMs. + + +\paratitle{Routing for Specialized CAMs: } +The dynamic routing mechanism weights the contributions of the $N_s$ Specialized CAM modules for each input token. This enables HyCAM to adapt its modulation strategy in a fine-grained, context-dependent manner. The routing process is detailed as follows: + +For each token representation $h_{norm}$, derived from $h_{in}$ as described in Section~\ref{subsec:camdetail}, a lightweight router network first generates $\mathbf{logits} \in \mathbb{R}^{N_s}$, produced by a linear layer applied to $h_{norm}$: +\begin{equation} + \mathbf{logits} = h_{norm} W_{router}, +\end{equation} +where $W_{router} \in \mathbb{R}^{d \times N_s}$ is the trainable weight matrix of the router. + +These $\mathbf{logits}= [\pi_1, \pi_2, ..., \pi_{N_s}]$ are then transformed into a probability distribution over the specialized modules using the Gumbel-Softmax estimator~\cite{jang2016categorical} to obtain differentiable, soft routing probabilities. +The Gumbel-Softmax allows for differentiable sampling from a categorical distribution, which facilitates the training process while encouraging exploration, as detailed: +\begin{equation} + p_k = \frac{\exp((\log \pi_k + g_k)/\tau)}{\sum_{j=1}^{N_s} \exp((\log \pi_j + g_j)/\tau)}, + \label{eq:gumbel_softmax} +\end{equation} +where $p_k$ is the resulting soft routing weight for the $k$-th Specialized CAM module. $g_k \sim \text{Gumbel}(0,1)$ are \iid noise drawn from the Gumbel distribution, adding stochasticity for exploration. $\tau$ is a temperature hyperparameter that controls the sharpness of the probability distribution. Lower temperatures make the selection more discrete, while higher temperatures make it softer. + +\paratitle{Load Balancing Loss: } +To prevent routers from over-selecting a few modules, HyCAM adds a load-balancing loss $\mathcal{L}_{balance}$ that encourages more balanced routing across specialized components. For a batch of $B$ tokens, it is computed as: + +\begin{equation} + \mathcal{L}_{balance} = \sum_{k=1}^{N_s} \left( \frac{1}{B} \sum_{b=1}^{B} p_{b,k} \right) \cdot \left( \frac{1}{B} \sum_{b=1}^{B} \text{softmax}(\mathbf{logits}_{b})_k \right), + \label{eq:load_balance_loss} +\end{equation} +where $p_{b,k}$ is the Gumbel-Softmax output and $\text{softmax}(\mathbf{logits}_{b})_k$ is the standard softmax output of the router logits. + +\paratitle{Fusion of Modulations: } +Once the routing weights $p_k$ are determined for each token, as described in Equation~\ref{eq:gumbel_softmax}, the final context-dependent modulation tensor, $\mathbf{A}_{Fusion} \in \mathbb{R}^{L \times d}$, is computed by combining the output of the Shared CAM module, $\mathbf{A}_{Shared}$, with the dynamically weighted sum of the modulations from all Specialized CAM modules, $\{\mathbf{A}_{Spec_k}\}_{k=1}^{N_s}$: +\begin{equation} + \mathbf{A}_{Fusion} = \mathbf{A}_{Shared} + \sum_{k=1}^{N_s} p_k \cdot \mathbf{A}_{Spec_k}, + \label{eq:fusion_modulation} +\end{equation} +Here, $p_k$ denotes the token-specific routing weight of the $k$-th specialized module, ensuring that the context-based modulation of $\mathbf{A}_{Fusion}$ integrates both general and adaptively selected specialized knowledge. +Finally, it is applied to the original self-attention output $h_{att}$, from Equation~\ref{eq:oriattn} in Section~\ref{subsec:camdetail}, to produce the HyCAM-enhanced output $h_{out}$ using the element-wise Hadamard product and residual connection, as defined in the core CAM mechanism: +\begin{equation} + h_{out} = h_{att} + h_{att} \odot \mathbf{A}_{Fusion}. +\end{equation} +This entire mechanism, from dynamic routing to the application of the fused modulation, allows HyCAM to dynamically modulate the self-attention process by integrating shared knowledge with specialized insights, thereby enabling the model to effectively balance generalization across diverse tasks with task-specific adaptation. + +\begin{table*}[t] +\small + \centering + \caption{Datasets statistics.} + \label{tab:dataset} + \resizebox{0.85\linewidth}{!}{ + \renewcommand{\arraystretch}{0.94} + \begin{threeparttable}[b] + \begin{tabular}{lccccc} + \toprule + Dataset & Samples & Total Tokens\tnote{1} & Avg. Tokens/Sample\tnote{1} & Domain & Source \\ + \midrule + Auto CoT & 5,816 & 943,474 & 162.22 & Arithmetic and other logical reasoning tasks & \cite{zhang2023automatic}\\ + iCliniq & 7,321 & 1,826,306 & 249.46 & Conversations between patients and doctors & \cite{li2023chatdoctor}\\ + Dolly 2.0 & 15,015 & 3,061,007 & 203.86 & Closed QA and summarization from Wikipedia & \cite{DatabricksBlog2023DollyV2}\\ + CodeAlpaca & 20,222 & 2,195,523 & 109.66 & Code generation and optimization & \cite{codealpaca}\\ + WebGPT & 18,994 & 13,988,895 & 736.49 & Information retrieval QA & \cite{nakano2021webgpt}\\ + \bottomrule + \end{tabular} + \begin{tablenotes} + \item[1] Calculated by Llama-3 Tokenizer. + \end{tablenotes} + \end{threeparttable} + } +\end{table*} + +\begin{table*}[t] + \centering + \caption{Experimental results across different backbone LLMs. + \textbf{*}indicates the statistically significant improvements (\ie two-sided t-test with $p<0.05$) over the best PEFT baseline. Lower PPL$\downarrow$ is better, where higher BLEU$\uparrow$ and ROUGE$\uparrow$ reflect higher quality. The best results are bolded, while the second-best results are underlined. + } + \label{tab:exp1} + \resizebox{0.95\linewidth}{!}{ + \renewcommand{\arraystretch}{1} + \begin{tabular}{l|ccc|ccc|ccc|ccc|ccc} + \toprule + Backbone LLM & \multicolumn{3}{c|}{Llama 2 7B}& \multicolumn{3}{c|}{Llama 3 8B} & \multicolumn{3}{c|}{Llama 3.1 8B} & \multicolumn{3}{c|}{Mistral 7B} & \multicolumn{3}{c}{Qwen 2.5 7B} \\ \midrule + Metric & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$& PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$& PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$\\ \midrule +Full Finetune & 3.193 & \underline{0.171} & 0.231 & 3.978 & 0.151 & 0.203 & 3.873 & 0.153 & 0.205 & 4.403 & 0.157 & 0.192 & 3.024 & \underline{0.169} & 0.225 \\ +LoRA & 3.222 & 0.157 & 0.225 & 3.556 & 0.148 & 0.24 & 3.537 & 0.156 & 0.237 & \underline{3.418} & \underline{0.163} & \underline{0.244} & 2.840 & 0.137 & \underline{0.239} \\ +\midrule +Multi LoRA & 3.287 & 0.121 & 0.217 & 3.547 & 0.157 & 0.236 & 3.653 & 0.134 & 0.235 & 3.461 & 0.141 & 0.225 & 3.069 & 0.136 & 0.222 \\ +RieMoE-LoRA & \underline{3.171} & 0.154 & \underline{0.232} & \underline{3.497} & \underline{0.159} & \underline{0.242} & \underline{3.487} & \underline{0.161} & \underline{0.238} & 3.597 & 0.143 & 0.24 & \underline{2.830} & 0.157 & 0.227 \\ +HyCAM & \textbf{3.081*} & \textbf{0.173*} & \textbf{0.244*} & \textbf{3.484*} & \textbf{0.162*} & \textbf{0.245*} & \textbf{3.453*} & \textbf{0.172*} & \textbf{0.251*} & \textbf{3.299*} & \textbf{0.171*} & \textbf{0.249*} & \textbf{2.757*} & \textbf{0.172*} & \textbf{0.248*} \\ + \bottomrule + \end{tabular} + } +\end{table*} + +\subsection{Training Details} +The HyCAM framework, including the Shared CAM module, the Specialized CAM modules, and the dynamic router, is trained end-to-end. +We use a composite objective function that combines a primary task-specific loss with the auxiliary load-balancing loss, described in Section~\ref{sec:routing}. +This approach ensures that the model not only learns to perform the target tasks effectively but also maintains balanced utilization of its specialized components, leading to efficient adaptation across diverse tasks and enhanced overall multi-task performance. + + +\paratitle{Task-specific Loss: } +We employ a standard autoregressive training strategy common for LLMs, as introduced in Section~\ref{sec:finetune}, where the model is trained to predict the next token in a sequence given the input context. +Given an input sequence $\mathbf{X} = (x_1, x_2, \dots, x_m)$ and its corresponding target sequence $\mathbf{Y} = (y_1, y_2, \dots, y_n)$, the model is trained to predict each token $y_t$ conditioned on the input $\mathbf{X}$ and the previous target tokens $\mathbf{Y}_{