Files
Graduate/outline.md
2026-03-20 22:40:13 +08:00

11 KiB
Raw Permalink Blame History

大语言模型的结构感知表征适配方法研究 — 完整章节大纲


第一章 绪论

定位

提出科学问题,建立统一框架,概括研究内容与技术路线。

目录

1.1 研究背景与意义

1.1.1 大语言模型表征适配的发展背景与关键挑战 1基础模型范式推动统一表示学习的发展 2复杂任务对统一表示空间的非均匀结构需求 3参数高效适配范式的发展 4模型内部结构异质性及其对适配建模的启示 5大语言模型结构感知表征适配的关键问题与挑战

1.1.2 理论意义、方法体系与应用价值

1.2 大语言模型表征适配研究现状与关键问题分析 (体现发展现状+问题,不要太像文献综述)

1.2.1 大语言模型的表示学习机制 1.2.2 参数高效适配方法研究现状 1.2.3 大语言模型结构异质性研究现状 1.2.4 现有研究的主要挑战总结

1.3 面向大语言模型的结构感知表征适配统一分析框架

1.3.1 结构感知调制的统一形式化 1.3.2 结构感知调制的形式类别划分 1.3.3 结构异质性类型与本文方法体系

1.4 研究内容与技术路线

1.4.1 主要研究内容 1.4.2 整体技术路线

1.5 论文组织结构

写作要点

  • 背景从LLM适配瓶颈切入不从时空数据问题切入
  • §1.3 是全文理论中枢,必须清晰、稳定、可反复引用
  • §1.4 要突出方法递进关系,而非简单列举章节
  • §1.5 各章描述须嵌入对应的 \mathcal{R} 描述符与调制形式,回扣 §1.3

当前状态

  • 全文已完成
  • ⚠️ 图1.1fm_paradigm.pdf基础模型范式示意图不存在\includegraphics 被注释
  • ⚠️ 图1.2tech_route.pdf技术路线图使用占位 caption待外部绘制后替换
  • ⚠️ Ch1/Ch2 共约 10 处空 \cite{},需补充 bib 条目

第二章 大语言模型表征适配的相关理论与研究进展

定位

文献综述+背景知识章,为后续方法章节提供理论与研究背景支撑。

目录(实际结构)

2.1 大语言模型的表示学习机制

2.1.1 Transformer表示学习机制 2.1.2 预训练基础模型与表示迁移学习 2.1.3 大语言模型在复杂任务建模中的潜力 2.1.4 模型内部结构的分析方法

2.2 参数高效适配方法研究

2.2.1 参数高效微调方法 2.2.2 多任务学习与知识路由机制 2.2.3 表示各向异性与结构感知学习 2.2.4 多尺度学习与频谱建模方法 2.2.5 模型结构优化与容量分配方法 2.2.6 现有适配方法的对比分析与不足

2.3 结构感知适配与表示异质性

2.3.1 模型内部结构异质性的多层级表现 2.3.2 从均匀适配到结构感知适配

2.4 现有研究的关键问题总结

2.5 本章小结

写作要点

  • 删除原来的时空数据、时空评测综述
  • 不再写 AgentCity、POI-QA 等内容
  • 文献综述应服务于 HyCAM / RoSA / DyPAM / CASCADE / MESSA 五个方法
  • §2.2 将多任务路由、频谱方法、结构优化整合为 PEFT 研究的子方向,避免碎片化

当前状态

  • 全文已完成
  • ⚠️\cite{} 空引用devlin2019bert, godey2024anisotropy, caruana1997multitask 等)
  • ⚠️ 两处 % TODO: 建议补充 引用Gurnee & Tegmark, PLE待决定是否采纳

第三章 基于模块功能角色感知的多任务表征适配方法

对应

HyCAM / \mathcal{R}_{mod} / 乘性调制 / 表示空间

定位

研究模块级功能异质性重点解决注意力模块与FFN在适配中的角色差异问题。

核心要点

  • 自注意力更直接承担上下文组织功能
  • FFN更多承担参数化知识表达功能
  • 现有均匀适配策略忽略了这种模块角色差异
  • HyCAM通过CAM、共享/专用调制与动态路由实现多任务协同适配

写作要点

  • 不再用"城市多任务时空建模"做问题场景
  • 直接定位为"大语言模型多任务适配中的模块级功能异质性问题"
  • 保留通用多任务实验,不再为时空主线强行补解释
  • 章末过渡:模块级问题解决后,仍有维度级位置结构异质性未解决

当前状态

  • 全文已完成(含实验、消融、可解释性分析)
  • ⚠️ 表3.8(参数量对比)标注 % TODO: 此表中的参数量数值需要根据实际实现代码进行核实
  • ⚠️ 计算复杂度分析段落被注释掉chap03.tex:913-917待决定是否恢复

第四章 基于位置结构感知的选择性表征适配方法

对应

RoSA / \mathcal{R}_{dim} / 乘性调制 / 表示空间

定位

研究维度级位置结构异质性的静态、粗粒度建模问题。

目录

4.1 本章概述

4.2 RoPE诱导的维度级位置结构异质性分析 4.2.1 旋转位置编码机制 4.2.2 跨维度激活强度差异 4.2.3 跨层与跨头激活异质性 4.2.4 不同位置编码机制的对比验证 4.2.5 维度级异质性对适配方法的启示

4.3 RoPE 感知的选择性适配方法RoSA 4.3.1 框架概述 4.3.2 RoPE 感知注意力增强模块RoAE 4.3.3 动态层选择策略DLS 4.3.4 RoSA 整体算法

4.4 实验验证与结果分析

4.5 本章小结

本章结论导向

哪些维度更重要、哪些层更值得更新

写作要点

  • 保留完整RoPE数学原理
  • 强调"静态、粗粒度"定位
  • 不把DyPAM内容混入本章
  • 章末必须说明RoSA尚未捕捉输入依赖与头级差异下一章进一步讨论

当前状态

  • 全文已完成(含常识推理+数学推理实验、消融、可解释性分析)

第五章 基于动态位置调制的维度级表征适配方法

对应

DyPAM / \mathcal{R}_{dim} / 乘性调制 / 表示空间

定位

研究维度级位置结构异质性的动态、细粒度建模问题。

目录

5.1 本章概述从RoSA局限切入

5.2 位置结构异质性的动态特征分析 5.2.1 RoPE的维度对位置响应特性 5.2.2 输入依赖的激活模式差异 5.2.3 静态维度选择的局限性

5.3 动态位置注意力调制方法DyPAM 5.3.1 框架概述 5.3.2 调制特征构建 5.3.3 输入条件化的维度级调制 5.3.4 头级与层级结构偏置 5.3.5 调制因子的归一化与应用 5.3.6 DyPAM 整体算法

5.4 与 RoSA 的统一视角与理论对比分析

5.5 实验验证与结果分析

5.6 本章小结

本章结论导向

激活模式会随输入与头级结构动态变化,因此需要输入条件化、维度对对齐、头级/层级感知的细粒度调制机制

内容边界控制

  • 只保留DyPAM原始论文内容或直接可推导分析
  • 不为凑篇幅补额外实验
  • 不与CASCADE/MESSA做交叉比较
  • 不重复RoPE数学原理只承接第四章结果继续推进

当前状态

  • 全文已完成(含常识推理+数学推理实验、消融、跨模型/跨任务可解释性分析)

第六章 基于多尺度频谱结构与参数容量分配的参数空间适配方法

对应

  • CASCADE / \mathcal{R}_{spec} / 组合式调制 / 参数空间
  • MESSA / \mathcal{R}_{param} / 结构分解调制 / 参数空间

定位

从表示空间转向参数空间,研究多尺度频谱结构与共享-特有容量分配问题。

目录

6.1 本章概述

6.2 参数空间的结构异质性分析 6.2.1 权重更新的频谱特性 6.2.2 多任务适配中的参数容量分配问题 6.2.3 对适配方法的启示

6.3 基于频谱级联的多尺度参数适配方法CASCADE 6.3.1 框架概述 6.3.2 异构频域专家设计 6.3.3 级联频谱调制机制 6.3.4 频谱复杂度感知路由 6.3.5 训练目标

6.4 基于共享-特有稀疏分解的多任务适配方法MESSA 6.4.1 框架概述 6.4.2 共享-特有稀疏表示 6.4.3 预算感知的软到硬结构学习 6.4.4 MESSA 整体算法

6.5 频谱结构与稀疏结构的关联分析 6.5.1 统一框架下的定位 6.5.2 互补性分析 6.5.3 共同验证的核心观点

6.6 实验验证与结果分析

6.7 本章小结

写作要点

  • 不再写"对时空适配的启示"
  • CASCADE与MESSA必须通过§6.5整合为统一章节而不是A+B拼接
  • §6.5 已扩展为包含调制算子形式对比、四维度互补性分析、方法组合可能性讨论以及实验层面的综合总结

当前状态

  • 全文已完成CASCADE: 常识+数学推理实验MESSA: 五任务多任务联合适配实验)
  • 图片文件已统一为 6_ 前缀

第七章 总结与展望

定位

收束全文,不再包含任何评测基础设施相关叙事。

实际结构

  • 本文工作总结
  • 主要创新点归纳
  • 局限性分析
  • 未来工作展望

展望方向

  1. 跨层级结构异质性的联合建模与交互关系
  2. 面向新型架构(线性注意力、状态空间模型等)的结构感知适配推广
  3. 面向多模态、长上下文与持续学习场景的扩展验证
  4. 结构异质性分析与推理阶段自适应适配的结合

当前状态

  • 全文已完成
  • ⚠️ 使用 \chapter*{总结与展望}\section*{...}(不编号),应改为编号形式

跨章注意事项

骨干模型跨章差异

不同章节因对应不同时期发表的论文,使用了不同代际的骨干模型:

  • Ch3 (HyCAM): Llama 2/3/3.1, Mistral, Qwen 2.5 (0.5B14B)
  • Ch4 (RoSA): Qwen2.5-7B, Llama3.1-8B, Gemma2-9B
  • Ch5 (DyPAM): LLaMA 3.2-3B, Qwen3-8B, Gemma3-4B
  • Ch6 (CASCADE/MESSA): Qwen3-4B, LLaMA 3.2-3B, Gemma3-4B

建议在 Ch4 或 Ch5 实验设置中简要说明骨干模型选择的差异原因。

待补充的 bib 条目

引用键 论文
devlin2019bert Devlin et al., BERT, NAACL 2019
rahaman2019spectral Rahaman et al., On the Spectral Bias of Neural Networks, ICML 2019
godey2024anisotropy Godey et al., Anisotropy Is Inherent to Self-Attention, EACL 2024
caruana1997multitask Caruana, Multitask Learning, ML 1997
liu2019darts Liu et al., DARTS, ICLR 2019
frankle2019lottery Frankle & Carlin, Lottery Ticket Hypothesis, ICLR 2019
wu2021autoformer Wu et al., Autoformer, NeurIPS 2021
zhou2022fedformer Zhou et al., FEDformer, ICML 2022

待完成的辅助文件

文件 状态 说明
0.1_abs&keyw.tex 未写 摘要仍为模板占位文字,留到最后
0.0_title.tex 待定 毕业/提交/答辩日期为 \highlight{},学科方向待确认
tech_route.pdf 待绘制 Ch1 已有占位 caption 描述绘图规格
fm_paradigm.pdf 待绘制 Ch1 基础模型范式示意图
chap07.tex 格式修正 \chapter* 应改为 \chapter\section* 改为 \section