LLMver_v1

2026-03-20 22:40:13 +08:00
parent cf02f82db0
commit cacdc79ae2
75 changed files with 2553 additions and 10203 deletions
--- a/outline.md
+++ b/outline.md
@@ -0,0 +1,322 @@
+# 大语言模型的结构感知表征适配方法研究 — 完整章节大纲
+
+---
+
+## 第一章 绪论
+
+### 定位
+提出科学问题，建立统一框架，概括研究内容与技术路线。
+
+### 目录
+
+**1.1 研究背景与意义**
+
+**1.1.1 大语言模型表征适配的发展背景与关键挑战**
+（1）基础模型范式推动统一表示学习的发展
+（2）复杂任务对统一表示空间的非均匀结构需求
+（3）参数高效适配范式的发展
+（4）模型内部结构异质性及其对适配建模的启示
+（5）大语言模型结构感知表征适配的关键问题与挑战
+
+**1.1.2 理论意义、方法体系与应用价值**
+
+**1.2 大语言模型表征适配研究现状与关键问题分析**
+（体现发展现状+问题，不要太像文献综述）
+
+**1.2.1 大语言模型的表示学习机制**
+**1.2.2 参数高效适配方法研究现状**
+**1.2.3 大语言模型结构异质性研究现状**
+**1.2.4 现有研究的主要挑战总结**
+
+**1.3 面向大语言模型的结构感知表征适配统一分析框架**
+
+**1.3.1 结构感知调制的统一形式化**
+**1.3.2 结构感知调制的形式类别划分**
+**1.3.3 结构异质性类型与本文方法体系**
+
+**1.4 研究内容与技术路线**
+
+**1.4.1 主要研究内容**
+**1.4.2 整体技术路线**
+
+**1.5 论文组织结构**
+
+### 写作要点
+- 背景从LLM适配瓶颈切入，不从时空数据问题切入
+- §1.3 是全文理论中枢，必须清晰、稳定、可反复引用
+- §1.4 要突出方法递进关系，而非简单列举章节
+- §1.5 各章描述须嵌入对应的 $\mathcal{R}$ 描述符与调制形式，回扣 §1.3
+
+### 当前状态
+- ✅ 全文已完成
+- ⚠️ 图1.1（fm_paradigm.pdf，基础模型范式示意图）不存在，\includegraphics 被注释
+- ⚠️ 图1.2（tech_route.pdf，技术路线图）使用占位 caption，待外部绘制后替换
+- ⚠️ Ch1/Ch2 共约 10 处空 `\cite{}`，需补充 bib 条目
+
+---
+
+## 第二章 大语言模型表征适配的相关理论与研究进展
+
+### 定位
+文献综述+背景知识章，为后续方法章节提供理论与研究背景支撑。
+
+### 目录（实际结构）
+
+**2.1 大语言模型的表示学习机制**
+
+2.1.1 Transformer表示学习机制
+2.1.2 预训练基础模型与表示迁移学习
+2.1.3 大语言模型在复杂任务建模中的潜力
+2.1.4 模型内部结构的分析方法
+
+**2.2 参数高效适配方法研究**
+
+2.2.1 参数高效微调方法
+2.2.2 多任务学习与知识路由机制
+2.2.3 表示各向异性与结构感知学习
+2.2.4 多尺度学习与频谱建模方法
+2.2.5 模型结构优化与容量分配方法
+2.2.6 现有适配方法的对比分析与不足
+
+**2.3 结构感知适配与表示异质性**
+
+2.3.1 模型内部结构异质性的多层级表现
+2.3.2 从均匀适配到结构感知适配
+
+**2.4 现有研究的关键问题总结**
+
+**2.5 本章小结**
+
+### 写作要点
+- 删除原来的时空数据、时空评测综述
+- 不再写 AgentCity、POI-QA 等内容
+- 文献综述应服务于 HyCAM / RoSA / DyPAM / CASCADE / MESSA 五个方法
+- §2.2 将多任务路由、频谱方法、结构优化整合为 PEFT 研究的子方向，避免碎片化
+
+### 当前状态
+- ✅ 全文已完成
+- ⚠️ 含 `\cite{}` 空引用（devlin2019bert, godey2024anisotropy, caruana1997multitask 等）
+- ⚠️ 两处 `% TODO: 建议补充` 引用（Gurnee & Tegmark, PLE），待决定是否采纳
+
+---
+
+## 第三章 基于模块功能角色感知的多任务表征适配方法
+
+### 对应
+HyCAM / $\mathcal{R}_{mod}$ / 乘性调制 / 表示空间
+
+### 定位
+研究模块级功能异质性，重点解决注意力模块与FFN在适配中的角色差异问题。
+
+### 核心要点
+- 自注意力更直接承担上下文组织功能
+- FFN更多承担参数化知识表达功能
+- 现有均匀适配策略忽略了这种模块角色差异
+- HyCAM通过CAM、共享/专用调制与动态路由实现多任务协同适配
+
+### 写作要点
+- 不再用"城市多任务时空建模"做问题场景
+- 直接定位为"大语言模型多任务适配中的模块级功能异质性问题"
+- 保留通用多任务实验，不再为时空主线强行补解释
+- 章末过渡：模块级问题解决后，仍有维度级位置结构异质性未解决
+
+### 当前状态
+- ✅ 全文已完成（含实验、消融、可解释性分析）
+- ⚠️ 表3.8（参数量对比）标注 `% TODO: 此表中的参数量数值需要根据实际实现代码进行核实`
+- ⚠️ 计算复杂度分析段落被注释掉（chap03.tex:913-917），待决定是否恢复
+
+---
+
+## 第四章 基于位置结构感知的选择性表征适配方法
+
+### 对应
+RoSA / $\mathcal{R}_{dim}$ / 乘性调制 / 表示空间
+
+### 定位
+研究维度级位置结构异质性的**静态、粗粒度**建模问题。
+
+### 目录
+
+**4.1 本章概述**
+
+**4.2 RoPE诱导的维度级位置结构异质性分析**
+4.2.1 旋转位置编码机制
+4.2.2 跨维度激活强度差异
+4.2.3 跨层与跨头激活异质性
+4.2.4 不同位置编码机制的对比验证
+4.2.5 维度级异质性对适配方法的启示
+
+**4.3 RoPE 感知的选择性适配方法（RoSA）**
+4.3.1 框架概述
+4.3.2 RoPE 感知注意力增强模块（RoAE）
+4.3.3 动态层选择策略（DLS）
+4.3.4 RoSA 整体算法
+
+**4.4 实验验证与结果分析**
+
+**4.5 本章小结**
+
+### 本章结论导向
+> 哪些维度更重要、哪些层更值得更新
+
+### 写作要点
+- 保留完整RoPE数学原理
+- 强调"静态、粗粒度"定位
+- 不把DyPAM内容混入本章
+- 章末必须说明：RoSA尚未捕捉输入依赖与头级差异，下一章进一步讨论
+
+### 当前状态
+- ✅ 全文已完成（含常识推理+数学推理实验、消融、可解释性分析）
+
+---
+
+## 第五章 基于动态位置调制的维度级表征适配方法
+
+### 对应
+DyPAM / $\mathcal{R}_{dim}$ / 乘性调制 / 表示空间
+
+### 定位
+研究维度级位置结构异质性的**动态、细粒度**建模问题。
+
+### 目录
+
+**5.1 本章概述**（从RoSA局限切入）
+
+**5.2 位置结构异质性的动态特征分析**
+5.2.1 RoPE的维度对位置响应特性
+5.2.2 输入依赖的激活模式差异
+5.2.3 静态维度选择的局限性
+
+**5.3 动态位置注意力调制方法（DyPAM）**
+5.3.1 框架概述
+5.3.2 调制特征构建
+5.3.3 输入条件化的维度级调制
+5.3.4 头级与层级结构偏置
+5.3.5 调制因子的归一化与应用
+5.3.6 DyPAM 整体算法
+
+**5.4 与 RoSA 的统一视角与理论对比分析**
+
+**5.5 实验验证与结果分析**
+
+**5.6 本章小结**
+
+### 本章结论导向
+> 激活模式会随输入与头级结构动态变化，因此需要输入条件化、维度对对齐、头级/层级感知的细粒度调制机制
+
+### 内容边界控制
+- 只保留DyPAM原始论文内容或直接可推导分析
+- 不为凑篇幅补额外实验
+- 不与CASCADE/MESSA做交叉比较
+- 不重复RoPE数学原理，只承接第四章结果继续推进
+
+### 当前状态
+- ✅ 全文已完成（含常识推理+数学推理实验、消融、跨模型/跨任务可解释性分析）
+
+---
+
+## 第六章 基于多尺度频谱结构与参数容量分配的参数空间适配方法
+
+### 对应
+- CASCADE / $\mathcal{R}_{spec}$ / 组合式调制 / 参数空间
+- MESSA / $\mathcal{R}_{param}$ / 结构分解调制 / 参数空间
+
+### 定位
+从表示空间转向参数空间，研究多尺度频谱结构与共享-特有容量分配问题。
+
+### 目录
+
+**6.1 本章概述**
+
+**6.2 参数空间的结构异质性分析**
+6.2.1 权重更新的频谱特性
+6.2.2 多任务适配中的参数容量分配问题
+6.2.3 对适配方法的启示
+
+**6.3 基于频谱级联的多尺度参数适配方法（CASCADE）**
+6.3.1 框架概述
+6.3.2 异构频域专家设计
+6.3.3 级联频谱调制机制
+6.3.4 频谱复杂度感知路由
+6.3.5 训练目标
+
+**6.4 基于共享-特有稀疏分解的多任务适配方法（MESSA）**
+6.4.1 框架概述
+6.4.2 共享-特有稀疏表示
+6.4.3 预算感知的软到硬结构学习
+6.4.4 MESSA 整体算法
+
+**6.5 频谱结构与稀疏结构的关联分析**
+6.5.1 统一框架下的定位
+6.5.2 互补性分析
+6.5.3 共同验证的核心观点
+
+**6.6 实验验证与结果分析**
+
+**6.7 本章小结**
+
+### 写作要点
+- 不再写"对时空适配的启示"
+- CASCADE与MESSA必须通过§6.5整合为统一章节，而不是A+B拼接
+- §6.5 已扩展为包含调制算子形式对比、四维度互补性分析、方法组合可能性讨论以及实验层面的综合总结
+
+### 当前状态
+- ✅ 全文已完成（CASCADE: 常识+数学推理实验；MESSA: 五任务多任务联合适配实验）
+- ✅ 图片文件已统一为 `6_` 前缀
+
+---
+
+## 第七章 总结与展望
+
+### 定位
+收束全文，不再包含任何评测基础设施相关叙事。
+
+### 实际结构
+- 本文工作总结
+- 主要创新点归纳
+- 局限性分析
+- 未来工作展望
+
+### 展望方向
+1. 跨层级结构异质性的联合建模与交互关系
+2. 面向新型架构（线性注意力、状态空间模型等）的结构感知适配推广
+3. 面向多模态、长上下文与持续学习场景的扩展验证
+4. 结构异质性分析与推理阶段自适应适配的结合
+
+### 当前状态
+- ✅ 全文已完成
+- ⚠️ 使用 `\chapter*{总结与展望}` 和 `\section*{...}`（不编号），应改为编号形式
+
+---
+
+## 跨章注意事项
+
+### 骨干模型跨章差异
+不同章节因对应不同时期发表的论文，使用了不同代际的骨干模型：
+- Ch3 (HyCAM): Llama 2/3/3.1, Mistral, Qwen 2.5 (0.5B–14B)
+- Ch4 (RoSA): Qwen2.5-7B, Llama3.1-8B, Gemma2-9B
+- Ch5 (DyPAM): LLaMA 3.2-3B, Qwen3-8B, Gemma3-4B
+- Ch6 (CASCADE/MESSA): Qwen3-4B, LLaMA 3.2-3B, Gemma3-4B
+
+建议在 Ch4 或 Ch5 实验设置中简要说明骨干模型选择的差异原因。
+
+### 待补充的 bib 条目
+| 引用键 | 论文 |
+|--------|------|
+| `devlin2019bert` | Devlin et al., BERT, NAACL 2019 |
+| `rahaman2019spectral` | Rahaman et al., On the Spectral Bias of Neural Networks, ICML 2019 |
+| `godey2024anisotropy` | Godey et al., Anisotropy Is Inherent to Self-Attention, EACL 2024 |
+| `caruana1997multitask` | Caruana, Multitask Learning, ML 1997 |
+| `liu2019darts` | Liu et al., DARTS, ICLR 2019 |
+| `frankle2019lottery` | Frankle & Carlin, Lottery Ticket Hypothesis, ICLR 2019 |
+| `wu2021autoformer` | Wu et al., Autoformer, NeurIPS 2021 |
+| `zhou2022fedformer` | Zhou et al., FEDformer, ICML 2022 |
+
+### 待完成的辅助文件
+| 文件 | 状态 | 说明 |
+|------|------|------|
+| `0.1_abs&keyw.tex` | 未写 | 摘要仍为模板占位文字，留到最后 |
+| `0.0_title.tex` | 待定 | 毕业/提交/答辩日期为 `\highlight{}`，学科方向待确认 |
+| `tech_route.pdf` | 待绘制 | Ch1 已有占位 caption 描述绘图规格 |
+| `fm_paradigm.pdf` | 待绘制 | Ch1 基础模型范式示意图 |
+| `chap07.tex` | 格式修正 | `\chapter*` 应改为 `\chapter`，`\section*` 改为 `\section` |