LLMver_v1
This commit is contained in:
322
outline.md
Normal file
322
outline.md
Normal file
@@ -0,0 +1,322 @@
|
||||
# 大语言模型的结构感知表征适配方法研究 — 完整章节大纲
|
||||
|
||||
---
|
||||
|
||||
## 第一章 绪论
|
||||
|
||||
### 定位
|
||||
提出科学问题,建立统一框架,概括研究内容与技术路线。
|
||||
|
||||
### 目录
|
||||
|
||||
**1.1 研究背景与意义**
|
||||
|
||||
**1.1.1 大语言模型表征适配的发展背景与关键挑战**
|
||||
(1)基础模型范式推动统一表示学习的发展
|
||||
(2)复杂任务对统一表示空间的非均匀结构需求
|
||||
(3)参数高效适配范式的发展
|
||||
(4)模型内部结构异质性及其对适配建模的启示
|
||||
(5)大语言模型结构感知表征适配的关键问题与挑战
|
||||
|
||||
**1.1.2 理论意义、方法体系与应用价值**
|
||||
|
||||
**1.2 大语言模型表征适配研究现状与关键问题分析**
|
||||
(体现发展现状+问题,不要太像文献综述)
|
||||
|
||||
**1.2.1 大语言模型的表示学习机制**
|
||||
**1.2.2 参数高效适配方法研究现状**
|
||||
**1.2.3 大语言模型结构异质性研究现状**
|
||||
**1.2.4 现有研究的主要挑战总结**
|
||||
|
||||
**1.3 面向大语言模型的结构感知表征适配统一分析框架**
|
||||
|
||||
**1.3.1 结构感知调制的统一形式化**
|
||||
**1.3.2 结构感知调制的形式类别划分**
|
||||
**1.3.3 结构异质性类型与本文方法体系**
|
||||
|
||||
**1.4 研究内容与技术路线**
|
||||
|
||||
**1.4.1 主要研究内容**
|
||||
**1.4.2 整体技术路线**
|
||||
|
||||
**1.5 论文组织结构**
|
||||
|
||||
### 写作要点
|
||||
- 背景从LLM适配瓶颈切入,不从时空数据问题切入
|
||||
- §1.3 是全文理论中枢,必须清晰、稳定、可反复引用
|
||||
- §1.4 要突出方法递进关系,而非简单列举章节
|
||||
- §1.5 各章描述须嵌入对应的 $\mathcal{R}$ 描述符与调制形式,回扣 §1.3
|
||||
|
||||
### 当前状态
|
||||
- ✅ 全文已完成
|
||||
- ⚠️ 图1.1(fm_paradigm.pdf,基础模型范式示意图)不存在,\includegraphics 被注释
|
||||
- ⚠️ 图1.2(tech_route.pdf,技术路线图)使用占位 caption,待外部绘制后替换
|
||||
- ⚠️ Ch1/Ch2 共约 10 处空 `\cite{}`,需补充 bib 条目
|
||||
|
||||
---
|
||||
|
||||
## 第二章 大语言模型表征适配的相关理论与研究进展
|
||||
|
||||
### 定位
|
||||
文献综述+背景知识章,为后续方法章节提供理论与研究背景支撑。
|
||||
|
||||
### 目录(实际结构)
|
||||
|
||||
**2.1 大语言模型的表示学习机制**
|
||||
|
||||
2.1.1 Transformer表示学习机制
|
||||
2.1.2 预训练基础模型与表示迁移学习
|
||||
2.1.3 大语言模型在复杂任务建模中的潜力
|
||||
2.1.4 模型内部结构的分析方法
|
||||
|
||||
**2.2 参数高效适配方法研究**
|
||||
|
||||
2.2.1 参数高效微调方法
|
||||
2.2.2 多任务学习与知识路由机制
|
||||
2.2.3 表示各向异性与结构感知学习
|
||||
2.2.4 多尺度学习与频谱建模方法
|
||||
2.2.5 模型结构优化与容量分配方法
|
||||
2.2.6 现有适配方法的对比分析与不足
|
||||
|
||||
**2.3 结构感知适配与表示异质性**
|
||||
|
||||
2.3.1 模型内部结构异质性的多层级表现
|
||||
2.3.2 从均匀适配到结构感知适配
|
||||
|
||||
**2.4 现有研究的关键问题总结**
|
||||
|
||||
**2.5 本章小结**
|
||||
|
||||
### 写作要点
|
||||
- 删除原来的时空数据、时空评测综述
|
||||
- 不再写 AgentCity、POI-QA 等内容
|
||||
- 文献综述应服务于 HyCAM / RoSA / DyPAM / CASCADE / MESSA 五个方法
|
||||
- §2.2 将多任务路由、频谱方法、结构优化整合为 PEFT 研究的子方向,避免碎片化
|
||||
|
||||
### 当前状态
|
||||
- ✅ 全文已完成
|
||||
- ⚠️ 含 `\cite{}` 空引用(devlin2019bert, godey2024anisotropy, caruana1997multitask 等)
|
||||
- ⚠️ 两处 `% TODO: 建议补充` 引用(Gurnee & Tegmark, PLE),待决定是否采纳
|
||||
|
||||
---
|
||||
|
||||
## 第三章 基于模块功能角色感知的多任务表征适配方法
|
||||
|
||||
### 对应
|
||||
HyCAM / $\mathcal{R}_{mod}$ / 乘性调制 / 表示空间
|
||||
|
||||
### 定位
|
||||
研究模块级功能异质性,重点解决注意力模块与FFN在适配中的角色差异问题。
|
||||
|
||||
### 核心要点
|
||||
- 自注意力更直接承担上下文组织功能
|
||||
- FFN更多承担参数化知识表达功能
|
||||
- 现有均匀适配策略忽略了这种模块角色差异
|
||||
- HyCAM通过CAM、共享/专用调制与动态路由实现多任务协同适配
|
||||
|
||||
### 写作要点
|
||||
- 不再用"城市多任务时空建模"做问题场景
|
||||
- 直接定位为"大语言模型多任务适配中的模块级功能异质性问题"
|
||||
- 保留通用多任务实验,不再为时空主线强行补解释
|
||||
- 章末过渡:模块级问题解决后,仍有维度级位置结构异质性未解决
|
||||
|
||||
### 当前状态
|
||||
- ✅ 全文已完成(含实验、消融、可解释性分析)
|
||||
- ⚠️ 表3.8(参数量对比)标注 `% TODO: 此表中的参数量数值需要根据实际实现代码进行核实`
|
||||
- ⚠️ 计算复杂度分析段落被注释掉(chap03.tex:913-917),待决定是否恢复
|
||||
|
||||
---
|
||||
|
||||
## 第四章 基于位置结构感知的选择性表征适配方法
|
||||
|
||||
### 对应
|
||||
RoSA / $\mathcal{R}_{dim}$ / 乘性调制 / 表示空间
|
||||
|
||||
### 定位
|
||||
研究维度级位置结构异质性的**静态、粗粒度**建模问题。
|
||||
|
||||
### 目录
|
||||
|
||||
**4.1 本章概述**
|
||||
|
||||
**4.2 RoPE诱导的维度级位置结构异质性分析**
|
||||
4.2.1 旋转位置编码机制
|
||||
4.2.2 跨维度激活强度差异
|
||||
4.2.3 跨层与跨头激活异质性
|
||||
4.2.4 不同位置编码机制的对比验证
|
||||
4.2.5 维度级异质性对适配方法的启示
|
||||
|
||||
**4.3 RoPE 感知的选择性适配方法(RoSA)**
|
||||
4.3.1 框架概述
|
||||
4.3.2 RoPE 感知注意力增强模块(RoAE)
|
||||
4.3.3 动态层选择策略(DLS)
|
||||
4.3.4 RoSA 整体算法
|
||||
|
||||
**4.4 实验验证与结果分析**
|
||||
|
||||
**4.5 本章小结**
|
||||
|
||||
### 本章结论导向
|
||||
> 哪些维度更重要、哪些层更值得更新
|
||||
|
||||
### 写作要点
|
||||
- 保留完整RoPE数学原理
|
||||
- 强调"静态、粗粒度"定位
|
||||
- 不把DyPAM内容混入本章
|
||||
- 章末必须说明:RoSA尚未捕捉输入依赖与头级差异,下一章进一步讨论
|
||||
|
||||
### 当前状态
|
||||
- ✅ 全文已完成(含常识推理+数学推理实验、消融、可解释性分析)
|
||||
|
||||
---
|
||||
|
||||
## 第五章 基于动态位置调制的维度级表征适配方法
|
||||
|
||||
### 对应
|
||||
DyPAM / $\mathcal{R}_{dim}$ / 乘性调制 / 表示空间
|
||||
|
||||
### 定位
|
||||
研究维度级位置结构异质性的**动态、细粒度**建模问题。
|
||||
|
||||
### 目录
|
||||
|
||||
**5.1 本章概述**(从RoSA局限切入)
|
||||
|
||||
**5.2 位置结构异质性的动态特征分析**
|
||||
5.2.1 RoPE的维度对位置响应特性
|
||||
5.2.2 输入依赖的激活模式差异
|
||||
5.2.3 静态维度选择的局限性
|
||||
|
||||
**5.3 动态位置注意力调制方法(DyPAM)**
|
||||
5.3.1 框架概述
|
||||
5.3.2 调制特征构建
|
||||
5.3.3 输入条件化的维度级调制
|
||||
5.3.4 头级与层级结构偏置
|
||||
5.3.5 调制因子的归一化与应用
|
||||
5.3.6 DyPAM 整体算法
|
||||
|
||||
**5.4 与 RoSA 的统一视角与理论对比分析**
|
||||
|
||||
**5.5 实验验证与结果分析**
|
||||
|
||||
**5.6 本章小结**
|
||||
|
||||
### 本章结论导向
|
||||
> 激活模式会随输入与头级结构动态变化,因此需要输入条件化、维度对对齐、头级/层级感知的细粒度调制机制
|
||||
|
||||
### 内容边界控制
|
||||
- 只保留DyPAM原始论文内容或直接可推导分析
|
||||
- 不为凑篇幅补额外实验
|
||||
- 不与CASCADE/MESSA做交叉比较
|
||||
- 不重复RoPE数学原理,只承接第四章结果继续推进
|
||||
|
||||
### 当前状态
|
||||
- ✅ 全文已完成(含常识推理+数学推理实验、消融、跨模型/跨任务可解释性分析)
|
||||
|
||||
---
|
||||
|
||||
## 第六章 基于多尺度频谱结构与参数容量分配的参数空间适配方法
|
||||
|
||||
### 对应
|
||||
- CASCADE / $\mathcal{R}_{spec}$ / 组合式调制 / 参数空间
|
||||
- MESSA / $\mathcal{R}_{param}$ / 结构分解调制 / 参数空间
|
||||
|
||||
### 定位
|
||||
从表示空间转向参数空间,研究多尺度频谱结构与共享-特有容量分配问题。
|
||||
|
||||
### 目录
|
||||
|
||||
**6.1 本章概述**
|
||||
|
||||
**6.2 参数空间的结构异质性分析**
|
||||
6.2.1 权重更新的频谱特性
|
||||
6.2.2 多任务适配中的参数容量分配问题
|
||||
6.2.3 对适配方法的启示
|
||||
|
||||
**6.3 基于频谱级联的多尺度参数适配方法(CASCADE)**
|
||||
6.3.1 框架概述
|
||||
6.3.2 异构频域专家设计
|
||||
6.3.3 级联频谱调制机制
|
||||
6.3.4 频谱复杂度感知路由
|
||||
6.3.5 训练目标
|
||||
|
||||
**6.4 基于共享-特有稀疏分解的多任务适配方法(MESSA)**
|
||||
6.4.1 框架概述
|
||||
6.4.2 共享-特有稀疏表示
|
||||
6.4.3 预算感知的软到硬结构学习
|
||||
6.4.4 MESSA 整体算法
|
||||
|
||||
**6.5 频谱结构与稀疏结构的关联分析**
|
||||
6.5.1 统一框架下的定位
|
||||
6.5.2 互补性分析
|
||||
6.5.3 共同验证的核心观点
|
||||
|
||||
**6.6 实验验证与结果分析**
|
||||
|
||||
**6.7 本章小结**
|
||||
|
||||
### 写作要点
|
||||
- 不再写"对时空适配的启示"
|
||||
- CASCADE与MESSA必须通过§6.5整合为统一章节,而不是A+B拼接
|
||||
- §6.5 已扩展为包含调制算子形式对比、四维度互补性分析、方法组合可能性讨论以及实验层面的综合总结
|
||||
|
||||
### 当前状态
|
||||
- ✅ 全文已完成(CASCADE: 常识+数学推理实验;MESSA: 五任务多任务联合适配实验)
|
||||
- ✅ 图片文件已统一为 `6_` 前缀
|
||||
|
||||
---
|
||||
|
||||
## 第七章 总结与展望
|
||||
|
||||
### 定位
|
||||
收束全文,不再包含任何评测基础设施相关叙事。
|
||||
|
||||
### 实际结构
|
||||
- 本文工作总结
|
||||
- 主要创新点归纳
|
||||
- 局限性分析
|
||||
- 未来工作展望
|
||||
|
||||
### 展望方向
|
||||
1. 跨层级结构异质性的联合建模与交互关系
|
||||
2. 面向新型架构(线性注意力、状态空间模型等)的结构感知适配推广
|
||||
3. 面向多模态、长上下文与持续学习场景的扩展验证
|
||||
4. 结构异质性分析与推理阶段自适应适配的结合
|
||||
|
||||
### 当前状态
|
||||
- ✅ 全文已完成
|
||||
- ⚠️ 使用 `\chapter*{总结与展望}` 和 `\section*{...}`(不编号),应改为编号形式
|
||||
|
||||
---
|
||||
|
||||
## 跨章注意事项
|
||||
|
||||
### 骨干模型跨章差异
|
||||
不同章节因对应不同时期发表的论文,使用了不同代际的骨干模型:
|
||||
- Ch3 (HyCAM): Llama 2/3/3.1, Mistral, Qwen 2.5 (0.5B–14B)
|
||||
- Ch4 (RoSA): Qwen2.5-7B, Llama3.1-8B, Gemma2-9B
|
||||
- Ch5 (DyPAM): LLaMA 3.2-3B, Qwen3-8B, Gemma3-4B
|
||||
- Ch6 (CASCADE/MESSA): Qwen3-4B, LLaMA 3.2-3B, Gemma3-4B
|
||||
|
||||
建议在 Ch4 或 Ch5 实验设置中简要说明骨干模型选择的差异原因。
|
||||
|
||||
### 待补充的 bib 条目
|
||||
| 引用键 | 论文 |
|
||||
|--------|------|
|
||||
| `devlin2019bert` | Devlin et al., BERT, NAACL 2019 |
|
||||
| `rahaman2019spectral` | Rahaman et al., On the Spectral Bias of Neural Networks, ICML 2019 |
|
||||
| `godey2024anisotropy` | Godey et al., Anisotropy Is Inherent to Self-Attention, EACL 2024 |
|
||||
| `caruana1997multitask` | Caruana, Multitask Learning, ML 1997 |
|
||||
| `liu2019darts` | Liu et al., DARTS, ICLR 2019 |
|
||||
| `frankle2019lottery` | Frankle & Carlin, Lottery Ticket Hypothesis, ICLR 2019 |
|
||||
| `wu2021autoformer` | Wu et al., Autoformer, NeurIPS 2021 |
|
||||
| `zhou2022fedformer` | Zhou et al., FEDformer, ICML 2022 |
|
||||
|
||||
### 待完成的辅助文件
|
||||
| 文件 | 状态 | 说明 |
|
||||
|------|------|------|
|
||||
| `0.1_abs&keyw.tex` | 未写 | 摘要仍为模板占位文字,留到最后 |
|
||||
| `0.0_title.tex` | 待定 | 毕业/提交/答辩日期为 `\highlight{}`,学科方向待确认 |
|
||||
| `tech_route.pdf` | 待绘制 | Ch1 已有占位 caption 描述绘图规格 |
|
||||
| `fm_paradigm.pdf` | 待绘制 | Ch1 基础模型范式示意图 |
|
||||
| `chap07.tex` | 格式修正 | `\chapter*` 应改为 `\chapter`,`\section*` 改为 `\section` |
|
||||
Reference in New Issue
Block a user