Fix abbr

2026-03-23 15:43:13 +08:00
parent 21707be041
commit de3d1598b0
1 changed files with 1 additions and 1 deletions
--- a/chap02.tex
+++ b/chap02.tex
@@ -223,7 +223,7 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
 \label{subsec:rw_multitask_gradient}

 多任务学习通过在统一模型中同时优化多个相关目标，利用任务间的知识共享提升整体建模性能\cite{caruana1997multitask}。% 注：需补充到ref.bib: caruana1997multitask (Caruana, Multitask Learning, Machine Learning 1997)
-然而，多任务学习面临的核心困难在于梯度冲突与负迁移：不同任务的梯度在共享参数空间中可能指向相互对立的方向，导致优化过程中一个任务的改进以另一个任务的退化为代价，形成所谓的"跷跷板"（seesaw）现象。
+然而，多任务学习面临的核心困难在于梯度冲突与负迁移：不同任务的梯度在共享参数空间中可能指向相互对立的方向，导致优化过程中一个任务的改进以另一个任务的退化为代价，形成所谓的"跷跷板"现象。

 针对梯度冲突问题，文献中涌现了一系列梯度干预方法。PCGrad 在检测到两个任务梯度向量夹角大于 $90^\circ$ 时，将冲突梯度投影到对方法平面上以消除破坏性分量\cite{yu2020gradient}；CAGrad 将多任务冲突消解转化为带约束的极小极大优化问题，在邻域搜索空间内寻找使所有任务平均损失严格下降的更新方向\cite{liu2021conflict}；GradNorm 通过动态调节各任务损失权重以平衡梯度幅度与训练速度\cite{chen2018gradnorm}。% 注：需补充到ref.bib: chen2018gradnorm (Chen et al., GradNorm, ICML 2018)
 这些方法从优化层面缓解了任务间冲突，但并未从模型架构层面解决"哪些模块应当共享、哪些应当专用"的问题。