This commit is contained in:
panda361
2026-03-23 15:43:13 +08:00
parent 21707be041
commit de3d1598b0

View File

@@ -223,7 +223,7 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
\label{subsec:rw_multitask_gradient}
多任务学习通过在统一模型中同时优化多个相关目标,利用任务间的知识共享提升整体建模性能\cite{caruana1997multitask}% 注需补充到ref.bib: caruana1997multitask (Caruana, Multitask Learning, Machine Learning 1997)
然而,多任务学习面临的核心困难在于梯度冲突与负迁移:不同任务的梯度在共享参数空间中可能指向相互对立的方向,导致优化过程中一个任务的改进以另一个任务的退化为代价,形成所谓的"跷跷板"seesaw现象。
然而,多任务学习面临的核心困难在于梯度冲突与负迁移:不同任务的梯度在共享参数空间中可能指向相互对立的方向,导致优化过程中一个任务的改进以另一个任务的退化为代价,形成所谓的"跷跷板"现象。
针对梯度冲突问题文献中涌现了一系列梯度干预方法。PCGrad 在检测到两个任务梯度向量夹角大于 $90^\circ$ 时,将冲突梯度投影到对方法平面上以消除破坏性分量\cite{yu2020gradient}CAGrad 将多任务冲突消解转化为带约束的极小极大优化问题,在邻域搜索空间内寻找使所有任务平均损失严格下降的更新方向\cite{liu2021conflict}GradNorm 通过动态调节各任务损失权重以平衡梯度幅度与训练速度\cite{chen2018gradnorm}% 注需补充到ref.bib: chen2018gradnorm (Chen et al., GradNorm, ICML 2018)
这些方法从优化层面缓解了任务间冲突,但并未从模型架构层面解决"哪些模块应当共享、哪些应当专用"的问题。