From de3d1598b046d56215a5bab886d5bc60d3594a22 Mon Sep 17 00:00:00 2001 From: panda361 <35888512+panda361@users.noreply.github.com> Date: Mon, 23 Mar 2026 15:43:13 +0800 Subject: [PATCH] Fix abbr --- chap02.tex | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/chap02.tex b/chap02.tex index 5e32543..f2a0370 100644 --- a/chap02.tex +++ b/chap02.tex @@ -223,7 +223,7 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co \label{subsec:rw_multitask_gradient} 多任务学习通过在统一模型中同时优化多个相关目标,利用任务间的知识共享提升整体建模性能\cite{caruana1997multitask}。% 注:需补充到ref.bib: caruana1997multitask (Caruana, Multitask Learning, Machine Learning 1997) -然而,多任务学习面临的核心困难在于梯度冲突与负迁移:不同任务的梯度在共享参数空间中可能指向相互对立的方向,导致优化过程中一个任务的改进以另一个任务的退化为代价,形成所谓的"跷跷板"(seesaw)现象。 +然而,多任务学习面临的核心困难在于梯度冲突与负迁移:不同任务的梯度在共享参数空间中可能指向相互对立的方向,导致优化过程中一个任务的改进以另一个任务的退化为代价,形成所谓的"跷跷板"现象。 针对梯度冲突问题,文献中涌现了一系列梯度干预方法。PCGrad 在检测到两个任务梯度向量夹角大于 $90^\circ$ 时,将冲突梯度投影到对方法平面上以消除破坏性分量\cite{yu2020gradient};CAGrad 将多任务冲突消解转化为带约束的极小极大优化问题,在邻域搜索空间内寻找使所有任务平均损失严格下降的更新方向\cite{liu2021conflict};GradNorm 通过动态调节各任务损失权重以平衡梯度幅度与训练速度\cite{chen2018gradnorm}。% 注:需补充到ref.bib: chen2018gradnorm (Chen et al., GradNorm, ICML 2018) 这些方法从优化层面缓解了任务间冲突,但并未从模型架构层面解决"哪些模块应当共享、哪些应当专用"的问题。