1.fix all table size;2.fix some table max/2nd-max mark error;3.add fig & table caption mark;4.add some ref bibs
This commit is contained in:
32
chap02.tex
32
chap02.tex
@@ -1,4 +1,4 @@
|
||||
% !TeX root = ../main.tex
|
||||
% !TeX root = main.tex
|
||||
% 第二章 大语言模型表征适配的相关理论与研究进展
|
||||
\chapter{大语言模型表征适配的相关理论与研究进展}
|
||||
\label{chap:related_work}
|
||||
@@ -48,7 +48,7 @@ Transformer 架构通过引入自注意力机制,实现了对序列内部全
|
||||
\centering
|
||||
% 占位:待替换为外部绘制的 2_transformer_block.pdf
|
||||
% \includegraphics[width=0.75\textwidth]{assets/2_transformer_block.pdf}
|
||||
\caption{基于Pre-LN结构的Transformer解码器块示意图。该图展示单个Transformer层的完整计算流程:
|
||||
\caption[基于Pre-LN结构的Transformer解码器块示意图]{基于Pre-LN结构的Transformer解码器块示意图。该图展示单个Transformer层的完整计算流程:
|
||||
输入隐藏状态$\mathbf{H}^{(\ell-1)}$首先经LayerNorm归一化,进入多头自注意力(MHSA)模块,其中Query/Key经RoPE旋转后计算带因果掩码的缩放点积注意力,Value不经旋转直接参与加权聚合;MHSA输出经残差连接后再经LayerNorm,进入采用SwiGLU结构的前馈网络(FFN)模块,最终经残差连接输出$\mathbf{H}^{(\ell)}$。
|
||||
图中应标注以下结构异质性关注点:(1)MHSA与FFN之间的功能分工(上下文路由 vs 知识存储)标注为$\mathcal{R}_{mod}$;(2)MHSA内部不同维度对的RoPE频率差异标注为$\mathcal{R}_{dim}$;(3)权重矩阵$\mathbf{W}$上的参数更新结构标注为$\mathcal{R}_{spec}$/$\mathcal{R}_{param}$。}
|
||||
\label{fig:ch2_transformer_block}
|
||||
@@ -83,7 +83,7 @@ RoPE 最显著的特性在于其呈现出一种频率分解结构(frequency de
|
||||
\centering
|
||||
% 占位:待替换为外部绘制的 2_rope_frequency.pdf
|
||||
% \includegraphics[width=0.85\textwidth]{assets/2_rope_frequency.pdf}
|
||||
\caption{RoPE旋转位置编码的频率分解结构示意图。该图分为三个子图:
|
||||
\caption[RoPE旋转位置编码的频率分解结构示意图]{RoPE旋转位置编码的频率分解结构示意图。该图分为三个子图:
|
||||
\textbf{(a)维度对旋转频率}:横轴为维度对索引$i$,纵轴为旋转频率$\theta_i = \omega^{-2i/d_h}$(对数刻度),展示频率随维度索引几何递减的趋势,标注低索引=高频(局部位置敏感)与高索引=低频(全局依赖)两个区域。
|
||||
\textbf{(b)位置响应衰减曲线}:横轴为相对位置距离$|t_1 - t_2|$,纵轴为注意力得分贡献,绘制3--4条代表性维度对的衰减曲线(高频对快速衰减、低频对缓慢衰减),直观展示不同维度对的多尺度位置感知特性。
|
||||
\textbf{(c)维度对旋转示意}:选取一个高频维度对和一个低频维度对,在复平面上展示位置$t$从$0$到$T$时向量旋转轨迹的差异——高频对旋转多圈、低频对仅旋转小角度。}
|
||||
@@ -94,7 +94,7 @@ RoPE 最显著的特性在于其呈现出一种频率分解结构(frequency de
|
||||
\subsection{预训练范式与大语言模型的表示能力}
|
||||
\label{subsec:rw_pretrain_paradigm}
|
||||
|
||||
现代大语言模型遵循"海量预训练—任务适配/对齐"的基本范式。通过在包含数万亿词元的大规模语料上进行自回归下一词预测训练,模型在统一的参数体系中构建具有较强表达能力的通用表示空间。BERT 通过掩码语言建模构建双向语境表示\cite{devlin2019bert};% 注:需补充到ref.bib: devlin2019bert (Devlin et al., BERT, NAACL 2019)
|
||||
现代大语言模型遵循"海量预训练—任务适配/对齐"的基本范式。通过在包含数万亿词元的大规模语料上进行自回归下一词预测训练,模型在统一的参数体系中构建具有较强表达能力的通用表示空间。BERT 通过掩码语言建模构建双向语境表示\cite{devlin2018bert};% 注:需补充到ref.bib: devlin2019bert (Devlin et al., BERT, NAACL 2019)
|
||||
GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-context learning 能力\cite{brown2020language}。随着模型规模的持续扩展,以 LLaMA\cite{touvron2023llama}、Qwen\cite{bai2023qwen} 和 Gemma\cite{gemma_2025} 为代表的开源大语言模型在语言理解、知识表达、多步推理与代码生成方面展现出显著能力。
|
||||
|
||||
大规模预训练使模型在表示空间中形成了高度抽象的通用知识结构,各层中间表示不仅捕获了浅层的词法与句法信息,还蕴含了深层的语义共现、常识推理乃至高阶逻辑关系\cite{bommasani2021opportunities}。然而,预训练能力强并不意味着可以直接替代任务适配:预训练目标与下游任务目标并不完全一致,面向特定领域、特定格式或特定推理模式的能力往往需要通过监督信号或偏好信号进行再组织;更重要的是,当模型规模达到百亿级别时,全参数微调不仅面临极高的计算与存储开销,还极易破坏预训练阶段积累的通用知识结构,导致灾难性遗忘(catastrophic forgetting)与表征退化。
|
||||
@@ -107,12 +107,12 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
|
||||
|
||||
越来越多的研究表明,Transformer 并非功能均匀的整体,其内部不同组件在信息处理中承担着差异化的角色。这些发现构成了理解模型结构异质性的重要基础。
|
||||
|
||||
\textbf{模块间的功能分化。}Geva 等人的开创性工作将前馈网络的两层线性映射解构为键值记忆结构:第一层权重(keys)负责识别输入残差流中的局部概念模式,第二层权重(values)则负责提取并注入与该模式相关的特征\cite{geva2021transformer}。Dong 等人从注意力与前馈网络的协同角度出发,揭示了二者在上下文信息路由与知识存储方面的互补关系\cite{dong2025attention}。Bogoychev 等人的参数冻结与消融实验进一步证实,冻结不同网络结构单元(嵌入层、注意力层或 FFN 层)会对模型性能造成完全不同程度的影响,从侧面说明"并非所有参数对任务贡献均等"\cite{}。% 注:需补充到ref.bib: bogoychev2021not (Bogoychev, Not All Parameters Are Born Equal: Attention Is Mostly What You Need, BlackboxNLP 2021)
|
||||
\textbf{模块间的功能分化。}Geva 等人的开创性工作将前馈网络的两层线性映射解构为键值记忆结构:第一层权重(keys)负责识别输入残差流中的局部概念模式,第二层权重(values)则负责提取并注入与该模式相关的特征\cite{geva2021transformer}。Dong 等人从注意力与前馈网络的协同角度出发,揭示了二者在上下文信息路由与知识存储方面的互补关系\cite{dong2025attention}。Bogoychev 等人的参数冻结与消融实验进一步证实,冻结不同网络结构单元(嵌入层、注意力层或 FFN 层)会对模型性能造成完全不同程度的影响,从侧面说明"并非所有参数对任务贡献均等"\cite{bogoychev2021not}。% 注:需补充到ref.bib: bogoychev2021not (Bogoychev, Not All Parameters Are Born Equal: Attention Is Mostly What You Need, BlackboxNLP 2021)
|
||||
这些发现表明,自注意力模块主要承担上下文关系的动态组织与信息路由功能,而前馈网络更多承担参数化知识表达与非线性映射功能。
|
||||
|
||||
\textbf{层间的角色梯度。}Belinkov 等人通过探针(probing)实验表明,浅层表示更多编码词汇与句法层面的局部信息,深层表示则更多反映语义与推理层面的全局关系,呈现出类似传统 NLP 流水线的层级进展\cite{belinkov2018evaluating}。这种层级功能梯度意味着不同深度的层对参数更新的需求强度与方式可能存在系统性差异——浅层可能更多需要局部模式的校准,深层可能更多需要语义关系的重组。
|
||||
|
||||
\textbf{头间的功能差异。}在多头注意力层面,Voita 等人发现不同注意力头在功能上存在明确分工,包括位置敏感头、语法关系头与稀有词汇头等不同类型\cite{voita2019bottom};Michel 等人的剪枝实验进一步表明,大量注意力头在推理阶段可被移除而不显著影响模型性能,暗示头之间存在功能冗余与角色差异\cite{michel2019sixteen}。在更深入的机制可解释性(mechanistic interpretability)研究中,Olsson 等人识别出与 in-context learning 能力增长密切相关的 induction heads,表明部分注意力头可被归纳为具有明确算法功能的"电路"(circuits)组件\cite{}。% 注:需补充到ref.bib: olsson2022context (Olsson et al., In-context Learning and Induction Heads, Anthropic 2022)
|
||||
\textbf{头间的功能差异。}在多头注意力层面,Voita 等人发现不同注意力头在功能上存在明确分工,包括位置敏感头、语法关系头与稀有词汇头等不同类型\cite{voita2019bottom};Michel 等人的剪枝实验进一步表明,大量注意力头在推理阶段可被移除而不显著影响模型性能,暗示头之间存在功能冗余与角色差异\cite{michel2019sixteen}。在更深入的机制可解释性(mechanistic interpretability)研究中,Olsson 等人识别出与 in-context learning 能力增长密切相关的 induction heads,表明部分注意力头可被归纳为具有明确算法功能的"电路"(circuits)组件\cite{olsson2022context}。% 注:需补充到ref.bib: olsson2022context (Olsson et al., In-context Learning and Induction Heads, Anthropic 2022)
|
||||
这些发现强化了"模型内部存在可分解子结构与角色分工"的认识。
|
||||
|
||||
\textbf{维度间的非均匀分布。}Jin 等人发现的"极端激活值"(Massive Activations)现象表明,少数特定维度在模型前向计算中产生远超其他维度的激活幅值,且这些维度承担着上下文信息编码的关键功能\cite{jin2025massive}。这些极端激活并非简单的数值异常,而是与注意力集中、量化稳定性乃至预测行为存在因果关联。结合第~\ref{subsec:rw_rope}~节所述 RoPE 位置编码引入的频率结构,模型表示在维度空间中呈现出系统性的结构分化。
|
||||
@@ -140,7 +140,7 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
|
||||
\end{equation}
|
||||
其中 $\mathbf{A}$ 采用随机高斯初始化,$\mathbf{B}$ 采用零初始化以保证训练起始时不改变预训练行为。在推理阶段,低秩增量可以直接被重新参数化合并回原始权重矩阵,不引入任何额外推理延迟。
|
||||
|
||||
在 LoRA 基础上,后续工作沿多个方向展开改进。在参数化与训练特性改进方面,DoRA 将权重更新进一步分解为方向(direction)与幅度(magnitude)两个分量,分别进行优化,以更好地模拟全参数微调的学习行为\cite{liu2024dora}。在预算分配方面,AdaLoRA 引入基于奇异值分解的重要性评估机制,在训练过程中动态分配各权重矩阵的秩,使模型自动为重要层级分配更高秩预算\cite{zhang2023adalora}。在参数规模进一步压缩方面,VeRA 通过在不同模块间共享冻结的随机矩阵,仅学习逐层的缩放向量,将微调参数量压缩至极致\cite{kopiczko2023vera};QLoRA 则通过4-bit量化底座权重并在其上训练 LoRA,使大模型在更低显存条件下可被高质量微调\cite{}。% 注:需补充到ref.bib: dettmers2023qlora (Dettmers et al., QLoRA, NeurIPS 2023)
|
||||
在 LoRA 基础上,后续工作沿多个方向展开改进。在参数化与训练特性改进方面,DoRA 将权重更新进一步分解为方向(direction)与幅度(magnitude)两个分量,分别进行优化,以更好地模拟全参数微调的学习行为\cite{liu2024dora}。在预算分配方面,AdaLoRA 引入基于奇异值分解的重要性评估机制,在训练过程中动态分配各权重矩阵的秩,使模型自动为重要层级分配更高秩预算\cite{zhang2023adalora}。在参数规模进一步压缩方面,VeRA 通过在不同模块间共享冻结的随机矩阵,仅学习逐层的缩放向量,将微调参数量压缩至极致\cite{kopiczko2023vera};QLoRA 则通过4-bit量化底座权重并在其上训练 LoRA,使大模型在更低显存条件下可被高质量微调\cite{dettmers2023qlora}。% 注:需补充到ref.bib: dettmers2023qlora (Dettmers et al., QLoRA, NeurIPS 2023)
|
||||
|
||||
低秩适配方法在参数效率方面表现优异,已成为当前最广泛使用的 PEFT 技术路径。然而,其标准实践通常在所有目标层的投影矩阵上施加相同秩约束,隐含假设模型不同层与不同模块在适配中的角色近似。即使 AdaLoRA 开始引入预算再分配,其建模对象也主要是矩阵重要性,而非更一般的结构角色异质性。因此,低秩适配在成本控制上极具优势,却仍保留了相对均匀的适配假设。
|
||||
|
||||
@@ -150,7 +150,7 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
|
||||
|
||||
附加式方法通过在模型内部插入轻量结构引入任务信息,而不修改原有权重。Adapter 在 Transformer 层间插入小型瓶颈网络,通过降维—非线性激活—升维结构实现表示调整\cite{houlsby2019parameter}。这种设计有效地阻断了误差梯度向预训练底座的传导,在多任务环境中按任务维护独立参数块。Compacter 进一步采用超复数乘法实现跨层参数共享,在降低参数量的同时保持表达能力\cite{karimi2021compacter}。
|
||||
|
||||
提示类方法则通过在输入或中间表示层引入额外可学习信号,引导模型调用已有知识结构。前缀微调(Prefix-tuning)在每层注意力计算的 Key 和 Value 前追加可学习的连续向量,使其充当"虚拟历史上下文",从而隐式地调制模型对后续序列的注意力分布\cite{li2021prefix};提示微调(Prompt-tuning)在嵌入层面引入可训练软提示向量\cite{lester2021power};P-Tuning v2 将可学习提示扩展到多层并系统改进优化策略,使提示类方法在更广泛的模型规模与任务类型上接近全参数微调效果\cite{}。% 注:需补充到ref.bib: liu2022ptuningv2 (Liu et al., P-Tuning v2, ACL 2022)
|
||||
提示类方法则通过在输入或中间表示层引入额外可学习信号,引导模型调用已有知识结构。前缀微调(Prefix-tuning)在每层注意力计算的 Key 和 Value 前追加可学习的连续向量,使其充当"虚拟历史上下文",从而隐式地调制模型对后续序列的注意力分布\cite{li2021prefix};提示微调(Prompt-tuning)在嵌入层面引入可训练软提示向量\cite{lester2021power};P-Tuning v2 将可学习提示扩展到多层并系统改进优化策略,使提示类方法在更广泛的模型规模与任务类型上接近全参数微调效果\cite{liu2022p}。% 注:需补充到ref.bib: liu2022ptuningv2 (Liu et al., P-Tuning v2, ACL 2022)
|
||||
|
||||
此外,激活调制类方法提供了另一种视角。(IA)$^3$ 通过训练少量缩放向量对注意力与 FFN 内部的关键激活进行抑制或放大,以极低参数量实现多任务适配\cite{liu2022few}。这类方法在形式上已更接近"对表示流进行乘性调制"的思想,为后续结构角色驱动的调制式框架提供了研究线索。
|
||||
|
||||
@@ -178,7 +178,7 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
|
||||
\centering
|
||||
% 占位:待替换为外部绘制的 2_peft_taxonomy.pdf
|
||||
% \includegraphics[width=0.88\textwidth]{assets/2_peft_taxonomy.pdf}
|
||||
\caption{参数高效适配方法的谱系结构与本文方法定位。该图采用树形或层级分类布局:
|
||||
\caption[参数高效适配方法的谱系结构与本文方法定位]{参数高效适配方法的谱系结构与本文方法定位。该图采用树形或层级分类布局:
|
||||
\textbf{第一层}按适配对象分为三大类——"参数更新结构"(低秩、稀疏)、"附加模块"(Adapter、前缀/提示)、"表示调制"(激活缩放、门控调制)。
|
||||
\textbf{第二层}在每个大类下列出代表性方法:低秩类(LoRA、DoRA、AdaLoRA)、稀疏类(BitFit、SHiRA、运动剪枝)、附加类(Adapter、Prefix-Tuning、Prompt Tuning)、调制类((IA)$^3$)。
|
||||
\textbf{第三层}用虚线框或高亮标注本文五个方法(HyCAM、RoSA、DyPAM、CASCADE、MESSA)的定位,并用箭头标注其相对于现有方法的创新方向——从"均匀适配"指向"结构感知适配"。
|
||||
@@ -188,7 +188,7 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
|
||||
|
||||
\begin{table}[htbp]
|
||||
\centering
|
||||
\caption{现有参数高效适配方法的谱系比较与后续章节衔接}
|
||||
\caption[现有参数高效适配方法的谱系比较与后续章节衔接]{现有参数高效适配方法的谱系比较与后续章节衔接}
|
||||
\label{tab:ch2_method_comparison}
|
||||
\renewcommand{\arraystretch}{1.15}
|
||||
\small
|
||||
@@ -225,7 +225,7 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
|
||||
多任务学习通过在统一模型中同时优化多个相关目标,利用任务间的知识共享提升整体建模性能\cite{caruana1997multitask}。% 注:需补充到ref.bib: caruana1997multitask (Caruana, Multitask Learning, Machine Learning 1997)
|
||||
然而,多任务学习面临的核心困难在于梯度冲突与负迁移:不同任务的梯度在共享参数空间中可能指向相互对立的方向,导致优化过程中一个任务的改进以另一个任务的退化为代价,形成所谓的"跷跷板"(seesaw)现象。
|
||||
|
||||
针对梯度冲突问题,文献中涌现了一系列梯度干预方法。PCGrad 在检测到两个任务梯度向量夹角大于 $90^\circ$ 时,将冲突梯度投影到对方法平面上以消除破坏性分量\cite{yu2020gradient};CAGrad 将多任务冲突消解转化为带约束的极小极大优化问题,在邻域搜索空间内寻找使所有任务平均损失严格下降的更新方向\cite{liu2021conflict};GradNorm 通过动态调节各任务损失权重以平衡梯度幅度与训练速度\cite{}。% 注:需补充到ref.bib: chen2018gradnorm (Chen et al., GradNorm, ICML 2018)
|
||||
针对梯度冲突问题,文献中涌现了一系列梯度干预方法。PCGrad 在检测到两个任务梯度向量夹角大于 $90^\circ$ 时,将冲突梯度投影到对方法平面上以消除破坏性分量\cite{yu2020gradient};CAGrad 将多任务冲突消解转化为带约束的极小极大优化问题,在邻域搜索空间内寻找使所有任务平均损失严格下降的更新方向\cite{liu2021conflict};GradNorm 通过动态调节各任务损失权重以平衡梯度幅度与训练速度\cite{chen2018gradnorm}。% 注:需补充到ref.bib: chen2018gradnorm (Chen et al., GradNorm, ICML 2018)
|
||||
这些方法从优化层面缓解了任务间冲突,但并未从模型架构层面解决"哪些模块应当共享、哪些应当专用"的问题。
|
||||
|
||||
从模型内部结构来看,不同任务在模型中的激活模式往往存在系统性差异。注意力模块更多承担跨位置的上下文关联建模,而前馈网络更多负责知识表达与非线性映射\cite{standley2020tasks}。这种模块级的功能分工在均匀的参数共享策略下难以被有效利用,容易导致负迁移与知识干扰。因此,多任务场景的关键矛盾并非简单的"共享越多越好"或"隔离越多越好",而是在共享知识与任务特化之间需要结构层面的平衡机制。
|
||||
@@ -271,7 +271,7 @@ MoE 架构揭示了"动态路由"与"模块功能分化"在应对输入异质性
|
||||
|
||||
基于 Transformer 的大语言模型普遍存在表示各向异性(anisotropy)现象——隐藏层的激活值分布呈现显著的非均匀性,少数维度占据压倒性的方差比例\cite{jin2025massive}。进一步研究表明,这种各向异性并非训练偶发伪影,而是自注意力机制的内生特性\cite{godey2024anisotropy}。% 注:需补充到ref.bib: godey2024anisotropy (Godey et al., Anisotropy Is Inherent to Self-Attention, EACL 2024)
|
||||
|
||||
RoPE 的频率结构为表示空间引入了额外的维度级异质性。由于不同维度对被赋予不同频率的旋转角度,系统中的低频(高索引)维度承担着跨越较大序列跨度的长程语义获取功能——这些维度旋转周期长、角度变化缓慢,在深层网络中往往产生更密集且幅值更高的激活;而高频(低索引)维度由于剧烈旋转,更敏感于局部近距离的词元交互\cite{su2024roformer,barbero2024round}。有研究通过干预实验发现,在推理阶段屏蔽部分极高频维度特征对模型困惑度几乎无负面影响,甚至在长序列外推上有所提升;但一旦破坏关键低频维度,则直接引发性能崩溃\cite{}。% 注:需补充到ref.bib: gu2025unpacking (Gu et al., Unpacking Positional Encoding in Transformers: A Spectral Perspective, arXiv 2025)
|
||||
RoPE 的频率结构为表示空间引入了额外的维度级异质性。由于不同维度对被赋予不同频率的旋转角度,系统中的低频(高索引)维度承担着跨越较大序列跨度的长程语义获取功能——这些维度旋转周期长、角度变化缓慢,在深层网络中往往产生更密集且幅值更高的激活;而高频(低索引)维度由于剧烈旋转,更敏感于局部近距离的词元交互\cite{su2024roformer,barbero2024round}。有研究通过干预实验发现,在推理阶段屏蔽部分极高频维度特征对模型困惑度几乎无负面影响,甚至在长序列外推上有所提升;但一旦破坏关键低频维度,则直接引发性能崩溃\cite{gu2025unpacking}。% 注:需补充到ref.bib: gu2025unpacking (Gu et al., Unpacking Positional Encoding in Transformers: A Spectral Perspective, arXiv 2025)
|
||||
这一不对称性有力地说明不同维度对在功能上的重要性存在质的差异。
|
||||
|
||||
值得注意的是,这种维度级异质性在 Query/Key 表示中表现显著,而在 Value 表示中则弱得多——这与 RoPE 仅对 Query 和 Key 施加位置旋转的设计一致。同时,不同注意力头和不同层在激活分布上也呈现出差异化模式\cite{voita2019bottom},且激活模式还表现出对输入内容的依赖性:同一频率的特征维度在面对不同类型指令、不同领域分布或不同语义角色的输入时,其激活波峰与频率响应会产生显著波动。
|
||||
@@ -297,13 +297,13 @@ RoPE 的频率结构为表示空间引入了额外的维度级异质性。由于
|
||||
|
||||
当模型需要在多个异构任务间分配有限的可训练参数时,如何在容量约束下实现高效适配,本质上转化为一个结构学习问题。
|
||||
|
||||
在更广泛的神经网络结构学习文献中,神经架构搜索(NAS)提供了自动化的结构设计路径。DARTS 通过将离散的架构选择松弛为连续优化问题,实现了可微分的架构搜索\cite{liu2019darts},% 注:需补充到ref.bib: liu2019darts (Liu et al., DARTS, ICLR 2019)
|
||||
在更广泛的神经网络结构学习文献中,神经架构搜索(NAS)提供了自动化的结构设计路径。DARTS 通过将离散的架构选择松弛为连续优化问题,实现了可微分的架构搜索\cite{liu2018darts},% 注:需补充到ref.bib: liu2019darts (Liu et al., DARTS, ICLR 2019)
|
||||
其核心思想——将离散结构决策转化为连续松弛后通过梯度优化求解——对后续参数高效适配中的结构学习具有方法论启示。
|
||||
|
||||
在模型压缩方面,彩票假说(Lottery Ticket Hypothesis)指出,在密集网络中存在稀疏子网络能够达到甚至超越完整网络的性能\cite{frankle2019lottery}。% 注:需补充到ref.bib: frankle2019lottery (Frankle & Carlin, Lottery Ticket Hypothesis, ICLR 2019)
|
||||
在模型压缩方面,彩票假说(Lottery Ticket Hypothesis)指出,在密集网络中存在稀疏子网络能够达到甚至超越完整网络的性能\cite{frankle2019stabilizing}。% 注:需补充到ref.bib: frankle2019lottery (Frankle & Carlin, Lottery Ticket Hypothesis, ICLR 2019)
|
||||
这一发现表明模型参数空间中存在结构化的功能分布,有效容量可能集中在某些子结构上。在大语言模型场景下,运动剪枝通过训练过程中的参数重要性评估实现结构化稀疏\cite{sanh2020movement},SHiRA 则表明高秩稀疏更新在相同预算下可获得强于低秩稠密更新的表达能力\cite{shiracite}。
|
||||
|
||||
从更一般的视角看,参数高效适配本身也是一种"预算约束下的结构化容量分配"。AdaLoRA 通过在层/矩阵间非均匀分配低秩预算,已将"容量分配"显式化\cite{zhang2023adalora};LISA 通过层重要性采样与大量层冻结,在不增加额外模块的前提下实现"跨层容量重分布"\cite{pan2024lisa}。在多任务共享方面,任务向量(task vectors)与任务算术(task arithmetic)提出在权重空间用"微调差分向量"表征任务能力,并通过向量加减实现能力组合与编辑,为"共享—特有"的参数分解提供了另一类视角\cite{}。% 注:需补充到ref.bib: ilharco2023editing (Ilharco et al., Editing Models with Task Arithmetic, ICLR 2023)
|
||||
从更一般的视角看,参数高效适配本身也是一种"预算约束下的结构化容量分配"。AdaLoRA 通过在层/矩阵间非均匀分配低秩预算,已将"容量分配"显式化\cite{zhang2023adalora};LISA 通过层重要性采样与大量层冻结,在不增加额外模块的前提下实现"跨层容量重分布"\cite{pan2024lisa}。在多任务共享方面,任务向量(task vectors)与任务算术(task arithmetic)提出在权重空间用"微调差分向量"表征任务能力,并通过向量加减实现能力组合与编辑,为"共享—特有"的参数分解提供了另一类视角\cite{ilharco2022editing}。% 注:需补充到ref.bib: ilharco2023editing (Ilharco et al., Editing Models with Task Arithmetic, ICLR 2023)
|
||||
|
||||
然而,当问题推进到多任务条件下,复杂度进一步提升。此时不仅要回答"哪些参数值得更新",还要回答"哪些更新应由所有任务共享,哪些应保留为任务特有"。现有方法多依赖预先设定的共享规则或简单的任务标识路由,缺乏能够在统一预算约束下同时学习共享结构与特有结构的系统化机制。如何将结构发现从"给定结构下的参数学习"提升为"结构与参数的联合优化",仍是当前多任务适配研究中的开放问题。
|
||||
|
||||
@@ -311,7 +311,7 @@ RoPE 的频率结构为表示空间引入了额外的维度级异质性。由于
|
||||
\centering
|
||||
% 占位:待替换为外部绘制的 2_heterogeneity_levels.pdf
|
||||
% \includegraphics[width=0.9\textwidth]{assets/2_heterogeneity_levels.pdf}
|
||||
\caption{大语言模型内部多层级结构异质性的表现与适配对应关系。该图采用左右两栏布局:
|
||||
\caption[大语言模型内部多层级结构异质性的表现与适配对应关系]{大语言模型内部多层级结构异质性的表现与适配对应关系。该图采用左右两栏布局:
|
||||
\textbf{左栏}(结构异质性层级)自上而下展示四个层级的异质性现象,每层配一个小型示意:
|
||||
(1)模块级($\mathcal{R}_{mod}$):MHSA与FFN功能分工示意(上下文路由 vs 知识存储),用不同色块标注;
|
||||
(2)维度级($\mathcal{R}_{dim}$):RoPE不同维度对的激活强度热图(高频维度弱激活、低频维度强激活);
|
||||
|
||||
Reference in New Issue
Block a user