Files
Graduate/deepresearch/think_result.md
2026-03-20 22:40:13 +08:00

166 lines
26 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
下面给你一版可直接作为第二章初稿展开的综述文本。我按你确定的章节结构来写,写法尽量靠近博士论文综述章:不是简单堆文献,而是围绕“**大语言模型内部存在结构异质性,因此需要结构感知适配**”这条主线来组织。文中引用尽量选原始论文、会议主页或 ACL/NeurIPS/OpenReview 等一手来源。([arXiv][1])
---
# 第二章 大语言模型表征适配的相关理论与研究进展
## 2.1 大语言模型架构基础与表示机制
### 2.1.1 Transformer 架构与核心计算流程
Transformer 由多层堆叠的自注意力子层与前馈网络子层构成,并通过残差连接与层归一化维持深层训练的稳定性。其基本思想是在序列维度上以注意力机制建立 token 间的全局依赖关系再通过位置独立的前馈映射实现非线性特征变换。自《Attention Is All You Need》提出以来这一结构已经成为现代基础模型的统一骨架而 GPT 系列、LLaMA 系列等大语言模型进一步采用 decoder-only 形式,仅保留因果掩码自注意力与逐层残差传播路径,使模型能够在自回归预测中逐步累积上下文信息。([arXiv][1])
从计算流程看,输入 token 经过嵌入映射后进入各层残差流,在每一层中先后接受注意力更新与前馈更新。注意力子层侧重于跨 token 的上下文聚合,前馈网络则对每个位置的表示进行通道混合与特征重构;残差连接使得不同层的增量更新能够被线性叠加,而层归一化则调节各层输入输出的统计尺度。近期关于 decoder-only Transformer 的技术综述与结构分析也普遍强调,残差流并不是单纯的“中转通道”,而是承载跨层信息累积与功能叠加的核心载体。([arXiv][2])
就本文的研究对象而言这一架构至少给出两点直接启示其一下游适配的对象并非单一参数集合而是由注意力、前馈、残差与归一化等不同功能组件共同构成的层级系统其二表示在层间传播的过程本身已经蕴含功能分工的可能性。因此Transformer 的表示形成过程不是均匀同质的,而是由多个结构单元协同完成,这为后续从模块、维度与参数空间分析适配问题提供了基础。([arXiv][1])
### 2.1.2 旋转位置编码与位置信息建模
由于自注意力本身对序列顺序不敏感,位置编码机制成为 Transformer 建模序列结构的必要组成。早期方法以绝对位置嵌入或可学习位置向量为主随后逐步发展出相对位置偏置、线性偏置与旋转位置编码等形式。其中RoPE 将位置信息表示为对 query/key 向量二维子空间的旋转变换,使得内积计算同时携带绝对位置与相对位置信息,因此兼具实现简洁与相对位置建模能力。([arXiv][3])
从数学形式上看RoPE 将隐藏维划分为若干二维维度对并以不同角频率对这些维度对施加旋转。由此不同维度对实际对应不同尺度的相位变化速度低频分量更偏向长程、平滑的位置关系高频分量更敏感于局部相对位移。相较之下ALiBi 通过在线性注意力分数上施加与距离成比例的偏置来实现长度外推,不直接修改表示向量;可学习绝对位置嵌入则更依赖训练长度范围内的位置索引,通常在外推性上不如相对位置方法。([arXiv][3])
近年的进一步分析也开始从谱视角理解位置编码,指出 RoPE 的内容—位置耦合实质上对应一种相位调制或谱约束过程这使其不仅是“给序列加位置”而是在表示空间中塑造了具有频率结构的几何变换。对本文而言这一点尤其重要RoPE 的频率分解特性意味着位置信息在不同维度对上的编码方式天然不均匀,后续对维度级位置结构异质性的建模并非外加设定,而是来源于位置机制本身的内在结构。([arXiv][4])
### 2.1.3 预训练范式与大语言模型的表示能力
现代大语言模型通常遵循“海量预训练—任务适配/对齐”的基本范式。GPT-3 展示了随着模型规模扩展而出现的强 few-shot 与 in-context learning 能力LLaMA、Llama 2、Llama 3 与 Qwen2.5/Qwen3 等开源模型则进一步表明在高质量数据、长周期预训练和后训练优化的支持下decoder-only Transformer 已能在语言理解、推理、代码、工具使用与多语言任务上形成较强的通用表征基础。([arXiv][5])
但预训练能力强并不意味着可以直接替代任务适配。其原因至少包括三点首先预训练目标与下游任务目标并不完全一致通用表示未必能自动转化为最优任务决策边界其次面向特定领域、特定格式或特定推理模式的能力往往需要通过监督信号或偏好信号进行再组织最后随着模型规模上升完全重训或全参数微调的计算、存储与部署成本迅速上升使“在冻结大部分参数前提下调用已有知识”成为现实上更可行的路径。LoRA 等方法正是在这一背景下迅速成为主流。([arXiv][6])
因此,预训练模型提供的是强大的通用表示底座,而不是自动完成任务特化的终点。真正决定这些预训练能力能否被有效调用并转化为任务性能的,仍然是适配机制如何作用于模型内部表示与参数结构。这个判断构成了本文研究表征适配问题的现实基础。([arXiv][5])
### 2.1.4 模型内部的功能分化与结构异质性
越来越多的研究表明Transformer 内部并不是一个“均匀黑箱”。在模块层面,前馈网络被证明可视为一种键值记忆结构,能够存储与检索特定模式相关的语义或事实信息;而注意力头则更多承担跨位置的信息选择、复制、对齐与路由功能。围绕 induction heads、attention circuits 与 residual stream 的机制解释进一步显示,不同子模块在推理链路中的因果角色并不相同。([ACL Anthology][7])
在层级与头级层面已有工作发现大量注意力头具有明显的功能专化现象一部分头在句法、指代或特定位置模式上高度敏感而另一部分头即使被剪除也不会显著影响性能这说明“头的重要性”与“头的角色类型”在层间并不均匀分布。Voita 等和 Michel 等的经典工作都指出,少量专化头承担了主要作用,其余头存在相当程度的冗余。([ACL Anthology][8])
在维度层面表示各向异性、异常维度与极端激活现象也不断被报告。相关研究指出Transformer 的上下文化表示天然倾向于形成非均匀的方向分布与此同时LLM.int8、Massive Activations 与后续关于系统性 outliers 的工作则进一步揭示,少数特征维度或少数 token 位置会持续呈现异常大的激活值,并对注意力分布、量化稳定性乃至预测行为产生实质影响。([arXiv][9])
综合这些证据,可以得到一个对本文十分关键的结论:大语言模型内部普遍存在模块级、层级、头级与维度级的多层级结构异质性。既然模型自身并非均匀结构,那么下游适配也不宜默认所有结构位置具有近似一致的更新价值,而应考虑不同结构角色的差异化作用。这正是本文第一章统一分析框架在第二章中的经验依据。([ACL Anthology][7])
## 2.2 参数高效微调方法
### 2.2.1 低秩适配方法
参数高效微调的核心目标是在尽量冻结预训练参数的前提下以少量新增或重参数化参数完成任务适配。其中影响最广的一条技术路线是低秩适配。LoRA 通过将权重增量表示为两个低秩矩阵的乘积,把原本高维更新约束在一个低维子空间中,从而显著减少训练参数与优化器状态开销,同时避免适配器类方法带来的额外推理时延。([arXiv][6])
在 LoRA 之后研究者主要围绕“低秩空间如何更合理地构造”展开改进。AdaLoRA 引入重要性驱动的预算分配不再为所有权重矩阵平均分配秩DoRA 通过将权重分解为方向与幅值两个部分试图在保持参数效率的同时更接近全参数微调的学习模式VeRA 则进一步将低秩更新中的大矩阵随机冻结,仅保留向量级参数学习,以降低多任务或多用户场景下的适配存储成本。([arXiv][10])
低秩方法已经成为大语言模型适配的事实标准,但其共同特征也较为明显:它们主要关注如何在统一的线性子空间中高效表达更新,而较少显式建模不同模块、不同维度、不同结构位置之间的功能差异。即使像 AdaLoRA 已经开始引入预算再分配,其建模对象也主要仍是矩阵重要性,而不是更一般的结构角色异质性。因此,低秩适配在成本控制上极具优势,却仍保留了相对均匀的适配假设。([arXiv][6])
### 2.2.2 附加式与提示类适配方法
除低秩方法外PEFT 的另一条主流路线是附加式模块与提示类方法。典型代表是 Houlsby Adapter它在 Transformer 子层之间插入小型瓶颈模块,只训练这些新增模块而冻结主干参数。这类方法的优势在于结构清晰、任务隔离性好,适合多任务环境中按任务维护独立参数块。([arXiv][11])
提示类方法则从输入条件化角度实现适配。Prefix-Tuning 通过在每层引入可训练前缀键值向量,让下游 token 像“读取虚拟上下文”一样接收任务信息Prompt Tuning 直接优化输入侧软提示P-Tuning v2 则将深层提示扩展到多层,并系统改进优化策略,使得提示方法在更广泛的模型规模与任务类型上接近全参数微调。([arXiv][12])
这一路线说明,参数高效适配并不一定要求直接更新原权重,也可以通过附加侧路或输入条件改变内部表示演化轨迹。不过,无论是 adapter 的统一插入位置,还是 prompt/prefix 的统一提示空间,本质上仍更多依赖人为选定的“共通接口”,而较少深入刻画模型内部哪些模块、哪些维度、哪些位置结构真正更值得被调制。因此,这些方法虽拓展了 PEFT 的实现形式,但对内部结构差异的显式建模仍较弱。([arXiv][11])
### 2.2.3 选择式与稀疏微调方法
随着研究推进PEFT 开始从“如何少量新增参数”进一步转向“哪些原有参数值得更新”。BitFit 是这一趋势的代表性早期工作它仅更新偏置项说明预训练模型中一小部分参数就可能足以显著重组下游行为。随后movement pruning 将稀疏化过程直接嵌入微调,利用权重变化趋势而非静态幅值来决定剪枝方向,为“微调即选择”提供了更直接的优化视角。([arXiv][13])
近期工作进一步将选择思想推向更大模型与更细结构。LISA 根据层间权重范数与更新重要性的偏斜分布,对不同层实施重要性采样与随机冻结,表明在 LLM 微调中并非所有层都需要持续参与更新SHiRA 则直接训练极少比例的原模型权重形成高度稀疏、可快速切换的适配器结构SpIEL 等方法则试图把稀疏微调扩展到 LLaMA 级别模型,并在预算约束下动态维护活跃参数集。([arXiv][14])
这些方法已经明显触及“参数选择”与“容量分配”问题,但总体上看,它们多数仍将选择依据建立在局部重要性、梯度变化或层级统计之上,对更高层次的结构角色、跨任务共享关系以及全局预算如何在共享与专用子空间间联合分配,尚缺乏统一刻画。这也为后续参数级结构分解方法提供了切入点。([arXiv][14])
### 2.2.4 现有方法的均匀适配假设与局限
总体来看,现有 PEFT 方法虽然在实现机制上各不相同但大多仍默认一种相对均匀的适配假设。低秩方法通常将大多数目标矩阵置于同类低秩更新框架中adapter 和 prompt 类方法通常在统一位置插入相似结构;稀疏微调方法虽然开始做选择,但往往聚焦于参数或层的重要性评分,而不是更广义的结构异质性分析。相关综述与统一视角工作也指出,现有参数高效迁移方法虽可被归纳到重参数化、附加模块与选择更新等几类,但对“模型内部为什么应该差异化适配”这一问题讨论仍不足。([arXiv][15])
这种均匀假设至少带来三类局限。第一,它弱化了注意力、前馈与不同层级之间的功能差异,容易把结构角色不同的模块放入同一更新模板。第二,它对位置编码相关的维度异质性利用不足,难以针对 RoPE 这类具有显式频率结构的位置机制做更细粒度建模。第三,它对参数更新的多尺度组织形式与多任务预算分配问题刻画不足,难以解释为什么在相同参数预算下,不同更新位置与不同子空间会产生显著不同的收益。([ACL Anthology][7])
因此,现有参数高效微调方法的一个核心瓶颈,并不只是“参数不够少”或“性能不够高”,而是它们普遍建立在相对均匀的适配假设之上,尚未充分利用模型内部在模块、维度与参数空间层面的结构异质性。本文后续各章正是在这一断点上展开。([arXiv][15])
## 2.3 多任务学习与模块级功能适配
### 2.3.1 多任务学习与梯度冲突问题
多任务学习的基本目标是在共享参数或共享表示的前提下同时优化多个任务目标以利用跨任务共性并降低总体成本。然而大量研究指出多任务训练并不天然带来增益任务间常常同时存在共享与冲突当不同任务的梯度方向相互矛盾时联合优化会引入负迁移导致某些任务性能下降或整体收敛不稳定。PCGrad 通过对冲突梯度做投影修正CAGrad 则将最坏任务改进纳入正则化目标,都是围绕这一问题提出的代表方法。([OpenReview][16])
这一研究谱系的重要启示是:多任务场景中的关键矛盾并非简单的“共享越多越好”或“隔离越多越好”,而是在共享知识与任务特化之间寻求平衡。对 LLM 适配而言,这意味着统一的单一适配器或统一的低秩子空间往往难以同时容纳多个任务所需的差异化更新模式,尤其当任务集合在推理方式、知识依赖或输出形式上差异较大时更是如此。([OpenReview][16])
因此,多任务学习的经验并不只是提供一个应用背景,而是直接说明:任务间既存在共享规律,也存在显著差异,单纯依赖统一优化与统一适配往往难以兼顾知识共享与任务特化。这正是后续模块级功能适配需要引入共享—专用协同机制的理论前提。([OpenReview][16])
### 2.3.2 混合专家模型与动态路由机制
Mixture-of-Experts 提供了另一条重要思路,即通过稀疏激活与动态路由实现“按输入调用不同参数子集”。从早期 Sparsely-Gated MoE 到 Switch Transformer再到 DeepSeekMoE研究持续表明在总参数规模极大的前提下仅激活少量专家即可实现较高计算效率并通过路由器将不同输入分配给更适合的专家子网络。([OpenReview][17])
对于适配问题而言MoE 的核心价值不只是在“把模型做大”,而在于它提供了**输入依赖的知识调用**机制。也就是说,同一个主干模型可以根据样本内容、任务需求或上下文状态,选择不同专家承担不同计算角色。不过,现有 MoE 工作的重点通常放在专家扩容、负载均衡、训练稳定性和路由效率上,较少进一步追问:这些被选择的专家是否与 Transformer 内部既有模块的功能分化存在系统对应关系。([arXiv][18])
因此,动态路由机制已经为输入条件化适配提供了成熟工具,但其与“模块角色差异”的结合仍然不充分。后续若能把路由思想与注意力模块、前馈模块或特定层级的功能角色直接关联起来,就有可能把传统“专家选择”推进到“结构角色驱动的适配选择”。([arXiv][18])
### 2.3.3 多任务参数高效适配方法
在 PEFT 与多任务学习交叉方向上近期已出现多类共享—专用或专家化设计。LoRAMoE 将多个 LoRA 适配器与路由网络结合以减轻指令微调中的知识遗忘MoELoRA 将 LoRA 视作低秩专家并引入对比学习鼓励专家分化MTLoRA 和 MTL-LoRA 则分别引入 task-agnostic / task-specific 低秩模块或附加任务自适应参数,试图在参数效率下处理多任务之间的共享与差异。([arXiv][19])
这些方法说明,多任务 PEFT 已经不再满足于“为每个任务单独挂一个 LoRA”而是开始显式建模任务共享知识、任务特有知识以及不同任务之间的交互机制。从研究趋势看参数高效适配已经逐步从单任务静态插入走向多任务、可组合、可路由的结构设计。([arXiv][20])
但现有方法的主要建模粒度仍停留在任务级或专家级:它们通常为任务分配 LoRA、为样本选择专家却较少进一步区分“这些适配应当优先作用于哪些模块、哪些层、哪些表示流节点”。换言之多任务 PEFT 已经意识到共享与专用的重要性,但尚未系统结合 Transformer 内部不同模块的功能角色差异开展建模,这正是模块级结构感知方法仍然必要的原因。([arXiv][20])
## 2.4 结构异质性感知与多层级适配方法
### 2.4.1 位置编码结构与维度级表示异质性
围绕 RoPE 的后续研究已经逐步表明位置建模并不是在所有维度上均匀发生的。RoPE 通过不同角频率对不同维度对施加旋转,这意味着位置关系会以多频率、多尺度形式嵌入表示空间;而后续从谱视角对 RoPE 的分析也显示,位置—内容耦合本身会诱导特定频率成分的收缩与重分配。([arXiv][3])
与此同时更一般的表示分析也发现了显著的维度异质性。各向异性研究指出自注意力天然易形成方向分布不均的上下文化表示outlier 与 massive activation 相关工作进一步说明,少数维度会长期承担异常大的激活,且这种现象与注意力集中、量化误差及特定 token 行为存在因果关联。结合注意力头专化现象可以看出,位置结构的非均匀性并不仅体现在维度对层面,也会进一步投射到头级乃至输入依赖的激活模式之上。([arXiv][9])
因此,现有研究实际上已经给出两条非常清晰的线索:一条是静态的、由位置编码机制本身诱导的维度级频率不均匀性;另一条是动态的、受具体输入与上下文条件影响的头级/维度级激活差异。但在现有 PEFT 中,这些结构特征大多仍停留在分析层面,尚未被系统转化为参数高效适配机制。对本文而言,这正对应第四章的静态粗粒度位置结构感知适配与第五章的动态细粒度位置调制两条路线。([arXiv][3])
### 2.4.2 多尺度频谱分析与频域适配方法
除表示空间外频谱视角也正在进入参数更新建模。其基本思想是权重增量可以在频域中进行更紧凑或更结构化的表达低频分量通常对应更平滑、更全局的更新模式高频分量则更适合刻画局部、尖锐或细粒度修正。FourierFT 是这一方向的代表性工作,它直接在离散傅里叶域学习稀疏谱系数,以少量频域参数表达空间域中的权重更新。([arXiv][21])
在 FourierFT 之后DCT 和小波等更具能量压缩或局部多尺度特性的变换也开始被引入。LoCA 基于 iDCT 建模频域适配并允许对更有信息量的频率位置进行选择Selective DCT Fine-Tuning 同样强调 DCT 在能量集中特性上的优势;近期 WaveFT 等工作则进一步尝试利用小波域同时编码全局与局部结构。整体而言,这些方法已经初步说明:与单纯低秩近似相比,频域表示为参数更新提供了另一种更具多尺度解释性的压缩方式。([arXiv][22])
不过,现有频域适配方法多数仍采用单一频域结构假设:要么把更新视为统一稀疏谱系数集合,要么只在某一变换域内选择少量位置学习。对于不同频段之间的依赖关系、不同尺度成分是否应采用异构参数化、以及从粗到细的级联更新关系,现有研究仍未系统展开。这正为面向多尺度频谱结构的参数级适配留下了空间。([arXiv][21])
### 2.4.3 参数容量分配与结构学习
参数空间的另一个重要方向是容量分配,即在给定预算约束下决定“哪些参数结构值得保留、哪些结构应被剪除或稀疏化”。这一问题在更广泛的模型压缩与结构学习文献中已有长期积累。彩票假说指出,过参数化网络中存在稀疏但可训练的“中奖彩票”子网络;神经网络剪枝与结构化剪枝研究则进一步表明,模型容量并非必须均匀分布在所有连接、通道或头上。([arXiv][23])
在 Transformer 相关研究中,这一结论同样成立。注意力头剪枝研究显示,大量头在功能上并非同等重要;而结构化 pruning 与基于 NAS 的剪枝方法则开始把“预算—性能”权衡转化为显式搜索或优化问题。针对参数高效迁移场景,也已有工作尝试在预算约束下学习更优的 PET 架构,说明“适配器本身的结构”同样可以被设计而不是固定。([arXiv][24])
但如果把问题推进到多任务条件下,复杂度会进一步提升。此时不仅要回答“哪些参数值得更新”,还要回答“哪些更新应由所有任务共享,哪些更新应保留为任务特有”。现有多任务 LoRA 或多适配器方法已经开始讨论 shared/private 结构,但在统一预算约束下如何做联合分配、如何避免共享与特有容量相互挤占、以及如何形成可解释的结构分解,仍缺乏系统方法框架。对本文而言,这正是参数级容量分配研究需要解决的核心问题。([arXiv][25])
## 2.5 本章小结
本章围绕大语言模型表征适配问题,综述了 Transformer 架构与位置建模机制、预训练与迁移范式、参数高效微调方法、多任务适配研究,以及与结构异质性相关的维度级和参数级研究进展。整体来看,相关文献已经从多个角度表明:现代大语言模型并不是均匀同质的参数集合,而是由具有不同功能角色的模块、维度与参数子空间共同组成的层级系统。([arXiv][1])
现有研究一方面证明了参数高效微调的现实必要性与技术可行性,另一方面也暴露出主流方法在结构敏感性上的不足:它们大多仍以相对均匀的更新假设为前提,未能充分利用模型内部的模块功能差异、维度级位置结构差异以及参数空间中的多尺度与容量分配规律。正因如此,将适配问题从“如何少量更新参数”推进为“如何依据结构角色进行差异化调制”,就成为本文后续研究的核心任务。([arXiv][15])
基于上述分析,下一章将首先从模块级结构异质性出发,讨论多任务条件下 Transformer 不同功能模块的适配角色差异,并在此基础上展开面向模块级表示空间调制的方法设计。([ACL Anthology][7])
---
如果你要,我下一步可以继续把这版直接改成**博士论文 LaTeX 正文格式**,包括 `\section``\subsection`、参考文献占位和更正式的段落衔接。
[1]: https://arxiv.org/abs/1706.03762?utm_source=chatgpt.com "[1706.03762] Attention Is All You Need"
[2]: https://arxiv.org/html/2411.00246v2?utm_source=chatgpt.com "ResiDual Transformer Alignment with Spectral ..."
[3]: https://arxiv.org/abs/2104.09864?utm_source=chatgpt.com "RoFormer: Enhanced Transformer with Rotary Position Embedding"
[4]: https://arxiv.org/html/2505.13027v1?utm_source=chatgpt.com "Unpacking Positional Encoding in Transformers: A Spectral ..."
[5]: https://arxiv.org/abs/2005.14165?utm_source=chatgpt.com "[2005.14165] Language Models are Few-Shot Learners"
[6]: https://arxiv.org/abs/2106.09685?utm_source=chatgpt.com "LoRA: Low-Rank Adaptation of Large Language Models"
[7]: https://aclanthology.org/2021.emnlp-main.446/?utm_source=chatgpt.com "Transformer Feed-Forward Layers Are Key-Value Memories"
[8]: https://aclanthology.org/P19-1580.pdf?utm_source=chatgpt.com "Analyzing Multi-Head Self-Attention"
[9]: https://arxiv.org/html/2401.12143v2?utm_source=chatgpt.com "Anisotropy Is Inherent to Self-Attention in Transformers"
[10]: https://arxiv.org/abs/2303.10512?utm_source=chatgpt.com "AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning"
[11]: https://arxiv.org/abs/1902.00751?utm_source=chatgpt.com "Parameter-Efficient Transfer Learning for NLP"
[12]: https://arxiv.org/abs/2101.00190?utm_source=chatgpt.com "Prefix-Tuning: Optimizing Continuous Prompts for Generation"
[13]: https://arxiv.org/abs/2106.10199?utm_source=chatgpt.com "BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models"
[14]: https://arxiv.org/abs/2403.17919?utm_source=chatgpt.com "LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning"
[15]: https://arxiv.org/pdf/2403.14608?utm_source=chatgpt.com "Parameter-Efficient Fine-Tuning for Large Models"
[16]: https://openreview.net/pdf/78aa2ffcfff2647e283ab11388b26ea883f44bd5.pdf?utm_source=chatgpt.com "GRADIENT SURGERY FOR MULTI-TASK LEARNING"
[17]: https://openreview.net/forum?id=B1ckMDqlg&utm_source=chatgpt.com "Outrageously Large Neural Networks: The Sparsely-Gated..."
[18]: https://arxiv.org/abs/2101.03961?utm_source=chatgpt.com "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity"
[19]: https://arxiv.org/abs/2312.09979?utm_source=chatgpt.com "LoRAMoE: Alleviate World Knowledge Forgetting in Large ..."
[20]: https://arxiv.org/abs/2402.12851?utm_source=chatgpt.com "MoELoRA: Contrastive Learning Guided Mixture of Experts on Parameter-Efficient Fine-Tuning for Large Language Models"
[21]: https://arxiv.org/pdf/2405.03003?utm_source=chatgpt.com "Parameter-Efficient Fine-Tuning with Discrete Fourier ..."
[22]: https://arxiv.org/abs/2502.06820?utm_source=chatgpt.com "LoCA: Location-Aware Cosine Adaptation for Parameter-Efficient Fine-Tuning"
[23]: https://arxiv.org/abs/1803.03635?utm_source=chatgpt.com "The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks"
[24]: https://arxiv.org/abs/1905.10650?utm_source=chatgpt.com "Are Sixteen Heads Really Better than One?"
[25]: https://arxiv.org/abs/2403.20320?utm_source=chatgpt.com "MTLoRA: A Low-Rank Adaptation Approach for Efficient Multi-Task Learning"