Files
Graduate/chap06.tex
2026-03-23 22:07:08 +08:00

720 lines
59 KiB
TeX
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
% !TeX root = main.tex
% 第六章 多尺度频谱感知与参数自适应的表征适配方法
\chapter{基于多尺度频谱结构与容量分配的参数空间适配方法}
\label{chap:cascade_messa}
\section{本章概述}
\label{sec:ch6_overview}
前三章分别从模块级功能异质性($\mathcal{R}_{mod}$,第三章)和维度级位置结构异质性($\mathcal{R}_{dim}$,第四、五章)出发,提出了基于乘性调制的结构感知适配方法。这些方法的共同特点是在\emph{表示空间}中对中间表示流进行调制。本章将视角从表示空间转向\emph{参数空间},关注模型权重更新本身的结构特性。参数空间中的结构化更新会进一步影响表示形成过程,因此这里讨论的是表征适配在参数更新层面的实现路径。
在将大语言模型适配到下游任务时,参数空间的结构异质性表现为两个互补的层面:
\textbf{第一,频谱级多尺度异质性($\mathcal{R}_{spec}$}。下游任务的适配需求同时涉及不同尺度的参数调整。从参数更新的频谱视角来看,模型适配同样涉及全局性的平滑调整(低频成分)和局部性的精细修正(高频成分)。实证分析表明,权重更新的高频成分在频谱能量上占主导地位,但影响范围局限于少数参数区域;而低频成分虽然能量较小,却影响权重矩阵的大部分区域。这种能量-影响力失配揭示了从粗到细的适配模式——低频成分建立全局适配结构高频成分在此基础上进行局部精修。现有PEFT方法通常采用单一结构假设如纯低秩或纯频域难以同时捕获这种异构的多尺度适配模式。
\textbf{第二,参数级容量分配异质性($\mathcal{R}_{param}$}。面向多任务联合适配场景中,不同任务对模型参数容量的需求并不均匀。常识推理、数学推理、代码生成等任务可以共享部分适配参数(如通用的知识表达与上下文组织),但也需要各自的专用参数支持任务特异性的精细化调整。如何在有限参数预算下,在共享与专用之间实现最优容量分配,构成参数级的结构异质性挑战。
针对上述两类异质性,本章提出两种方法:
\textbf{1基于频谱级联的多尺度参数适配方法CASCADE}。CASCADE通过异构频域/空域专家DCT低频专家、小波高频专家、空域残差专家建模权重更新的多尺度结构并引入级联频谱调制机制建立低频到高频的从粗到细依赖关系辅以频谱复杂度感知路由实现自适应专家组合。CASCADE对应统一框架中的组合式调制形式式~\ref{eq:ch1_compositional})。
\textbf{2基于共享-特有稀疏分解的多任务适配方法MESSA}。MESSA将任务适配分解为全局共享稀疏增量与任务特有稀疏增量通过预算感知的软门控机制实现可微分的结构分配最终通过一次性全局剪枝生成可部署的稀疏模型。MESSA对应统一框架中的结构分解调制形式式~\ref{eq:ch1_structural})。
本章后续安排如下:第~\ref{sec:ch6_background}~节分析参数空间的结构异质性问题;第~\ref{sec:cascade}~节详述CASCADE方法第~\ref{sec:messa}~节详述MESSA方法第~\ref{sec:ch6_analysis}~节分析两种视角的关联与互补性;第~\ref{sec:ch6_experiments}~节给出实验验证;第~\ref{sec:ch6_summary}~节总结全章。
\section{参数空间的结构异质性分析}
\label{sec:ch6_background}
\subsection{权重更新的频谱特性}
\label{subsec:ch6_spectral}
在标准PEFT框架下\cite{han2024parameter},给定预训练权重矩阵$\mathbf{W}_0 \in \mathbb{R}^{m \times n}$,适配操作引入加性权重更新$\Delta \mathbf{W}$,使得适配后的变换为$\mathbf{y} = (\mathbf{W}_0 + \Delta \mathbf{W}) \mathbf{x}$。不同PEFT方法通过对$\Delta \mathbf{W}$施加不同的结构约束来降低适配代价\cite{hu2021lora,gao2024parameter,hu2025waveletft}
从频域视角来看,$\Delta \mathbf{W}$可以被视为定义在参数索引上的二维信号。通过施加适当的线性变换(如傅里叶变换、小波变换),可以将权重更新分解为与不同空间频率关联的成分。低频成分对应平滑、缓变的模式,跨越权重矩阵的大片区域;高频成分捕获集中于特定参数区域的快速变化。
\begin{figure}[htp]
\centering
\includegraphics[width=0.9\linewidth]{assets/6_spectral_analysis.pdf}
\caption[全量微调下权重更新的频谱特性]{全量微调下权重更新的频谱特性。高频成分在频谱能量上占主导,但影响范围局限于少量参数;低频成分能量较小但影响权重矩阵的大部分区域。该模式在不同层和模块间保持一致。}
\label{fig:ch6_spectral}
\end{figure}
对全量微调下权重更新的频谱分析揭示了一个重要发现:高频成分在频谱能量上占主导地位,但其影响范围往往局限于参数空间的有限子集;相反,低频成分虽然频谱能量较小,却影响着权重矩阵的大部分区域。这种能量-影响力失配具有明确的物理含义:大空间覆盖范围与低频谱能量对应着分布在大量参数上的平滑一致性变化,代表全局性结构适配;高频谱能量集中于有限参数子集则对应稀疏的局部化修正。
这一发现揭示了权重更新的\emph{从粗到细}适配模式:低频成分建立全局适配结构,高频成分在此基础上进行特定区域的精细修正。有效的适配需要同时建模这种异构频率成分及其依赖关系。
\subsection{多任务适配中的参数容量分配问题}
\label{subsec:ch6_capacity}
\begin{figure}[htp]
\centering
\includegraphics[width=0.9\linewidth]{assets/6_task_activation.png}
\caption[多任务微调中不同任务在注意力模块各层的激活差异]{多任务微调中不同任务在注意力模块各层的激活差异。红色表示任务A激活更强蓝色表示任务B激活更强揭示了不同层和模块对共享/专用适配的差异化需求。}
\label{fig:ch6_task_diff}
\end{figure}
在实际应用中,单一预训练模型通常需要同时服务多个下游任务。在严格的存储和推理效率约束下,如何在多个任务之间分配有限的适配参数预算,成为关键问题。
实证分析表明,不同任务在模型内部表现出显著的激活差异。某些层和模块的激活模式在任务间高度一致,适合共享适配参数;而另一些层和模块则表现出强烈的任务依赖性,需要专用参数支持。这种观察促使我们将多任务稀疏微调形式化为一个\emph{结构分配问题}
形式上,考虑$T$个下游任务$\{\mathcal{T}_t\}_{t=1}^T$。每个任务$t$的适配通过稀疏更新$\Delta^{(t)}$实现,分解为共享成分和任务特有成分:
\begin{equation}
\Delta^{(t)} = \Delta_{\text{sh}} + \Delta_{\text{sp}}^{(t)},
\label{eq:ch6_decomp}
\end{equation}
其中$\Delta_{\text{sh}}$为跨任务共享的稀疏更新,$\Delta_{\text{sp}}^{(t)}$为任务$t$的特有稀疏更新。所有任务的适配需满足统一的全局参数预算约束$B$
现有方法在面对此问题时存在两个根本局限1\textbf{任务共享挑战}——要么强制全部共享无法捕获任务差异要么完全独立参数冗余2\textbf{资源分配挑战}——缺乏全局分配机制,共享与专用参数无法在统一预算下联合竞争。
\subsection{对适配方法的启示}
上述分析为适配方法的设计提供了以下启示:
\textbf{1需要异构的参数化策略。}单一的结构假设(如纯低秩或纯频域)无法同时捕获全局平滑调整和局部精细修正。有效的方法应当为不同类型的更新模式提供各自适合的参数化方式。
\textbf{2需要跨频率的协调机制。}全局更新和局部更新并非独立,局部修正应当受全局结构的指导。需要显式建模这种从粗到细的依赖关系。
\textbf{3需要共享-专用的灵活分解。}多任务适配应当允许部分参数在任务间共享,同时保留足够的专用参数容量,且分配应当是数据驱动的而非人为预设的。
\textbf{4需要全局预算约束下的联合优化。}共享和专用参数应当在统一预算框架下竞争分配,避免孤立分配导致的次优解。
CASCADE和MESSA分别回应了上述启示的前两点和后两点。
\section{基于频谱级联的多尺度参数适配方法}
\label{sec:cascade}
基于上节对权重更新频谱特性的分析本节提出基于频谱级联的多尺度参数适配方法Coarse-to-Fine Spectral Cascading, CASCADE。CASCADE的核心思想是通过异构频域/空域专家分别建模不同尺度的适配模式,并通过级联调制建立从粗到细的跨频率依赖关系。
\begin{figure}[htp]
\centering
\includegraphics[width=0.85\linewidth]{assets/6_cascade_arch.pdf}
\caption[CASCADE方法框架图]{CASCADE方法框架图。CASCADE通过异构的频域和空域专家适配冻结的骨干模块借助级联调制协调全局与局部更新并通过频谱复杂度感知路由实现自适应专家组合。}
\label{fig:ch6_cascade_arch}
\end{figure}
\subsection{框架概述}
\label{subsec:cascade_overview}
如图~\ref{fig:ch6_cascade_arch}所示CASCADE采用异构混合专家架构在冻结的预训练骨干上引入三个互补的专家i基于离散余弦变换DCT的低频专家捕获全局平滑更新ii基于小波细节子带的高频专家建模局部精细修正iii空域残差专家处理频域难以表示的更新模式。
CASCADE进一步引入级联频谱调制机制使低频更新条件化地指导高频修正的生成建立显式的从粗到细依赖关系。同时频谱复杂度感知路由模块基于输入特征动态组合不同专家的输出。
在统一分析框架下CASCADE的适配操作形式化为
\begin{equation}
\mathbf{y} = \mathbf{W}_0 \mathbf{x} + \sum_{e=1}^{E} w_e(\mathbf{x}) \cdot \Delta \mathbf{W}_e \mathbf{x},
\label{eq:ch6_cascade_formulation}
\end{equation}
其中$w_e(\mathbf{x})$为输入依赖的路由权重,$\Delta \mathbf{W}_e$为第$e$个专家产生的结构化权重更新。三个专家分别在不同域中对$\Delta \mathbf{W}$施加互补的结构约束。
\subsection{异构频域专家设计}
\label{subsec:cascade_experts}
\subsubsection{基于DCT的低频专家}
低频专家旨在捕获跨越权重矩阵大片区域的全局平滑更新模式。这类模式通常源于语义对齐或全局推理行为的调整。
为引入全局平滑先验该专家在离散余弦变换DCT域中参数化更新\cite{gao2024parameter,shen2024parameter}。设$\mathbf{S}_{\text{dct}} \in \mathbb{R}^{m \times n}$为DCT域系数矩阵。通过限制学习只在预定义的低频索引集$\mathcal{I}_{\text{dct}}$上进行:
\begin{equation}
\mathbf{S}_{\text{dct}}[i,j] =
\begin{cases}
s_k, & (i,j) \in \mathcal{I}_{\text{dct}}, \\
0, & \text{otherwise},
\end{cases}
\label{eq:ch6_dct_sparse}
\end{equation}
其中$\{s_k\}_{k=1}^{K_{\text{dct}}}$为与固定低频位置关联的可训练参数。索引集$\mathcal{I}_{\text{dct}}$通过选择距零频索引(0,0)曼哈顿距离最小的$K_{\text{dct}}$个位置获得。空域更新通过逆DCT变换重建
\begin{equation}
\Delta \mathbf{W}_{\text{dct}} = \text{IDCT}(\mathbf{S}_{\text{dct}}).
\label{eq:ch6_dct_inverse}
\end{equation}
通过限制学习低频系数,该专家对$\Delta \mathbf{W}_{\text{dct}}$施加全局平滑先验,以紧凑的参数化高效建模大尺度结构调整。
\subsubsection{基于小波的高频专家}
低频专家捕获全局结构,但有效适配同样需要精细化的局部高频修正。为建模此类模式,高频专家在小波域中参数化更新\cite{hu2025waveletft},利用小波变换在空间和频率域上的联合局部化能力。
采用单层二维Haar小波基定义四个子带一个低频近似子带$\mathbf{LL}$)和三个细节子带($\mathbf{LH}$$\mathbf{HL}$$\mathbf{HH}$),分别对应不同方向的高频成分。为聚焦局部修正,丢弃近似成分,仅参数化细节子带。设$\mathcal{B}=\{\text{LH}, \text{HL}, \text{HH}\}$为细节子带集合,对每个$b \in \mathcal{B}$学习稀疏系数矩阵$\mathbf{B}_b$
\begin{equation}
\mathbf{B}_b[i,j] =
\begin{cases}
s^{(b)}_k, & (i,j) \in \mathcal{I}_b, \\
0, & \text{otherwise},
\end{cases}
\label{eq:ch6_wavelet_sparse}
\end{equation}
其中$\mathcal{I}_b$为随机采样一次并在训练中保持不变的固定索引集。空域更新通过逆Haar变换重建
\begin{equation}
\Delta \mathbf{W}_{\text{wav}} = \text{IHaar}(\mathbf{0}, \mathbf{B}_{\text{LH}}, \mathbf{B}_{\text{HL}}, \mathbf{B}_{\text{HH}}).
\label{eq:ch6_wavelet_inverse}
\end{equation}
\subsubsection{空域残差专家}
频域参数化虽然施加了有用的结构先验但可能无法捕获某些不规则的更新模式。CASCADE包含一个轻量空域残差专家直接在原始参数空间中以低秩分解参数化残差更新\cite{hu2021lora}
\begin{equation}
\Delta \mathbf{W}_{\text{spatial}} = \mathbf{B}\mathbf{A},
\label{eq:ch6_spatial_update}
\end{equation}
其中$\mathbf{A} \in \mathbb{R}^{r \times n}$$\mathbf{B} \in \mathbb{R}^{m \times r}$$r$为较小的秩。该专家为频域专家无法充分表达的更新模式提供补偿。
\subsection{级联频谱调制机制}
\label{subsec:cascade_cascading}
上述异构专家分别捕获权重更新的互补方面。然而若将全局更新和局部更新视为独立成分则忽略了它们之间的内在依赖——局部修正在实践中往往受全局结构的指导。为显式建模这种从粗到细的关系CASCADE引入级联频谱调制机制。
具体地将学习到的低频DCT系数展平为固定维度的条件化向量$\mathbf{z}$,该向量概括了全局适配模式,作为条件化网络的输入:
\begin{equation}
(\gamma_b, \beta_b)_{b \in \mathcal{B}} = g(\mathbf{z}),
\label{eq:ch6_film_params}
\end{equation}
其中$g(\cdot)$为轻量多层感知机,输出逐子带的标量调制参数。调制应用于小波细节子带系数:
\begin{equation}
\tilde{\mathbf{B}}_b = (1 + \gamma_b) \mathbf{B}_b + \beta_b, \quad b \in \mathcal{B},
\label{eq:ch6_bandwise_film}
\end{equation}
其中$\gamma_b$$\beta_b$为在子带$b$内所有位置间共享的标量参数。调制仅应用于$\mathcal{I}_b$中的采样系数位置。
该设计建立了显式的从粗到细依赖关系:全局低频结构引导局部修正的生成,确保局部化的精细调整与整体适配方向保持一致。
\subsection{频谱复杂度感知路由}
\label{subsec:cascade_routing}
级联调制定义了不同更新成分之间的耦合方式但这些成分的相对重要性可能因输入而异。CASCADE采用频谱复杂度感知路由机制基于输入特征动态组合专家输出。
给定线性层的输入激活,通过池化获得序列级表示$\bar{\mathbf{x}}$。从该表示中提取两类互补的路由特征:轻量频谱统计特征$\bar{\mathbf{x}}_{\text{spec}}$(刻画输入的变化和振荡程度)和通过可学习线性投影获得的语义特征。两类特征通过线性投影融合:
\begin{equation}
\mathbf{h} = \mathbf{W}_{\text{spec}} \bar{\mathbf{x}}_{\text{spec}} + \mathbf{W}_{\text{sem}} \bar{\mathbf{x}},
\label{eq:ch6_feature_fusion}
\end{equation}
并通过Softmax映射为专家权重
\begin{equation}
\mathbf{w} = \text{softmax}(\mathbf{W}_{\text{out}} \mathbf{h}),
\label{eq:ch6_routing_weights}
\end{equation}
其中$\mathbf{w} \in \mathbb{R}^{E}$为每个专家分配的非负权重。
\subsection{训练目标}
\label{subsec:cascade_training}
CASCADE在冻结骨干的基础上使用下游任务的标准监督目标进行端到端训练。整体训练目标包含任务损失和两个辅助正则化项
\begin{equation}
\mathcal{L} = \mathcal{L}_{\text{task}} + \lambda_{\text{bal}} \mathcal{L}_{\text{bal}} + \lambda_{\text{orth}} \mathcal{L}_{\text{orth}},
\label{eq:ch6_cascade_loss}
\end{equation}
其中$\mathcal{L}_{\text{bal}}$为路由负载均衡正则化,通过约束各专家路由权重的分布均匀性防止退化的路由解:
\begin{equation}
\mathcal{L}_{\text{bal}} = E \sum_{e=1}^{E} \left( \frac{1}{B} \sum_{b=1}^{B} w_e^{(b)} \right)^2,
\label{eq:ch6_load_balance}
\end{equation}
其中$w_e^{(b)}$为专家$e$在第$b$个样本上的路由权重,$B$为批次大小。$\mathcal{L}_{\text{orth}}$为频谱正交性正则化,鼓励频域专家捕获互补的频谱模式:
\begin{equation}
\mathcal{L}_{\text{orth}} = \left| \left\langle \mathrm{vec}(\mathbf{S}_{\text{dct}}), \mathrm{vec}([\mathbf{B}_{\mathrm{LH}}, \mathbf{B}_{\mathrm{HL}}, \mathbf{B}_{\mathrm{HH}}]) \right\rangle \right|.
\label{eq:ch6_orth_loss}
\end{equation}
该项通过最小化DCT系数向量与小波系数向量之间的内积绝对值促使两类频域专家分别聚焦于互补的频谱模式。
CASCADE的主要超参数包括低频DCT系数20K个、小波系数10K个、空域残差专家秩$r=48$、负载均衡和正交性损失权重均为0.01。CASCADE的整体训练流程如算法~\ref{alg:ch6_cascade_2}所示。
%\RestyleAlgo{ruled}
%\begin{algorithm}[htp]
%\caption[CASCADE从粗到细的频谱级联适配算法]{CASCADE从粗到细的频谱级联适配算法}
%\label{alg:ch6_cascade}
%\KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$}
%\KwOut{适配后的输出$\mathbf{y}$}
%计算基础输出 $\mathbf{y}_0 \leftarrow \mathbf{W}_0 \mathbf{x}$\;
%\textbf{低频专家:}\;
%构建稀疏DCT频谱$\mathbf{S}_{\text{dct}}$(式~\ref{eq:ch6_dct_sparse}\;
%重建全局更新$\Delta \mathbf{W}_{\text{dct}}$(式~\ref{eq:ch6_dct_inverse}\;
%\textbf{高频专家:}\;
%构建稀疏小波细节系数$\{\mathbf{B}_b\}_{b\in\mathcal{B}}$(式~\ref{eq:ch6_wavelet_sparse}\;
%计算调制参数$(\gamma_b,\beta_b)_{b\in\mathcal{B}}$(式~\ref{eq:ch6_film_params}\;
%应用频段级FiLM调制$\tilde{\mathbf{B}}_b$(式~\ref{eq:ch6_bandwise_film}\;
%重建局部更新$\Delta \mathbf{W}_{\text{wav}}$(式~\ref{eq:ch6_wavelet_inverse}\;
%\textbf{空域残差专家:}\;
%计算残差更新$\Delta \mathbf{W}_{\text{spatial}}$(式~\ref{eq:ch6_spatial_update}\;
%\textbf{路由与聚合:}\;
%计算专家权重$\mathbf{w}$(式~\ref{eq:ch6_routing_weights}\;
%聚合更新 $\Delta \mathbf{W} \leftarrow \sum_{e=1}^{E} w_e \cdot \Delta \mathbf{W}_e$\;
%\Return{$\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$}
%\end{algorithm}
\RestyleAlgo{ruled}
\begin{algorithm}[htp]
\caption[CASCADE从粗到细的频谱级联适配算法]{CASCADE从粗到细的频谱级联适配算法}
\label{alg:ch6_cascade_2}
\KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$}
\KwOut{适配后的输出$\mathbf{y}$}
计算基础输出 $\mathbf{y}_0 \leftarrow \mathbf{W}_0 \mathbf{x}$\;
\textbf{低频专家:}\;
\Indp
构建稀疏DCT频谱$\mathbf{S}_{\text{dct}}$(式~\ref{eq:ch6_dct_sparse}\;
重建全局更新$\Delta \mathbf{W}_{\text{dct}}$(式~\ref{eq:ch6_dct_inverse}\;
\Indm
\textbf{高频专家:}\;
\Indp
构建稀疏小波细节系数$\{\mathbf{B}_b\}_{b\in\mathcal{B}}$(式~\ref{eq:ch6_wavelet_sparse}\;
计算调制参数$(\gamma_b,\beta_b)_{b\in\mathcal{B}}$(式~\ref{eq:ch6_film_params}\;
应用频段级FiLM调制$\tilde{\mathbf{B}}_b$(式~\ref{eq:ch6_bandwise_film}\;
重建局部更新$\Delta \mathbf{W}_{\text{wav}}$(式~\ref{eq:ch6_wavelet_inverse}\;
\Indm
\textbf{空域残差专家:}\;
\Indp
计算残差更新$\Delta \mathbf{W}_{\text{spatial}}$(式~\ref{eq:ch6_spatial_update}\;
\Indm
\textbf{路由与聚合:}\;
\Indp
计算专家权重$\mathbf{w}$(式~\ref{eq:ch6_routing_weights}\;
聚合更新 $\Delta \mathbf{W} \leftarrow \sum_{e=1}^{E} w_e \cdot \Delta \mathbf{W}_e$\;
\Indm
\textbf{计算适配后的输出 $\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$}\;
\end{algorithm}
\section{基于共享-特有稀疏分解的多任务适配方法}
\label{sec:messa}
CASCADE解决了单一适配中的频谱级多尺度异质性问题。本节进一步关注多任务场景下的参数级容量分配异质性提出MESSAMulti-task Efficient Shared-Specific Sparse Adaptation方法。MESSA的核心思路是将稀疏微调\cite{sanh2020movement,ansell2024scaling}与多任务共享-特有分解相结合,通过可微分的结构学习实现参数容量的最优分配。
\begin{figure}[htp]
\centering
\includegraphics[width=0.85\linewidth]{assets/6_messa_arch.pdf}
\caption[MESSA方法框架图]{MESSA方法框架图。MESSA将适配分解为共享和任务特有的稀疏更新通过预算感知的软门控学习稀疏结构并通过软到硬的训练过程在统一参数预算下生成可部署的稀疏模型。}
\label{fig:ch6_messa_arch}
\end{figure}
\subsection{框架概述}
\label{subsec:messa_overview}
MESSA的核心思想是将多任务稀疏微调形式化为结构分配问题参数组作为决策单元被显式分配为冻结、跨任务共享或任务特有三种状态之一且在统一全局预算约束下进行优化。
如图~\ref{fig:ch6_messa_arch}所示MESSA包含三个关键设计1共享-特有稀疏表示SS-Sparse将每个任务的适配分解为共享和任务特有的稀疏增量2预算感知的软门控机制通过可微分门控变量引导结构分配3软到硬的结构学习策略通过一次性剪枝将学习到的软结构转化为固定的可部署稀疏模型。
在统一分析框架下MESSA的适配操作对应结构分解调制形式式~\ref{eq:ch1_structural}
\begin{equation}
\Delta^{(t)} = \sum_{g \in \mathcal{G}} \left( z^{\text{sh}}_g \cdot \Delta^{\text{sh}}_g + z^{\text{sp}}_{g,t} \cdot \Delta^{\text{sp}}_{g,t} \right),
\label{eq:ch6_messa_gated}
\end{equation}
其中$z^{\text{sh}}_g$$z^{\text{sp}}_{g,t}$分别为共享和任务特有的软门控值,控制参数组$g$在共享与专用方向上的分配。
\subsection{共享-特有稀疏表示}
\label{subsec:messa_ss_sparse}
\subsubsection{多任务共享-特有增量分解}
MESSA将每个任务$t$的适配增量分解为共享成分和任务特有成分(式~\ref{eq:ch6_decomp})。共享增量$\Delta_{\text{sh}}$捕获跨任务的通用知识,任务特有增量$\Delta_{\text{sp}}^{(t)}$建模任务依赖的变化。
该分解的优势在于:第一,允许相关任务复用一组通用的稀疏更新,减少参数冗余;第二,保留足够的灵活性进行任务特有适配,避免强制完全共享的限制。
\subsubsection{行级结构化参数组}
为实现结构化稀疏和高效的容量分配MESSA将稀疏更新组织为参数组。对于权重矩阵$\mathbf{W} \in \mathbb{R}^{d_{\text{out}} \times d_{\text{in}}}$中的线性变换,每个输出行被视为一个独立的参数组。参数组$g$的参数代价为$s_g = d_{\text{in}}$
行级分组在灵活性和结构化之间取得良好平衡相比逐元素稀疏性显著减少了结构决策数量相比更粗粒度的层级分组允许更精细的容量分配。在Transformer模型中行级参数组自然对应输出神经元和注意力投影适合作为选择性适配的基本单位。
\subsubsection{组级软门控}
为实现可微分的结构分配MESSA为每个参数组关联可学习的软门控。对于参数组$g$,引入共享门控$z^{\text{sh}}_g \in (0,1)$和任务特有门控$z^{\text{sp}}_{g,t} \in (0,1)$,分别调制共享和任务特有成分的贡献。
软门控作为离散结构决策的连续代理,允许梯度优化同时作用于参数值和结构分配变量。训练期间,参数组可以同时参与共享和任务特有更新,允许模型探索不同程度的跨任务共享。
\subsubsection{共享-特有重叠正则化}
为防止共享和任务特有成分的过度同时激活导致冗余适配和不清晰的结构分离MESSA引入重叠正则化
\begin{equation}
\mathcal{L}_{\text{overlap}} = \sum_{t=1}^T \sum_{g \in \mathcal{G}} z^{\text{sh}}_g \cdot z^{\text{sp}}_{g,t},
\label{eq:ch6_overlap}
\end{equation}
鼓励每个参数组倾向于被分配给共享\emph{}任务特有适配之一。
\subsection{预算感知的软到硬结构学习}
\label{subsec:messa_soft_to_hard}
\subsubsection{预热阶段}
训练初期稀疏适配参数和结构门控尚不具备信息量。为避免不稳定的分配决策MESSA引入预热阶段冻结门控变量仅优化候选池内的稀疏适配参数
\begin{equation}
\mathcal{L}_{\text{warmup}} = \mathcal{L}_{\text{task}}.
\label{eq:ch6_warmup}
\end{equation}
\subsubsection{预算感知的软学习}
预热后,联合优化稀疏适配参数和结构门控。定义软门控下的预期适配代价:
\begin{equation}
\mathcal{C}_{\text{soft}} = \sum_{g \in \mathcal{G}} s_g \cdot z^{\text{sh}}_g + \sum_{t=1}^T \sum_{g \in \mathcal{G}} s_g \cdot z^{\text{sp}}_{g,t},
\label{eq:ch6_soft_cost}
\end{equation}
通过惩罚超出目标预算$B$来施加预算约束:
\begin{equation}
\mathcal{L}_{\text{budget}} = \max(0, \mathcal{C}_{\text{soft}} - B).
\label{eq:ch6_budget}
\end{equation}
该阶段的整体训练目标为:
\begin{equation}
\mathcal{L}_{\text{soft}} = \mathcal{L}_{\text{task}} + \mathcal{L}_{\text{budget}} + \lambda_{\text{overlap}} \mathcal{L}_{\text{overlap}},
\label{eq:ch6_soft_objective}
\end{equation}
在任务性能、结构稀疏性和共享-特有分离之间取得平衡。
\RestyleAlgo{ruled}
\begin{algorithm}[htp]
\caption[MESSA软到硬的多任务稀疏微调算法]{MESSA软到硬的多任务稀疏微调算法}
\label{alg:ch6_messa}
\KwIn{冻结骨干模型$\mathcal{M}$,任务集合$\{\mathcal{T}_t\}_{t=1}^T$,全局预算$B$,训练步数$S$}
\KwOut{共享稀疏更新$\Delta_{\mathrm{sh}}$,各任务特有稀疏更新$\{\Delta_{\mathrm{sp}}^{(t)}\}_{t=1}^T$}
初始化$\Delta_{\mathrm{sh}}, \Delta_{\mathrm{sp}}^{(t)} \leftarrow \mathbf{0}$,对所有$t$\;
初始化所有参数组的软门控变量\;
基于行级权重范数构建候选池$\mathcal{C}$\;
设定预热步数$S_{\mathrm{warmup}}$和剪枝步$S_{\mathrm{prune}}$\;
\For{$s = 1$ \KwTo $S$}{
采样任务$t$和对应小批量数据\;
\If{$s \le S_{\mathrm{warmup}}$}{
冻结所有软门控\;
在候选池$\mathcal{C}$内使用任务损失$\mathcal{L}_{\text{task}}$更新$\Delta_{\mathrm{sh}}$$\Delta_{\mathrm{sp}}^{(t)}$(式~\ref{eq:ch6_warmup}\;
}
\Else{
使用软门控计算门控化更新(式~\ref{eq:ch6_messa_gated}\;
使用预算感知目标$\mathcal{L}_{\text{soft}}$联合优化稀疏更新和门控变量(式~\ref{eq:ch6_soft_objective}\;
}
\If{$s = S_{\mathrm{prune}}$}{
按门控值对参数组排序\;
在预算$B$约束下选择共享和任务特有参数组\;
将软门控转为二值掩码,剪枝未选中组\;
固定稀疏结构,进行剩余训练步的参数精调\;
}
}
\Return{$\Delta_{\mathrm{sh}}, \{\Delta_{\mathrm{sp}}^{(t)}\}_{t=1}^T$}
\end{algorithm}
\subsubsection{一次性硬选择}
预算感知软学习之后,通过一次性硬选择将学习到的软结构转化为固定的可部署稀疏结构。按门控值($z^{\text{sh}}_g$用于共享更新,$z^{\text{sp}}_{g,t}$用于任务特有更新)对参数组排序,依次选择得分最高的组直到满足全局预算约束。未选中组的更新被设为零,选中组的稀疏更新被固定用于推理。最终模型具有固定的稀疏结构,在推理时不引入额外开销。
\subsection{MESSA整体算法}
\label{subsec:messa_algorithm}
MESSA的整体训练流程遵循软到硬的结构学习范式如算法~\ref{alg:ch6_messa}所示。
MESSA的主要超参数包括参数预算2.5\%、门控预热比例5\%、在训练15\%处执行剪枝。候选池因子设为1.5重叠允许比例为15\%。MESSA不修改骨干架构也不引入辅助模块适合多任务部署场景。
\section{频谱结构与稀疏结构的关联分析}
\label{sec:ch6_analysis}
CASCADE和MESSA从不同角度应对参数空间的结构异质性挑战两者之间存在深层的关联与互补性。本节从统一框架定位、多维度互补性以及共同验证的核心观点三个方面对两种方法进行系统关联分析。
\subsection{统一框架下的定位}
在结构感知调制统一框架中CASCADE对应组合式调制式~\ref{eq:ch1_compositional}将权重更新分解为不同频段的成分进行独立参数化后重组MESSA对应结构分解调制式~\ref{eq:ch1_structural}),将适配参数分解为共享和专用两部分进行差异化分配。
两种调制形式反映了参数空间结构异质性的两个正交维度CASCADE关注\emph{单一适配内部的多尺度频谱结构}——全局性的平滑调整与局部性的精细修正需要不同的参数化策略MESSA关注\emph{多任务间的容量分配结构}——共享知识与专用知识需要在有限预算下进行最优分配。从调制算子的形式来看CASCADE中各频段专家的输出通过路由权重$w_e(\mathbf{x})$进行输入依赖的加权组合其调制粒度为频段级MESSA中各参数组通过软门控$z^{\text{sh}}_g$$z^{\text{sp}}_{g,t}$进行任务依赖的二值化分配,其调制粒度为参数组级。两者虽然在调制对象和分解方式上存在差异,但共同体现了"在参数空间中引入结构先验以替代均匀更新假设"的核心思想。
\subsection{互补性分析}
\textbf{1问题视角的互补}。CASCADE从频谱分解的视角审视权重更新的内在结构解决的核心问题是"同一任务的适配需求如何在不同频率尺度上进行分解与协调"。其异构频域专家分别捕获全局平滑趋势DCT低频专家和局部精细修正小波高频专家级联调制机制进一步建立了从粗到细的条件依赖关系。MESSA从任务分解的视角审视跨任务的参数分配解决的核心问题是"多个异质任务如何在统一参数预算下共享通用知识并保留各自的特化能力"。其共享-特有分解将参数组显式划分为三种状态(冻结、共享、特有),预算感知优化机制则在全局约束下联合学习最优分配。
\textbf{2适用场景的互补}。CASCADE更适用于单一复杂任务的深度适配场景其多尺度专家可以精细化地捕获不同层次的适配需求。从实验结果来看CASCADE在常识推理和数学推理等需要多尺度信息整合的任务上表现突出。MESSA更适用于多任务并行部署场景其共享-特有分解与预算感知分配直接面向资源受限的多任务部署需求。MESSA在五个异质任务的联合适配中以更少的参数量取得了全面领先的性能尤其在Worst-Task指标上的优势体现了其对任务间均衡性的保障能力。
\textbf{3结构先验的互补}。CASCADE引入的结构先验来自信号处理领域——DCT变换提供全局频域紧凑表示小波变换提供空频联合局部化能力。这类先验基于权重更新信号的频谱特性与具体任务类型无关。MESSA引入的结构先验来自多任务学习领域——共享-特有分解基于不同任务对模型参数的差异化依赖。这类先验基于任务间的结构关系,与权重更新的内在频谱特性无关。两类先验从正交方向为参数空间的结构化建模提供了互补的归纳偏置。
\textbf{4方法组合的可能性}。从原理上CASCADE和MESSA的设计并不互斥。可以设想在MESSA的共享-特有框架内对每个稀疏更新成分采用CASCADE的异构频域参数化从而同时实现多尺度感知和跨任务分配。具体而言共享稀疏增量$\Delta_{\text{sh}}$可以通过DCT和小波的多尺度分解进行参数化使跨任务共享的适配模式同时具备频谱结构感知能力任务特有增量$\Delta_{\text{sp}}^{(t)}$则可以在频域中独立学习各任务的特化修正。这种组合在理论上同时解决了"如何表示"和"如何分配"两个问题,但也带来了参数化复杂度的增加与训练稳定性的挑战,其可行性与收益有待后续研究的验证。
\subsection{共同验证的核心观点}
两种方法共同验证了一个核心观点参数空间的结构异质性是影响适配效果的关键因素。无论是通过异构频域专家与级联调制来捕获多尺度适配模式CASCADE还是通过共享-特有分解与预算感知优化来实现跨任务容量分配MESSA显式地感知和利用参数空间的结构特性都能显著提升参数高效微调的效能。
从实验层面看两种方法在各自的评估场景中均展现出对现有基线方法的一致性提升。CASCADE在三种骨干模型和两类推理任务共15个基准上全面超越了包括LoRA、AdaLoRA、FourierFT在内的多种基线方法MESSA在三种骨干模型和五个异质任务的联合适配中以更少的参数量取得了全面领先的性能。两种方法的性能优势分别来源于不同的结构感知机制但共同指向一个结论在参数空间中引入与适配需求匹配的结构先验比施加单一的均匀约束如固定秩的低秩分解更能释放有限参数预算的适配潜力。
从方法设计层面看CASCADE和MESSA分别丰富了统一框架中的组合式调制和结构分解调制两种形式。与第三至五章的乘性调制共同构成了三种调制形式的完整实例化验证了第一章统一分析框架对不同结构异质性类型和调制机制的覆盖能力。
% \begin{figure}[htbp]
% \centering
% % 占位:待替换为外部绘制的 6_cascade_messa_relation.pdf
% % \includegraphics[width=0.85\textwidth]{assets/6_cascade_messa_relation.pdf}
% \caption[CASCADE与MESSA在参数空间适配中的互补关系]{CASCADE与MESSA在参数空间适配中的互补关系。该图采用双轴矩阵布局
% \textbf{横轴}为"适配问题维度",标注两个正交方向——"单任务内部的多尺度结构"(左)和"多任务间的容量分配"(右)。
% \textbf{纵轴}为"调制机制",标注两种形式——"组合式调制"(上)和"结构分解调制"(下)。
% CASCADE定位于左上象限用小型示意图展示其核心机制权重更新$\Delta\mathbf{W}$通过DCT和小波分解为低频全局成分与高频局部成分经级联调制后由路由权重$w_e$加权重组。
% MESSA定位于右下象限用小型示意图展示其核心机制参数组通过软门控$z^{\text{sh}}_g$/$z^{\text{sp}}_{g,t}$被分配为共享或任务特有状态,在全局预算$B$约束下经一次性剪枝固化结构。
% 左上与右下之间用双向虚线箭头标注"互补",并在交叉区域(右上)标注"潜在组合方向:频谱感知的共享-特有分解"。
% 图底部用色条标注两种方法在统一框架中的定位:$\mathcal{R}_{spec}$(组合式调制)与$\mathcal{R}_{param}$(结构分解调制)。}
% \label{fig:ch6_cascade_messa_relation}
% \end{figure}
\section{实验验证与结果分析}
\label{sec:ch6_experiments}
本节通过大量实验系统评估CASCADE和MESSA的有效性。
\subsection{CASCADE实验验证}
\label{subsec:ch6_cascade_exp}
\subsubsection{实验设置}
\textbf{数据集与任务}。遵循LLM-Adapters设置\cite{hu2023llm}在常识推理8个基准BoolQ\cite{clark2019boolq}、PIQA\cite{bisk2020piqa}、SocialIQA\cite{sap2019socialiqa}、ARC-Challenge/ARC-Easy\cite{clark2018think}、OpenBookQA\cite{mihaylov2018can}、HellaSwag\cite{zellers2019hellaswag}、WinoGrande\cite{sakaguchi2020winogrande}和数学推理7个基准MultiArith\cite{roy2016solving}、GSM8K\cite{cobbe2021training}、AddSub\cite{hosseini2014learning}、AQuA\cite{ling2017program}、SingleEq\cite{koncel2015parsing}、SVAMP\cite{patel2021nlp}、MAWPS\cite{koncel2016mawps}两类任务上评估。训练数据包括Commonsense15K和Math10K。常识推理任务采用Micro-Avg准确率作为主要指标数学推理任务同样报告Micro-Avg准确率。
\textbf{骨干模型}。采用Qwen3-4B\cite{qwen3technicalreport}、LLaMA 3.2-3B\cite{grattafiori2024llama}和Gemma3-4B\cite{gemma_2025}三种预训练模型作为主要评估骨干。可扩展性实验使用Qwen3系列0.6B、1.7B、4B以评估方法在不同模型容量下的表现。
\textbf{基线方法}。与六种代表性PEFT方法进行比较低秩方法LoRA\cite{hu2021lora}、AdaLoRA\cite{zhang2023adalora}、BONE\cite{kang2024balancing}、频域方法FourierFT\cite{gao2024parameter}、LoCA\cite{du2025loca}和MoE方法FlyLoRA\cite{zou2025flylora})。所有方法在可比参数预算下进行公平比较。
\textbf{实现细节}。在NVIDIA RTX 3090上使用BF16混合精度和DeepSpeed训练。采用AdamW优化器学习率1e-4余弦学习率调度序列长度256。CASCADE配置20K低频DCT系数、10K小波系数、空域残差专家秩$r=48$、负载均衡和正交性损失权重$\lambda_{\text{bal}}=\lambda_{\text{orth}}=0.01$。评估采用贪心解码最大生成长度256 token通过正则表达式提取答案计算准确率。
\subsubsection{常识推理性能}
表~\ref{tab:ch6_cascade_common}展示了CASCADE在常识推理任务上的性能。
\begin{table}[!htbp]
\centering
\caption[CASCADE与基线方法在常识推理任务上的性能比较]{CASCADE与基线方法在常识推理任务上的性能比较Micro-Avg准确率\%)。\\ *表示统计显著提升。}
\label{tab:ch6_cascade_common}
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{1.05}
\begin{tabular}{l|lcccccccccc}
\toprule
\textbf{骨干} & \textbf{方法} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} \\
\midrule
\multirow{7}{*}{\textbf{Qwen3-4B}}
& LoRA & 66.88 & 82.97 & \underline{73.59} & 86.86 & 92.21 & \underline{83.60} & 85.37 & \underline{68.75} & 81.27 \\
& AdaLoRA & \underline{67.34} & 82.64 & 73.44 & 87.03 & 92.89 & 82.00 & 79.99 & 67.88 & 78.89 \\
& BONE & 66.15 & 81.61 & 72.62 & 85.24 & 92.55 & 75.40 & 78.85 & 68.11 & 77.78 \\
& FourierFT & 66.57 & 80.30 & 73.54 & 86.01 & 92.09 & 82.40 & 79.59 & 63.14 & 78.01 \\
& LoCA & 66.85 & 83.03 & 72.67 & 86.95 & \underline{93.27} & 80.60 & 84.33 & 66.69 & 80.66 \\
& FlyLoRA & 66.51 & \underline{83.35} & 73.54 & \underline{87.20} & 93.06 & 78.20 & \underline{85.63} & 68.35 & \underline{81.33} \\
& \textbf{CASCADE} & \textbf{67.74} & \textbf{83.46} & \textbf{75.49} & \textbf{87.88} & \textbf{93.64} & \textbf{86.40} & \textbf{85.75} & \textbf{71.98} & \textbf{82.22*} \\
\midrule
\multirow{7}{*}{\textbf{LLaMA3.2-3B}}
& LoRA & 61.41 & 78.62 & 66.79 & 68.26 & 84.05 & 70.20 & 79.49 & \underline{56.35} & \underline{74.05} \\
& AdaLoRA & \underline{61.53} & 78.89 & 67.04 & \underline{69.71} & 83.63 & 69.60 & 79.31 & 54.78 & 73.96 \\
& BONE & 60.61 & 76.17 & 66.53 & 67.24 & 79.88 & 63.20 & 79.28 & 50.04 & 72.61 \\
& FourierFT & 60.92 & \underline{80.30} & 59.47 & 67.75 & 82.45 & 66.40 & 79.05 & 50.67 & 72.68 \\
& LoCA & 61.07 & 78.51 & 64.12 & 66.47 & 82.37 & 67.20 & 77.07 & 55.88 & 72.31 \\
& FlyLoRA & 59.02 & 78.94 & \underline{67.14} & 67.58 & \underline{84.22} & \underline{71.80} & \underline{79.66} & 52.49 & 73.64 \\
& \textbf{CASCADE} & \textbf{62.66} & \textbf{80.69} & \textbf{67.40} & \textbf{69.97} & \textbf{84.68} & \textbf{73.60} & \textbf{79.94} & \textbf{62.59} & \textbf{75.25*} \\
\midrule
\multirow{7}{*}{\textbf{Gemma3-4B}}
& LoRA & 64.34 & 78.07 & \underline{70.21} & 75.26 & \underline{87.37} & 75.60 & \underline{77.97} & \underline{61.88} & \underline{75.21} \\
& AdaLoRA & \underline{64.86} & \underline{79.16} & 69.91 & 75.68 & 86.87 & 72.00 & 77.19 & 61.17 & 74.84 \\
& BONE & 63.67 & 78.35 & 69.19 & \underline{76.11} & 86.95 & 70.60 & 73.97 & 48.22 & 72.37 \\
& FourierFT & 64.22 & 77.42 & 68.68 & 74.32 & 87.33 & 72.00 & 74.49 & 50.75 & 72.68 \\
& LoCA & 63.52 & 76.82 & 68.47 & 73.29 & 85.98 & 68.20 & 75.06 & 49.01 & 72.39 \\
& FlyLoRA & 61.59 & 76.12 & 67.45 & 75.34 & 86.53 & \underline{77.60} & 77.88 & 58.72 & 74.15 \\
& \textbf{CASCADE} & \textbf{65.81} & \textbf{80.36} & \textbf{73.39} & \textbf{77.39} & \textbf{88.97} & \textbf{79.00} & \textbf{78.47} & \textbf{64.09} & \textbf{76.59*} \\
\bottomrule
\end{tabular}
}
\end{table}
CASCADE在所有三种骨干模型上均取得了统计显著的最优Micro-Avg性能。在Qwen3-4B上达到82.22\%超过最强基线FlyLoRA81.33\%0.89个百分点在LLaMA 3.2-3B上达到75.25\%超过LoRA74.05\%1.20个百分点在Gemma3-4B上达到76.59\%超过LoRA75.21\%1.38个百分点。这些一致性的提升表明,联合建模异构更新成分比依赖单一结构假设更为有效。
进一步分析各骨干模型的结果可以发现在Qwen3-4B上CASCADE在8个基准中的7个上取得最优或并列最优仅在HellaSwag上略低于FlyLoRA85.75\% vs 85.63\%但差距极小且在OBQA上显著领先86.40\% vs 78.20\%体现了多尺度适配的全面优势在LLaMA 3.2-3B上CASCADE相比LoRA的提升在WinoGrande上最为显著62.59\% vs 56.35\%提升6.24个百分点表明多尺度频谱分解对长程依赖建模有较大增益在Gemma3-4B上CASCADE在SIQA任务上的提升尤为突出73.39\% vs 70.21\%),显示其对社会推理类任务的适配能力。
\subsubsection{数学推理性能}
表~\ref{tab:ch6_cascade_math}展示了CASCADE在数学推理任务上的性能。
\begin{table}[!htbp]
\centering
\caption[CASCADE与基线方法在数学推理任务上的性能比较]{CASCADE与基线方法在数学推理任务上的性能比较Qwen3-4BMicro-Avg准确率\%)。*表示统计显著提升。}
\label{tab:ch6_cascade_math}
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{1.05}
\begin{tabular}{lcccccccc}
\toprule
\textbf{方法} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} \\
\midrule
LoRA & 77.50 & \underline{36.16} & \underline{83.80} & 26.77 & 85.83 & 55.90 & \underline{79.41} & \underline{58.53} \\
AdaLoRA & \underline{80.50} & 33.81 & 75.95 & 22.83 & 74.41 & 48.80 & 74.37 & 54.01 \\
BONE & 79.50 & 31.69 & 78.99 & \underline{27.17} & 80.71 & 50.30 & 76.05 & 54.94 \\
FourierFT & 68.67 & 31.08 & 76.46 & 23.62 & 78.54 & \underline{57.30} & 74.34 & 54.02 \\
LoCA & 73.33 & 30.63 & 72.15 & 21.65 & 75.98 & 48.30 & 69.33 & 51.41 \\
FlyLoRA & 79.67 & 35.33 & 81.52 & 22.83 & \underline{86.42} & 56.20 & 73.11 & 57.93 \\
\textbf{CASCADE} & \textbf{81.33} & \textbf{37.00} & \textbf{86.08} & \textbf{27.56} & \textbf{87.60} & \textbf{57.90} & \textbf{80.25} & \textbf{60.29*} \\
\bottomrule
\end{tabular}
}
\end{table}
CASCADE在Qwen3-4B上取得了60.29\%的最优Micro-Avg性能显著优于所有基线方法。相比次优方法LoRA58.53\%CASCADE提升了1.76个百分点。在7个数学推理基准中的6个上取得最优表明其多尺度适配策略在数值计算和多步推理任务上同样有效。
\subsubsection{跨模型规模的可扩展性}
表~\ref{tab:ch6_cascade_scale}展示了CASCADE在Qwen3系列不同模型规模上的常识推理性能。
\begin{table}[!htbp]
\centering
\caption[CASCADE与基线方法在不同模型规模上的常识推理性能比较]{CASCADE与基线方法在不同模型规模上的常识推理性能比较Micro-Avg准确率\%)。}
\label{tab:ch6_cascade_scale}
\begin{tabular}{lccc}
\toprule
\textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} \\
\midrule
LoRA & \underline{57.50} & \underline{66.25} & 81.27 \\
AdaLoRA & 56.50 & 64.37 & 78.89 \\
FlyLoRA & 54.37 & 62.12 & \underline{81.33} \\
\textbf{CASCADE} & \textbf{58.07} & \textbf{66.75} & \textbf{82.22} \\
\bottomrule
\end{tabular}
\end{table}
CASCADE在所有模型规模上均取得最优性能且在较小模型0.6B上的优势更为明显超过次优方法0.57个百分点表明CASCADE的多尺度频谱分解在参数容量有限时也能有效提取关键适配模式。
\subsubsection{消融与路由行为分析}
\begin{figure}[htp]
\centering
\subcaptionbox{消融实验\label{fig:ch6_cascade_ablation_a}}{%
\includegraphics[width=0.48\linewidth]{assets/6_cascade_ablation_a.pdf}}
\hfill
\subcaptionbox{路由权重分布\label{fig:ch6_cascade_ablation_b}}{%
\includegraphics[width=0.48\linewidth]{assets/6_cascade_ablation_b.pdf}}
\caption[CASCADE的消融实验与路由行为分析]{CASCADE的消融实验与路由行为分析。a移除各组件后的性能变化b不同层中各专家的路由权重分布。}
\label{fig:ch6_cascade_ablation}
\end{figure}
消融实验表明1移除DCT低频专家后Micro-Avg从82.22\%下降约0.8个百分点证明全局性的平滑适配结构对于建立基础适配框架不可或缺2移除小波高频专家导致约0.6个百分点的下降说明局部精细修正在低频基础之上提供了必要的互补3禁用级联频谱调制机制即切断低频到高频的条件依赖让各频段独立工作进一步降低约0.5个百分点突显了显式建模从粗到细依赖关系的重要性——高频调制需要以低频的全局结构为条件4空域残差专家提供约0.3个百分点的一致性增益补偿了频域变换难以表达的局部空间更新模式。上述结果表明CASCADE的四个组件各自独立贡献不可替代的适配功能。
路由权重的层间可视化揭示了一个有意义的模式在Transformer的浅层前1/3DCT低频专家获得的平均路由权重显著高于其他专家反映浅层偏好全局性的特征对齐在中间层三类专家的权重趋于均衡表明中间表示同时需要多尺度的调整在深层后1/3小波高频专家的权重明显增大表明深层更需要对局部语义特征的精细修正。这种层间路由演化趋势与CASCADE预期的从粗到细适配行为高度一致也从另一角度验证了级联调制机制的合理性。
\subsection{MESSA实验验证}
\label{subsec:ch6_messa_exp}
\subsubsection{实验设置}
\textbf{数据集与任务}。在五个多样化任务上评估多任务联合适配能力BoolQ\cite{clark2019boolq}布尔推理Acc、CodeAlpaca\cite{codealpaca}代码生成ICR、MedQA\cite{jin2020disease}医学问答Acc、GSM8K\cite{cobbe2021training}数学推理EM和HellaSwag\cite{zellers2019hellaswag}常识推理Acc。这五个任务涵盖了从事实判断、程序生成到领域知识和数学计算的异质推理场景对多任务适配方法提出了全面的考验。报告三个聚合指标Macro Average宏平均、Geometric Mean几何平均对低性能任务更敏感和Worst-Task最差任务性能衡量任务间均衡性
\textbf{骨干模型}。采用Qwen3-4B\cite{qwen3technicalreport}、LLaMA 3.2-3B\cite{grattafiori2024llama}和Gemma3-4B\cite{gemma_2025}三种架构差异显著的预训练模型以评估方法的跨架构泛化能力。可扩展性实验使用Qwen3系列0.6B、1.7B、4B
\textbf{基线方法}。包括低秩方法LoRA\cite{hu2021lora}、AdaLoRA\cite{zhang2023adalora}分shared和specific两种多任务设置、稀疏方法SHiRA\cite{shiracite}同样两种设置和多任务专用方法MTLoRA\cite{agiza2024mtlora}、MOELoRA\cite{liu2024moe}。其中shared设置为所有任务共享一组适配参数specific设置为每个任务独立训练参数。所有方法在匹配的总参数预算约2.25\%--2.70\%)下进行公平比较。
\textbf{实现细节}。在NVIDIA RTX 4090上使用BF16混合精度训练。采用AdamW优化器学习率1e-4余弦调度采用基于epoch的混合任务采样策略。MESSA配置参数预算2.5\%、候选池因子1.5、门控预热比例5\%、在训练15\%处执行一次性剪枝、重叠允许比例15\%
\subsubsection{多任务总体性能}
表~\ref{tab:ch6_messa_overall}展示了MESSA在多任务总体性能上的结果。
\begin{table}[!htbp]
\centering
\caption[MESSA与基线方法在多任务总体性能上的比较]{MESSA与基线方法在多任务总体性能上的比较。Avg为宏平均Geo为几何平均Worst为最差任务性能。*表示统计显著提升。}
\label{tab:ch6_messa_overall}
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{1.05}
\begin{tabular}{l|c|ccc|ccc|ccc}
\toprule
\multirow{2}{*}{\textbf{方法}} & \multirow{2}{*}{\textbf{参数(\%)}} & \multicolumn{3}{c|}{\textbf{Qwen3-4B}} & \multicolumn{3}{c|}{\textbf{LLaMA3.2-3B}} & \multicolumn{3}{c}{\textbf{Gemma3-4B}} \\
\cmidrule(lr){3-5} \cmidrule(lr){6-8} \cmidrule(lr){9-11}
& & Avg & Geo & Worst & Avg & Geo & Worst & Avg & Geo & Worst \\
\midrule
LoRA (shared) & 2.25 & 76.47 & 75.56 & 59.81 & 67.05 & 65.99 & 53.03 & 71.22 & 69.53 & 50.08 \\
LoRA (specific) & 2.25 & 76.66 & 75.76 & 60.75 & 64.70 & 63.29 & 52.75 & \underline{71.86} & \underline{70.09} & 49.45 \\
AdaLoRA (shared) & 2.50 & 74.82 & 73.94 & 58.24 & 63.02 & 62.10 & 51.18 & 65.39 & 62.85 & 42.27 \\
AdaLoRA (specific) & 2.50 & 75.45 & 74.61 & 59.18 & 62.94 & 61.99 & 53.03 & 66.57 & 64.00 & 43.33 \\
\midrule
SHiRA (shared) & 2.26 & 74.60 & 73.51 & 56.99 & 70.35 & 69.40 & 53.06 & 67.99 & 65.64 & 44.27 \\
SHiRA (specific) & 2.26 & 76.62 & 75.67 & \underline{62.64} & 66.94 & 65.62 & 51.33 & 71.26 & 69.52 & \underline{50.86} \\
\midrule
MTLoRA & 2.70 & \underline{76.81} & \underline{75.98} & 62.01 & \underline{71.95} & \underline{71.29} & \underline{58.08} & 71.60 & 69.84 & 50.24 \\
MOELoRA & 2.26 & 76.07 & 75.27 & 60.91 & 70.96 & 70.24 & 55.42 & 70.52 & 68.78 & 48.67 \\
\textbf{MESSA} & 1.86 & \textbf{78.01*} & \textbf{77.18*} & \textbf{62.79*} & \textbf{72.96*} & \textbf{72.42*} & \textbf{59.50*} & \textbf{72.40*} & \textbf{70.63*} & \textbf{51.33*} \\
\bottomrule
\end{tabular}
}
\end{table}
MESSA在所有三种骨干模型上均取得统计显著的最优多任务性能且使用的可训练参数1.86\%少于所有基线方法。在Qwen3-4B上MESSA的Avg达到78.01\%超过最强基线MTLoRA76.81\%1.20个百分点Worst-Task达到62.79\%表明MESSA有效平衡了多任务间的性能。
从跨骨干分析来看MESSA在不同架构上的优势具有一致性在LLaMA 3.2-3B上MESSA的Avg72.96\%和Geo72.42\%均显著领先次优方法MTLoRA71.95\%/71.29\%差距约1个百分点在Gemma3-4B上MESSA在Avg72.40\%和Worst-Task51.33\%上也取得最优。特别值得关注的是MESSA在Worst-Task指标上的表现在Qwen3-4B上62.79\%、LLaMA 3.2-3B上59.50\%、Gemma3-4B上51.33\%均为各自骨干下的最优值。这表明MESSA的共享-特有分解与预算感知分配机制不仅提升了平均性能,更有效地防止了对特定任务的过度偏好,从而在异质任务间实现了更均衡的资源分配。
另一个重要发现是MESSA的参数效率优势。MESSA仅使用1.86\%的可训练参数少于所有基线方法LoRA 2.25\%、SHiRA 2.26\%、MTLoRA 2.70\%),但性能全面领先。这一"更少参数,更优性能"的结果从侧面验证了预算感知稀疏分配的有效性——通过将有限预算精准分配到关键参数组,避免了低效参数的浪费。
\subsubsection{逐任务性能分析}
表~\ref{tab:ch6_messa_pertask}进一步展示了MESSA在Qwen3-4B上五个任务的逐任务性能。
\begin{table}[!htbp]
\centering
\caption[MESSA与基线方法在各任务上的逐项性能比较Qwen3-4B]{MESSA与基线方法在各任务上的逐项性能比较Qwen3-4B}
\label{tab:ch6_messa_pertask}
\renewcommand{\arraystretch}{1.05}
\begin{tabular}{lccccccc}
\toprule
\textbf{方法} & \textbf{BoolQ} & \textbf{CodeAlpaca} & \textbf{MedQA} & \textbf{GSM8K} & \textbf{HellaSwag} & \textbf{Avg} & \textbf{Geo} \\
\midrule
LoRA (shared) & 86.79 & 67.45 & 59.81 & 77.27 & 91.02 & 76.47 & 75.56 \\
LoRA (specific) & \underline{87.89} & 67.40 & 60.75 & 76.06 & 91.20 & 76.66 & 75.76 \\
AdaLoRA (shared) & 85.81 & 66.55 & 58.24 & 75.61 & 87.89 & 74.82 & 73.94 \\
AdaLoRA (specific) & 85.02 & 66.75 & 59.18 & 77.42 & 88.89 & 75.45 & 74.61 \\
SHiRA (shared) & 86.79 & 64.65 & 56.99 & 74.85 & 89.70 & 74.60 & 73.51 \\
SHiRA (specific) & 87.40 & 63.50 & \underline{62.64} & \underline{77.73} & \underline{91.83} & 76.62 & 75.67 \\
MTLoRA & 86.42 & 66.35 & 62.01 & \textbf{78.33} & 90.92 & \underline{76.81} & \underline{75.98} \\
MOELoRA & 86.24 & \underline{67.65} & 60.91 & 75.61 & 89.92 & 76.07 & 75.27 \\
\textbf{MESSA} & \textbf{88.07} & \textbf{68.30} & \textbf{62.79} & \textbf{78.33} & \textbf{92.57} & \textbf{78.01} & \textbf{77.18} \\
\bottomrule
\end{tabular}
\end{table}
逐任务分析揭示了MESSA在所有五个任务上均取得最优或并列最优的性能。特别地在跨领域差异最大的任务对如编程类CodeAlpaca与医学类MedQAMESSA均显著优于所有基线表明共享-特有稀疏分解有效地在异质任务之间实现了知识的选择性复用与差异化适配。
\subsubsection{跨模型规模的可扩展性}
表~\ref{tab:ch6_messa_scale}展示了MESSA在Qwen3系列不同模型规模上的多任务性能。
\begin{table}[!htbp]
\centering
\caption[MESSA与基线方法在不同模型规模上的多任务性能比较]{MESSA与基线方法在不同模型规模上的多任务性能比较。}
\label{tab:ch6_messa_scale}
\renewcommand{\arraystretch}{1.05}
\begin{tabular}{lcccccc}
\toprule
\multirow{2}{*}{\textbf{方法}} & \multicolumn{2}{c}{\textbf{Qwen3-0.6B}} & \multicolumn{2}{c}{\textbf{Qwen3-1.7B}} & \multicolumn{2}{c}{\textbf{Qwen3-4B}} \\
\cmidrule(lr){2-3} \cmidrule(lr){4-5} \cmidrule(lr){6-7}
& Avg & Geo & Avg & Geo & Avg & Geo \\
\midrule
LoRA (shared) & 58.97 & 55.91 & 69.75 & 68.42 & 76.47 & 75.56 \\
LoRA (specific) & 60.66 & 58.12 & 69.67 & 68.30 & 76.66 & 75.76 \\
SHiRA (shared) & 56.59 & 53.21 & 68.47 & 66.83 & 74.60 & 73.51 \\
SHiRA (specific) & 60.74 & 57.64 & \underline{70.96} & \underline{69.76} & 76.62 & 75.67 \\
MTLoRA & \underline{61.13} & \underline{58.39} & 70.05 & 68.61 & \underline{76.81} & \underline{75.98} \\
\textbf{MESSA} & \textbf{61.77} & \textbf{58.65} & \textbf{71.93} & \textbf{70.18} & \textbf{78.01} & \textbf{77.18} \\
\bottomrule
\end{tabular}
\end{table}
MESSA在所有模型规模上均取得最优性能。随着模型规模从0.6B增大到4BMESSA相对于基线的优势保持稳定Avg差距约0.6--1.9个百分点),表明共享-特有分解的结构分配策略在不同参数容量下均能有效运作。
\subsubsection{消融与结构分析}
\begin{figure}[htp]
\centering
\includegraphics[width=0.9\linewidth]{assets/6_messa_analysis.pdf}
\caption[MESSA的消融实验与结构分析]{MESSA的消融实验与结构分析。a各组件对多任务性能的贡献b共享和任务特有更新在注意力模块间的分配比例。}
\label{fig:ch6_messa_analysis}
\end{figure}
消融实验表明移除MESSA的任何核心组件均导致一致性的性能下降验证了联合设计的必要性。具体而言1移除共享-特有分解即退化为纯共享或纯特有设置导致Avg下降约1.2--1.5个百分点表明显式的结构分离对多任务适配至关重要2移除预算感知软门控改为固定随机结构导致Avg下降约0.8个百分点证明数据驱动的结构发现优于手工或随机选择3跳过门控预热阶段直接开始联合优化门控和参数导致训练不稳定和约0.5个百分点的性能损失验证了预热阶段对初始化稳定稀疏结构的必要性4移除共享-特有重叠正则化后共享和特有参数组的重合比例显著增加导致有效参数利用率下降和约0.4个百分点的性能损失。
结构分析可视化了注意力模块间的共享与任务特有更新分配揭示了有意义的功能分化模式。共享稀疏更新在Key投影中被最频繁地选择约占共享更新的35\%其次是Value投影约28\%和Query投影约22\%Output投影最少约15\%。这一分布可以从注意力机制的功能角色来理解Key投影定义了与任务无关的"被查询"表示空间自然适合作为跨任务共享的适配目标而Query投影更多地反映当前任务的查询意图因此更倾向于被分配为任务特有更新。这种自发涌现的结构分化进一步验证了MESSA让数据驱动结构发现的设计理念。
\section{本章小结}
\label{sec:ch6_summary}
本章将视角从表示空间转向参数空间,围绕频谱级多尺度异质性($\mathcal{R}_{spec}$)和参数级容量分配异质性($\mathcal{R}_{param}$),提出了两种结构感知适配方法。
CASCADE通过异构频域/空域专家建模权重更新的多尺度结构并引入级联频谱调制建立从粗到细的跨频率依赖关系。在三种骨干模型和15个基准数据集上CASCADE在常识与数学推理任务上均显著优于现有PEFT基线验证了联合建模异构更新成分的有效性。
MESSA针对多任务场景将适配分解为共享和任务特有的稀疏增量通过预算感知的软到硬结构学习在统一参数预算下实现最优容量分配。在三种骨干模型和五个多样化任务上MESSA以更少的参数量取得了全面领先的多任务性能验证了显式建模共享-特有结构的价值。
CASCADE和MESSA分别丰富了统一框架中的组合式调制和结构分解调制形式与第三至五章的乘性调制共同构成了完整的结构感知适配方法体系。至此本文围绕四类结构异质性$\mathcal{R}_{mod}$$\mathcal{R}_{dim}$$\mathcal{R}_{spec}$$\mathcal{R}_{param}$)提出的适配方法已全部介绍完毕。下一章将对全文工作进行总结,并展望结构感知适配的未来研究方向。