% !TeX root = ../main.tex % 第五章 多尺度结构建模与参数结构自适应学习方法 \chapter{多尺度频谱感知与参数自适应的时空表征学习方法} \label{chap:cascade_messa} \section{本章概述} \label{sec:ch5_overview} 前两章分别从模块级功能异质性($\mathcal{R}_{mod}$,第三章)和维度级位置结构异质性($\mathcal{R}_{dim}$,第四章)出发,提出了基于乘性调制的结构感知适配方法。这些方法的共同特点是在\emph{表示空间}中对中间表示流进行调制。本章将视角从表示空间转向\emph{参数空间},关注模型权重更新本身的结构特性,提出两种新的调制形式。 在将大语言模型适配到时空数据建模任务时,参数空间的结构异质性表现为两个互补的层面: \textbf{第一,频谱级多尺度异质性($\mathcal{R}_{spec}$)}。时空数据的动态变化同时包含多时间尺度成分。从参数更新的频谱视角来看,模型适配同样涉及全局性的平滑调整(低频成分)和局部性的精细修正(高频成分)。实证分析表明,权重更新的高频成分在频谱能量上占主导地位,但影响范围局限于少数参数区域;而低频成分虽然能量较小,却影响权重矩阵的大部分区域。这种能量-影响力失配揭示了从粗到细的适配模式——低频成分建立全局适配结构,高频成分在此基础上进行局部精修。现有PEFT方法通常采用单一结构假设(如纯低秩或纯频域),难以同时捕获这种异构的多尺度适配模式。 \textbf{第二,参数级容量分配异质性($\mathcal{R}_{param}$)}。面向多源时空数据的联合建模中,不同任务对模型参数容量的需求并不均匀。交通流量预测、区域功能分类、轨迹推理等任务可以共享部分适配参数(如通用的时空语义对齐),但也需要各自的专用参数支持任务特异性的精细化调整。如何在有限参数预算下,在共享与专用之间实现最优容量分配,构成参数级的结构异质性挑战。 针对上述两类异质性,本章提出两种方法: \textbf{(1)基于频谱级联的多尺度参数适配方法(CASCADE)}。CASCADE通过异构频域/空域专家(DCT低频专家、小波高频专家、空域残差专家)建模权重更新的多尺度结构,并引入级联频谱调制机制建立低频到高频的从粗到细依赖关系,辅以频谱复杂度感知路由实现自适应专家组合。CASCADE对应统一框架中的组合式调制形式(式~\ref{eq:ch1_compositional})。 \textbf{(2)基于共享-特有稀疏分解的多任务适配方法(MESSA)}。MESSA将任务适配分解为全局共享稀疏增量与任务特有稀疏增量,通过预算感知的软门控机制实现可微分的结构分配,最终通过一次性全局剪枝生成可部署的稀疏模型。MESSA对应统一框架中的结构分解调制形式(式~\ref{eq:ch1_structural})。 本章后续安排如下:第~\ref{sec:ch5_background}~节分析参数空间的结构异质性问题;第~\ref{sec:cascade}~节详述CASCADE方法;第~\ref{sec:messa}~节详述MESSA方法;第~\ref{sec:ch5_analysis}~节分析两种视角的关联与互补性;第~\ref{sec:ch5_experiments}~节给出实验验证;第~\ref{sec:ch5_summary}~节总结全章。 \section{参数空间的结构异质性分析} \label{sec:ch5_background} \subsection{权重更新的频谱特性} \label{subsec:ch5_spectral} 在标准PEFT框架下,给定预训练权重矩阵$\mathbf{W}_0 \in \mathbb{R}^{m \times n}$,适配操作引入加性权重更新$\Delta \mathbf{W}$,使得适配后的变换为$\mathbf{y} = (\mathbf{W}_0 + \Delta \mathbf{W}) \mathbf{x}$。不同PEFT方法通过对$\Delta \mathbf{W}$施加不同的结构约束来降低适配代价。 从频域视角来看,$\Delta \mathbf{W}$可以被视为定义在参数索引上的二维信号。通过施加适当的线性变换(如傅里叶变换、小波变换),可以将权重更新分解为与不同空间频率关联的成分。低频成分对应平滑、缓变的模式,跨越权重矩阵的大片区域;高频成分捕获集中于特定参数区域的快速变化。 \begin{figure}[htp] \centering \includegraphics[width=0.9\linewidth]{assets/5_spectral_analysis.pdf} \caption{全量微调下权重更新的频谱特性。高频成分在频谱能量上占主导,但影响范围局限于少量参数;低频成分能量较小但影响权重矩阵的大部分区域。该模式在不同层和模块间保持一致。} \label{fig:ch5_spectral} \end{figure} 对全量微调下权重更新的频谱分析揭示了一个重要发现:高频成分在频谱能量上占主导地位,但其影响范围往往局限于参数空间的有限子集;相反,低频成分虽然频谱能量较小,却影响着权重矩阵的大部分区域。这种能量-影响力失配具有明确的物理含义:大空间覆盖范围与低频谱能量对应着分布在大量参数上的平滑一致性变化,代表全局性结构适配;高频谱能量集中于有限参数子集则对应稀疏的局部化修正。 这一发现揭示了权重更新的\emph{从粗到细}适配模式:低频成分建立全局适配结构,高频成分在此基础上进行特定区域的精细修正。有效的适配需要同时建模这种异构频率成分及其依赖关系。 \subsection{多任务适配中的参数容量分配问题} \label{subsec:ch5_capacity} \begin{figure}[htp] \centering \includegraphics[width=0.9\linewidth]{assets/5_task_activation.png} \caption{多任务微调中不同任务在注意力模块各层的激活差异。红色表示任务A激活更强,蓝色表示任务B激活更强,揭示了不同层和模块对共享/专用适配的差异化需求。} \label{fig:ch5_task_diff} \end{figure} 在实际的时空智能应用中,单一预训练模型通常需要同时服务多个下游任务。在严格的存储和推理效率约束下,如何在多个任务之间分配有限的适配参数预算,成为关键问题。 实证分析表明,不同任务在模型内部表现出显著的激活差异。某些层和模块的激活模式在任务间高度一致,适合共享适配参数;而另一些层和模块则表现出强烈的任务依赖性,需要专用参数支持。这种观察促使我们将多任务稀疏微调形式化为一个\emph{结构分配问题}。 形式上,考虑$T$个下游任务$\{\mathcal{T}_t\}_{t=1}^T$。每个任务$t$的适配通过稀疏更新$\Delta^{(t)}$实现,分解为共享成分和任务特有成分: \begin{equation} \Delta^{(t)} = \Delta_{\text{sh}} + \Delta_{\text{sp}}^{(t)}, \label{eq:ch5_decomp} \end{equation} 其中$\Delta_{\text{sh}}$为跨任务共享的稀疏更新,$\Delta_{\text{sp}}^{(t)}$为任务$t$的特有稀疏更新。所有任务的适配需满足统一的全局参数预算约束$B$。 现有方法在面对此问题时存在两个根本局限:(1)\textbf{任务共享挑战}——要么强制全部共享(无法捕获任务差异),要么完全独立(参数冗余);(2)\textbf{资源分配挑战}——缺乏全局分配机制,共享与专用参数无法在统一预算下联合竞争。 \subsection{对时空适配方法的启示} 上述分析为时空适配方法的设计提供了以下启示: \textbf{(1)需要异构的参数化策略。}单一的结构假设(如纯低秩或纯频域)无法同时捕获全局平滑调整和局部精细修正。有效的方法应当为不同类型的更新模式提供各自适合的参数化方式。 \textbf{(2)需要跨频率的协调机制。}全局更新和局部更新并非独立,局部修正应当受全局结构的指导。需要显式建模这种从粗到细的依赖关系。 \textbf{(3)需要共享-专用的灵活分解。}多任务适配应当允许部分参数在任务间共享,同时保留足够的专用参数容量,且分配应当是数据驱动的而非人为预设的。 \textbf{(4)需要全局预算约束下的联合优化。}共享和专用参数应当在统一预算框架下竞争分配,避免孤立分配导致的次优解。 CASCADE和MESSA分别回应了上述启示的前两点和后两点。 \section{基于频谱级联的多尺度参数适配方法} \label{sec:cascade} 基于上节对权重更新频谱特性的分析,本节提出基于频谱级联的多尺度参数适配方法(Coarse-to-Fine Spectral Cascading, CASCADE)。CASCADE的核心思想是:通过异构频域/空域专家分别建模不同尺度的适配模式,并通过级联调制建立从粗到细的跨频率依赖关系。 \begin{figure}[htp] \centering \includegraphics[width=0.85\linewidth]{assets/5_cascade_arch.pdf} \caption{CASCADE方法框架图。CASCADE通过异构的频域和空域专家适配冻结的骨干模块,借助级联调制协调全局与局部更新,并通过频谱复杂度感知路由实现自适应专家组合。} \label{fig:ch5_cascade_arch} \end{figure} \subsection{框架概述} \label{subsec:cascade_overview} 如图~\ref{fig:ch5_cascade_arch}所示,CASCADE采用异构混合专家架构,在冻结的预训练骨干上引入三个互补的专家:(i)基于离散余弦变换(DCT)的低频专家,捕获全局平滑更新;(ii)基于小波细节子带的高频专家,建模局部精细修正;(iii)空域残差专家,处理频域难以表示的更新模式。 CASCADE进一步引入级联频谱调制机制,使低频更新条件化地指导高频修正的生成,建立显式的从粗到细依赖关系。同时,频谱复杂度感知路由模块基于输入特征动态组合不同专家的输出。 在统一分析框架下,CASCADE的适配操作形式化为: \begin{equation} \mathbf{y} = \mathbf{W}_0 \mathbf{x} + \sum_{e=1}^{E} w_e(\mathbf{x}) \cdot \Delta \mathbf{W}_e \mathbf{x}, \label{eq:ch5_cascade_formulation} \end{equation} 其中$w_e(\mathbf{x})$为输入依赖的路由权重,$\Delta \mathbf{W}_e$为第$e$个专家产生的结构化权重更新。三个专家分别在不同域中对$\Delta \mathbf{W}$施加互补的结构约束。 \subsection{异构频域专家设计} \label{subsec:cascade_experts} \subsubsection{基于DCT的低频专家} 低频专家旨在捕获跨越权重矩阵大片区域的全局平滑更新模式。这类模式通常源于语义对齐或全局推理行为的调整。 为引入全局平滑先验,该专家在离散余弦变换(DCT)域中参数化更新。设$\mathbf{S}_{\text{dct}} \in \mathbb{R}^{m \times n}$为DCT域系数矩阵。通过限制学习只在预定义的低频索引集$\mathcal{I}_{\text{dct}}$上进行: \begin{equation} \mathbf{S}_{\text{dct}}[i,j] = \begin{cases} s_k, & (i,j) \in \mathcal{I}_{\text{dct}}, \\ 0, & \text{otherwise}, \end{cases} \label{eq:ch5_dct_sparse} \end{equation} 其中$\{s_k\}_{k=1}^{K_{\text{dct}}}$为与固定低频位置关联的可训练参数。索引集$\mathcal{I}_{\text{dct}}$通过选择距零频索引(0,0)曼哈顿距离最小的$K_{\text{dct}}$个位置获得。空域更新通过逆DCT变换重建: \begin{equation} \Delta \mathbf{W}_{\text{dct}} = \text{IDCT}(\mathbf{S}_{\text{dct}}). \label{eq:ch5_dct_inverse} \end{equation} 通过限制学习低频系数,该专家对$\Delta \mathbf{W}_{\text{dct}}$施加全局平滑先验,以紧凑的参数化高效建模大尺度结构调整。 \subsubsection{基于小波的高频专家} 低频专家捕获全局结构,但有效适配同样需要精细化的局部高频修正。为建模此类模式,高频专家在小波域中参数化更新,利用小波变换在空间和频率域上的联合局部化能力。 采用单层二维Haar小波基,定义四个子带:一个低频近似子带($\mathbf{LL}$)和三个细节子带($\mathbf{LH}$、$\mathbf{HL}$、$\mathbf{HH}$),分别对应不同方向的高频成分。为聚焦局部修正,丢弃近似成分,仅参数化细节子带。设$\mathcal{B}=\{\text{LH}, \text{HL}, \text{HH}\}$为细节子带集合,对每个$b \in \mathcal{B}$学习稀疏系数矩阵$\mathbf{B}_b$: \begin{equation} \mathbf{B}_b[i,j] = \begin{cases} s^{(b)}_k, & (i,j) \in \mathcal{I}_b, \\ 0, & \text{otherwise}, \end{cases} \label{eq:ch5_wavelet_sparse} \end{equation} 其中$\mathcal{I}_b$为随机采样一次并在训练中保持不变的固定索引集。空域更新通过逆Haar变换重建: \begin{equation} \Delta \mathbf{W}_{\text{wav}} = \text{IHaar}(\mathbf{0}, \mathbf{B}_{\text{LH}}, \mathbf{B}_{\text{HL}}, \mathbf{B}_{\text{HH}}). \label{eq:ch5_wavelet_inverse} \end{equation} \subsubsection{空域残差专家} 频域参数化虽然施加了有用的结构先验,但可能无法捕获某些不规则的更新模式。CASCADE包含一个轻量空域残差专家,直接在原始参数空间中以低秩分解参数化残差更新: \begin{equation} \Delta \mathbf{W}_{\text{spatial}} = \mathbf{B}\mathbf{A}, \label{eq:ch5_spatial_update} \end{equation} 其中$\mathbf{A} \in \mathbb{R}^{r \times n}$和$\mathbf{B} \in \mathbb{R}^{m \times r}$,$r$为较小的秩。该专家为频域专家无法充分表达的更新模式提供补偿。 \subsection{级联频谱调制机制} \label{subsec:cascade_cascading} 上述异构专家分别捕获权重更新的互补方面。然而,若将全局更新和局部更新视为独立成分,则忽略了它们之间的内在依赖——局部修正在实践中往往受全局结构的指导。为显式建模这种从粗到细的关系,CASCADE引入级联频谱调制机制。 具体地,将学习到的低频DCT系数展平为固定维度的条件化向量$\mathbf{z}$,该向量概括了全局适配模式,作为条件化网络的输入: \begin{equation} (\gamma_b, \beta_b)_{b \in \mathcal{B}} = g(\mathbf{z}), \label{eq:ch5_film_params} \end{equation} 其中$g(\cdot)$为轻量多层感知机,输出逐子带的标量调制参数。调制应用于小波细节子带系数: \begin{equation} \tilde{\mathbf{B}}_b = (1 + \gamma_b) \mathbf{B}_b + \beta_b, \quad b \in \mathcal{B}, \label{eq:ch5_bandwise_film} \end{equation} 其中$\gamma_b$和$\beta_b$为在子带$b$内所有位置间共享的标量参数。调制仅应用于$\mathcal{I}_b$中的采样系数位置。 该设计建立了显式的从粗到细依赖关系:全局低频结构引导局部修正的生成,确保局部化的精细调整与整体适配方向保持一致。 \subsection{频谱复杂度感知路由} \label{subsec:cascade_routing} 级联调制定义了不同更新成分之间的耦合方式,但这些成分的相对重要性可能因输入而异。CASCADE采用频谱复杂度感知路由机制,基于输入特征动态组合专家输出。 给定线性层的输入激活,通过池化获得序列级表示$\bar{\mathbf{x}}$。从该表示中提取两类互补的路由特征:轻量频谱统计特征$\bar{\mathbf{x}}_{\text{spec}}$(刻画输入的变化和振荡程度)和通过可学习线性投影获得的语义特征。两类特征通过线性投影融合: \begin{equation} \mathbf{h} = \mathbf{W}_{\text{spec}} \bar{\mathbf{x}}_{\text{spec}} + \mathbf{W}_{\text{sem}} \bar{\mathbf{x}}, \label{eq:ch5_feature_fusion} \end{equation} 并通过Softmax映射为专家权重: \begin{equation} \mathbf{w} = \text{softmax}(\mathbf{W}_{\text{out}} \mathbf{h}), \label{eq:ch5_routing_weights} \end{equation} 其中$\mathbf{w} \in \mathbb{R}^{E}$为每个专家分配的非负权重。 \subsection{训练目标} \label{subsec:cascade_training} CASCADE在冻结骨干的基础上使用下游任务的标准监督目标进行端到端训练。整体训练目标包含任务损失和两个辅助正则化项: \begin{equation} \mathcal{L} = \mathcal{L}_{\text{task}} + \lambda_{\text{bal}} \mathcal{L}_{\text{bal}} + \lambda_{\text{orth}} \mathcal{L}_{\text{orth}}, \label{eq:ch5_cascade_loss} \end{equation} 其中$\mathcal{L}_{\text{bal}}$为路由负载均衡正则化,通过约束各专家路由权重的分布均匀性防止退化的路由解: \begin{equation} \mathcal{L}_{\text{bal}} = E \sum_{e=1}^{E} \left( \frac{1}{B} \sum_{b=1}^{B} w_e^{(b)} \right)^2, \label{eq:ch5_load_balance} \end{equation} 其中$w_e^{(b)}$为专家$e$在第$b$个样本上的路由权重,$B$为批次大小。$\mathcal{L}_{\text{orth}}$为频谱正交性正则化,鼓励频域专家捕获互补的频谱模式: \begin{equation} \mathcal{L}_{\text{orth}} = \left| \left\langle \mathrm{vec}(\mathbf{S}_{\text{dct}}), \mathrm{vec}([\mathbf{B}_{\mathrm{LH}}, \mathbf{B}_{\mathrm{HL}}, \mathbf{B}_{\mathrm{HH}}]) \right\rangle \right|. \label{eq:ch5_orth_loss} \end{equation} 该项通过最小化DCT系数向量与小波系数向量之间的内积绝对值,促使两类频域专家分别聚焦于互补的频谱模式。 CASCADE的主要超参数包括:低频DCT系数20K个、小波系数10K个、空域残差专家秩$r=48$、负载均衡和正交性损失权重均为0.01。CASCADE的整体训练流程如算法~\ref{alg:ch5_cascade}所示。 \RestyleAlgo{ruled} \begin{algorithm}[htp] \caption{CASCADE:从粗到细的频谱级联适配算法} \label{alg:ch5_cascade} \KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$} \KwOut{适配后的输出$\mathbf{y}$} 计算基础输出 $\mathbf{y}_0 \leftarrow \mathbf{W}_0 \mathbf{x}$\; \textbf{低频专家:}\; 构建稀疏DCT频谱$\mathbf{S}_{\text{dct}}$(式~\ref{eq:ch5_dct_sparse})\; 重建全局更新$\Delta \mathbf{W}_{\text{dct}}$(式~\ref{eq:ch5_dct_inverse})\; \textbf{高频专家:}\; 构建稀疏小波细节系数$\{\mathbf{B}_b\}_{b\in\mathcal{B}}$(式~\ref{eq:ch5_wavelet_sparse})\; 计算调制参数$(\gamma_b,\beta_b)_{b\in\mathcal{B}}$(式~\ref{eq:ch5_film_params})\; 应用频段级FiLM调制$\tilde{\mathbf{B}}_b$(式~\ref{eq:ch5_bandwise_film})\; 重建局部更新$\Delta \mathbf{W}_{\text{wav}}$(式~\ref{eq:ch5_wavelet_inverse})\; \textbf{空域残差专家:}\; 计算残差更新$\Delta \mathbf{W}_{\text{spatial}}$(式~\ref{eq:ch5_spatial_update})\; \textbf{路由与聚合:}\; 计算专家权重$\mathbf{w}$(式~\ref{eq:ch5_routing_weights})\; 聚合更新 $\Delta \mathbf{W} \leftarrow \sum_{e=1}^{E} w_e \cdot \Delta \mathbf{W}_e$\; \Return{$\mathbf{y} \leftarrow \mathbf{y}_0 + \Delta \mathbf{W}\mathbf{x}$} \end{algorithm} \section{基于共享-特有稀疏分解的多任务适配方法} \label{sec:messa} CASCADE解决了单一适配中的频谱级多尺度异质性问题。本节进一步关注多任务场景下的参数级容量分配异质性,提出MESSA(Multi-task Efficient Shared-Specific Sparse Adaptation)方法。 \begin{figure}[htp] \centering \includegraphics[width=0.85\linewidth]{assets/5_messa_arch.pdf} \caption{MESSA方法框架图。MESSA将适配分解为共享和任务特有的稀疏更新,通过预算感知的软门控学习稀疏结构,并通过软到硬的训练过程在统一参数预算下生成可部署的稀疏模型。} \label{fig:ch5_messa_arch} \end{figure} \subsection{框架概述} \label{subsec:messa_overview} MESSA的核心思想是将多任务稀疏微调形式化为结构分配问题:参数组作为决策单元,被显式分配为冻结、跨任务共享或任务特有三种状态之一,且在统一全局预算约束下进行优化。 如图~\ref{fig:ch5_messa_arch}所示,MESSA包含三个关键设计:(1)共享-特有稀疏表示(SS-Sparse),将每个任务的适配分解为共享和任务特有的稀疏增量;(2)预算感知的软门控机制,通过可微分门控变量引导结构分配;(3)软到硬的结构学习策略,通过一次性剪枝将学习到的软结构转化为固定的可部署稀疏模型。 在统一分析框架下,MESSA的适配操作对应结构分解调制形式(式~\ref{eq:ch1_structural}): \begin{equation} \Delta^{(t)} = \sum_{g \in \mathcal{G}} \left( z^{\text{sh}}_g \cdot \Delta^{\text{sh}}_g + z^{\text{sp}}_{g,t} \cdot \Delta^{\text{sp}}_{g,t} \right), \label{eq:ch5_messa_gated} \end{equation} 其中$z^{\text{sh}}_g$和$z^{\text{sp}}_{g,t}$分别为共享和任务特有的软门控值,控制参数组$g$在共享与专用方向上的分配。 \subsection{共享-特有稀疏表示} \label{subsec:messa_ss_sparse} \subsubsection{多任务共享-特有增量分解} MESSA将每个任务$t$的适配增量分解为共享成分和任务特有成分(式~\ref{eq:ch5_decomp})。共享增量$\Delta_{\text{sh}}$捕获跨任务的通用知识,任务特有增量$\Delta_{\text{sp}}^{(t)}$建模任务依赖的变化。 该分解的优势在于:第一,允许相关任务复用一组通用的稀疏更新,减少参数冗余;第二,保留足够的灵活性进行任务特有适配,避免强制完全共享的限制。 \subsubsection{行级结构化参数组} 为实现结构化稀疏和高效的容量分配,MESSA将稀疏更新组织为参数组。对于权重矩阵$\mathbf{W} \in \mathbb{R}^{d_{\text{out}} \times d_{\text{in}}}$中的线性变换,每个输出行被视为一个独立的参数组。参数组$g$的参数代价为$s_g = d_{\text{in}}$。 行级分组在灵活性和结构化之间取得良好平衡:相比逐元素稀疏性,显著减少了结构决策数量;相比更粗粒度的层级分组,允许更精细的容量分配。在Transformer模型中,行级参数组自然对应输出神经元和注意力投影,适合作为选择性适配的基本单位。 \subsubsection{组级软门控} 为实现可微分的结构分配,MESSA为每个参数组关联可学习的软门控。对于参数组$g$,引入共享门控$z^{\text{sh}}_g \in (0,1)$和任务特有门控$z^{\text{sp}}_{g,t} \in (0,1)$,分别调制共享和任务特有成分的贡献。 软门控作为离散结构决策的连续代理,允许梯度优化同时作用于参数值和结构分配变量。训练期间,参数组可以同时参与共享和任务特有更新,允许模型探索不同程度的跨任务共享。 \subsubsection{共享-特有重叠正则化} 为防止共享和任务特有成分的过度同时激活(导致冗余适配和不清晰的结构分离),MESSA引入重叠正则化: \begin{equation} \mathcal{L}_{\text{overlap}} = \sum_{t=1}^T \sum_{g \in \mathcal{G}} z^{\text{sh}}_g \cdot z^{\text{sp}}_{g,t}, \label{eq:ch5_overlap} \end{equation} 鼓励每个参数组倾向于被分配给共享\emph{或}任务特有适配之一。 \subsection{预算感知的软到硬结构学习} \label{subsec:messa_soft_to_hard} \subsubsection{预热阶段} 训练初期,稀疏适配参数和结构门控尚不具备信息量。为避免不稳定的分配决策,MESSA引入预热阶段:冻结门控变量,仅优化候选池内的稀疏适配参数: \begin{equation} \mathcal{L}_{\text{warmup}} = \mathcal{L}_{\text{task}}. \label{eq:ch5_warmup} \end{equation} \subsubsection{预算感知的软学习} 预热后,联合优化稀疏适配参数和结构门控。定义软门控下的预期适配代价: \begin{equation} \mathcal{C}_{\text{soft}} = \sum_{g \in \mathcal{G}} s_g \cdot z^{\text{sh}}_g + \sum_{t=1}^T \sum_{g \in \mathcal{G}} s_g \cdot z^{\text{sp}}_{g,t}, \label{eq:ch5_soft_cost} \end{equation} 通过惩罚超出目标预算$B$来施加预算约束: \begin{equation} \mathcal{L}_{\text{budget}} = \max(0, \mathcal{C}_{\text{soft}} - B). \label{eq:ch5_budget} \end{equation} 该阶段的整体训练目标为: \begin{equation} \mathcal{L}_{\text{soft}} = \mathcal{L}_{\text{task}} + \mathcal{L}_{\text{budget}} + \lambda_{\text{overlap}} \mathcal{L}_{\text{overlap}}, \label{eq:ch5_soft_objective} \end{equation} 在任务性能、结构稀疏性和共享-特有分离之间取得平衡。 \RestyleAlgo{ruled} \begin{algorithm}[htp] \caption{MESSA:软到硬的多任务稀疏微调算法} \label{alg:ch5_messa} \KwIn{冻结骨干模型$\mathcal{M}$,任务集合$\{\mathcal{T}_t\}_{t=1}^T$,全局预算$B$,训练步数$S$} \KwOut{共享稀疏更新$\Delta_{\mathrm{sh}}$,各任务特有稀疏更新$\{\Delta_{\mathrm{sp}}^{(t)}\}_{t=1}^T$} 初始化$\Delta_{\mathrm{sh}}, \Delta_{\mathrm{sp}}^{(t)} \leftarrow \mathbf{0}$,对所有$t$\; 初始化所有参数组的软门控变量\; 基于行级权重范数构建候选池$\mathcal{C}$\; 设定预热步数$S_{\mathrm{warmup}}$和剪枝步$S_{\mathrm{prune}}$\; \For{$s = 1$ \KwTo $S$}{ 采样任务$t$和对应小批量数据\; \If{$s \le S_{\mathrm{warmup}}$}{ 冻结所有软门控\; 在候选池$\mathcal{C}$内使用任务损失$\mathcal{L}_{\text{task}}$更新$\Delta_{\mathrm{sh}}$和$\Delta_{\mathrm{sp}}^{(t)}$(式~\ref{eq:ch5_warmup})\; } \Else{ 使用软门控计算门控化更新(式~\ref{eq:ch5_messa_gated})\; 使用预算感知目标$\mathcal{L}_{\text{soft}}$联合优化稀疏更新和门控变量(式~\ref{eq:ch5_soft_objective})\; } \If{$s = S_{\mathrm{prune}}$}{ 按门控值对参数组排序\; 在预算$B$约束下选择共享和任务特有参数组\; 将软门控转为二值掩码,剪枝未选中组\; 固定稀疏结构,进行剩余训练步的参数精调\; } } \Return{$\Delta_{\mathrm{sh}}, \{\Delta_{\mathrm{sp}}^{(t)}\}_{t=1}^T$} \end{algorithm} \subsubsection{一次性硬选择} 预算感知软学习之后,通过一次性硬选择将学习到的软结构转化为固定的可部署稀疏结构。按门控值($z^{\text{sh}}_g$用于共享更新,$z^{\text{sp}}_{g,t}$用于任务特有更新)对参数组排序,依次选择得分最高的组直到满足全局预算约束。未选中组的更新被设为零,选中组的稀疏更新被固定用于推理。最终模型具有固定的稀疏结构,在推理时不引入额外开销。 \subsection{MESSA整体算法} \label{subsec:messa_algorithm} MESSA的整体训练流程遵循软到硬的结构学习范式,如算法~\ref{alg:ch5_messa}所示。 MESSA的主要超参数包括:参数预算2.5\%、门控预热比例5\%、在训练15\%处执行剪枝。候选池因子设为1.5,重叠允许比例为15\%。MESSA不修改骨干架构也不引入辅助模块,适合多任务部署场景。 \section{频谱结构与稀疏结构的关联分析} \label{sec:ch5_analysis} CASCADE和MESSA从不同角度应对参数空间的结构异质性挑战,两者之间存在深层的关联与互补性。 \subsection{统一框架下的定位} 在结构感知调制统一框架中,CASCADE对应组合式调制(式~\ref{eq:ch1_compositional}),将权重更新分解为不同频段的成分进行独立参数化后重组;MESSA对应结构分解调制(式~\ref{eq:ch1_structural}),将适配参数分解为共享和专用两部分进行差异化分配。 两种调制形式反映了参数空间结构异质性的两个正交维度:CASCADE关注\emph{单一适配内部的多尺度频谱结构}——全局性的平滑调整与局部性的精细修正需要不同的参数化策略;MESSA关注\emph{多任务间的容量分配结构}——共享知识与专用知识需要在有限预算下进行最优分配。 \subsection{互补性分析} \textbf{(1)视角互补}。CASCADE从频谱分解的视角审视权重更新的内在结构,解决的是"如何表示不同尺度的适配模式"的问题;MESSA从任务分解的视角审视跨任务的参数分配,解决的是"如何在任务间分配适配容量"的问题。 \textbf{(2)适用场景互补}。CASCADE更适用于单一复杂任务的深度适配场景,其多尺度专家可以精细化地捕获不同层次的适配需求;MESSA更适用于多任务并行部署场景,其共享-特有分解与预算感知分配直接面向资源受限的多任务部署需求。 \textbf{(3)方法组合的可能性}。从原理上,CASCADE和MESSA的设计并不互斥。可以设想在MESSA的共享-特有框架内,对每个稀疏更新成分采用CASCADE的异构频域参数化,从而同时实现多尺度感知和跨任务分配。 \subsection{共同验证的核心观点} 两种方法共同验证了一个核心观点:参数空间的结构异质性是影响适配效果的关键因素。无论是通过异构频域专家与级联调制来捕获多尺度适配模式(CASCADE),还是通过共享-特有分解与预算感知优化来实现跨任务容量分配(MESSA),显式地感知和利用参数空间的结构特性,都能显著提升参数高效微调的效能。 \section{实验验证与结果分析} \label{sec:ch5_experiments} 本节通过大量实验系统评估CASCADE和MESSA的有效性。 \subsection{CASCADE实验验证} \label{subsec:ch5_cascade_exp} \subsubsection{实验设置} \textbf{数据集与任务}。遵循LLM-Adapters设置,在常识推理(8个基准:BoolQ、PIQA、SocialIQA、ARC-Challenge、ARC-Easy、OpenBookQA、HellaSwag、WinoGrande)和数学推理(7个基准:MultiArith、GSM8K、AddSub、AQuA、SingleEq、SVAMP、MAWPS)两类任务上评估。训练数据包括Commonsense15K和Math10K。常识推理任务采用Micro-Avg准确率作为主要指标,数学推理任务同样报告Micro-Avg准确率。 \textbf{骨干模型}。采用Qwen3-4B、LLaMA 3.2-3B和Gemma3-4B三种预训练模型作为主要评估骨干。可扩展性实验使用Qwen3系列(0.6B、1.7B、4B)以评估方法在不同模型容量下的表现。 \textbf{基线方法}。与六种代表性PEFT方法进行比较:低秩方法(LoRA、AdaLoRA、BONE)、频域方法(FourierFT、LoCA)和MoE方法(FlyLoRA)。所有方法在可比参数预算下进行公平比较。 \textbf{实现细节}。在NVIDIA RTX 3090上使用BF16混合精度和DeepSpeed训练。采用AdamW优化器,学习率1e-4,余弦学习率调度,序列长度256。CASCADE配置:20K低频DCT系数、10K小波系数、空域残差专家秩$r=48$、负载均衡和正交性损失权重$\lambda_{\text{bal}}=\lambda_{\text{orth}}=0.01$。评估采用贪心解码,最大生成长度256 token,通过正则表达式提取答案计算准确率。 \subsubsection{常识推理性能} 表~\ref{tab:ch5_cascade_common}展示了CASCADE在常识推理任务上的性能。 \begin{table}[htp] \centering \caption{CASCADE与基线方法在常识推理任务上的性能比较(Micro-Avg准确率\%)。*表示统计显著提升。} \label{tab:ch5_cascade_common} \small \resizebox{\linewidth}{!}{ \renewcommand{\arraystretch}{1.05} \begin{tabular}{l|lcccccccccc} \toprule \textbf{骨干} & \textbf{方法} & \textbf{BoolQ} & \textbf{PIQA} & \textbf{SIQA} & \textbf{ARC-C} & \textbf{ARC-E} & \textbf{OBQA} & \textbf{HellaSwag} & \textbf{WinoGrande} & \textbf{Micro-Avg$\uparrow$} \\ \midrule \multirow{7}{*}{\rotatebox{90}{\textbf{Qwen3-4B}}} & LoRA & 66.88 & 82.97 & \underline{73.59} & 86.86 & 92.21 & \underline{83.60} & 85.37 & \underline{68.75} & 81.27 \\ & AdaLoRA & \underline{67.34} & 82.64 & 73.44 & 87.03 & 92.89 & 82.00 & 79.99 & 67.88 & 78.89 \\ & BONE & 66.15 & 81.61 & 72.62 & 85.24 & 92.55 & 75.40 & 78.85 & 68.11 & 77.78 \\ & FourierFT & 66.57 & 80.30 & 73.54 & 86.01 & 92.09 & 82.40 & 79.59 & 63.14 & 78.01 \\ & LoCA & 66.85 & 83.03 & 72.67 & 86.95 & \underline{93.27} & 80.60 & 84.33 & 66.69 & 80.66 \\ & FlyLoRA & 66.51 & \underline{83.35} & 73.54 & \underline{87.20} & 93.06 & 78.20 & \underline{85.63} & 68.35 & \underline{81.33} \\ & \textbf{CASCADE} & \textbf{67.74} & \textbf{83.46} & \textbf{75.49} & \textbf{87.88} & \textbf{93.64} & \textbf{86.40} & \textbf{85.75} & \textbf{71.98} & \textbf{82.22*} \\ \midrule \multirow{7}{*}{\rotatebox{90}{\textbf{LLaMA3.2-3B}}} & LoRA & 61.41 & 78.62 & 66.79 & 68.26 & 84.05 & 70.20 & 79.49 & \underline{56.35} & \underline{74.05} \\ & AdaLoRA & \underline{61.53} & 78.89 & 67.04 & \underline{69.71} & 83.63 & 69.60 & 79.31 & 54.78 & 73.96 \\ & BONE & 60.61 & 76.17 & 66.53 & 67.24 & 79.88 & 63.20 & 79.28 & 50.04 & 72.61 \\ & FourierFT & 60.92 & \underline{80.30} & 59.47 & 67.75 & 82.45 & 66.40 & 79.05 & 50.67 & 72.68 \\ & LoCA & 61.07 & 78.51 & 64.12 & 66.47 & 82.37 & 67.20 & 77.07 & 55.88 & 72.31 \\ & FlyLoRA & 59.02 & 78.94 & \underline{67.14} & 67.58 & \underline{84.22} & \underline{71.80} & \underline{79.66} & 52.49 & 73.64 \\ & \textbf{CASCADE} & \textbf{62.66} & \textbf{80.69} & \textbf{67.40} & \textbf{69.97} & \textbf{84.68} & \textbf{73.60} & \textbf{79.94} & \textbf{62.59} & \textbf{75.25*} \\ \midrule \multirow{7}{*}{\rotatebox{90}{\textbf{Gemma3-4B}}} & LoRA & 64.34 & 78.07 & \underline{70.21} & 75.26 & \underline{87.37} & 75.60 & \underline{77.97} & \underline{61.88} & \underline{75.21} \\ & AdaLoRA & \underline{64.86} & \underline{79.16} & 69.91 & 75.68 & 86.87 & 72.00 & 77.19 & 61.17 & 74.84 \\ & BONE & 63.67 & 78.35 & 69.19 & \underline{76.11} & 86.95 & 70.60 & 73.97 & 48.22 & 72.37 \\ & FourierFT & 64.22 & 77.42 & 68.68 & 74.32 & 87.33 & 72.00 & 74.49 & 50.75 & 72.68 \\ & LoCA & 63.52 & 76.82 & 68.47 & 73.29 & 85.98 & 68.20 & 75.06 & 49.01 & 72.39 \\ & FlyLoRA & 61.59 & 76.12 & 67.45 & 75.34 & 86.53 & \underline{77.60} & 77.88 & 58.72 & 74.15 \\ & \textbf{CASCADE} & \textbf{65.81} & \textbf{80.36} & \textbf{73.39} & \textbf{77.39} & \textbf{88.97} & \textbf{79.00} & \textbf{78.47} & \textbf{64.09} & \textbf{76.59*} \\ \bottomrule \end{tabular} } \end{table} CASCADE在所有三种骨干模型上均取得了统计显著的最优Micro-Avg性能。在Qwen3-4B上达到82.22\%,超过最强基线FlyLoRA(81.33\%)0.89个百分点;在LLaMA 3.2-3B上达到75.25\%,超过LoRA(74.05\%)1.20个百分点;在Gemma3-4B上达到76.59\%,超过LoRA(75.21\%)1.38个百分点。这些一致性的提升表明,联合建模异构更新成分比依赖单一结构假设更为有效。 进一步分析各骨干模型的结果可以发现:在Qwen3-4B上,CASCADE在8个基准中的7个上取得最优或并列最优,仅在HellaSwag上略低于FlyLoRA(85.75\% vs 85.63\%),但差距极小且在OBQA上显著领先(86.40\% vs 78.20\%),体现了多尺度适配的全面优势;在LLaMA 3.2-3B上,CASCADE相比LoRA的提升在WinoGrande上最为显著(62.59\% vs 56.35\%,提升6.24个百分点),表明多尺度频谱分解对长程依赖建模有较大增益;在Gemma3-4B上,CASCADE在SIQA任务上的提升尤为突出(73.39\% vs 70.21\%),显示其对社会推理类任务的适配能力。 \subsubsection{数学推理性能} 表~\ref{tab:ch5_cascade_math}展示了CASCADE在数学推理任务上的性能。 \begin{table}[htp] \centering \caption{CASCADE与基线方法在数学推理任务上的性能比较(Qwen3-4B,Micro-Avg准确率\%)。*表示统计显著提升。} \label{tab:ch5_cascade_math} \small \resizebox{\linewidth}{!}{ \renewcommand{\arraystretch}{1.05} \begin{tabular}{lcccccccc} \toprule \textbf{方法} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} \\ \midrule LoRA & \underline{77.50} & \underline{36.16} & \underline{83.80} & 26.77 & 85.83 & 55.90 & \underline{79.41} & \underline{58.53} \\ AdaLoRA & 80.50 & 33.81 & 75.95 & 22.83 & 74.41 & 48.80 & 74.37 & 54.01 \\ BONE & 79.50 & 31.69 & 78.99 & \underline{27.17} & 80.71 & 50.30 & 76.05 & 54.94 \\ FourierFT & 68.67 & 31.08 & 76.46 & 23.62 & 78.54 & \underline{57.30} & 74.34 & 54.02 \\ LoCA & 73.33 & 30.63 & 72.15 & 21.65 & 75.98 & 48.30 & 69.33 & 51.41 \\ FlyLoRA & 79.67 & 35.33 & 81.52 & 22.83 & \underline{86.42} & 56.20 & 73.11 & 57.93 \\ \textbf{CASCADE} & \textbf{81.33} & \textbf{37.00} & \textbf{86.08} & \textbf{27.56} & \textbf{87.60} & \textbf{57.90} & \textbf{80.25} & \textbf{60.29*} \\ \bottomrule \end{tabular} } \end{table} CASCADE在Qwen3-4B上取得了60.29\%的最优Micro-Avg性能,显著优于所有基线方法。相比次优方法LoRA(58.53\%),CASCADE提升了1.76个百分点。在7个数学推理基准中的6个上取得最优,表明其多尺度适配策略在数值计算和多步推理任务上同样有效。 \subsubsection{跨模型规模的可扩展性} 表~\ref{tab:ch5_cascade_scale}展示了CASCADE在Qwen3系列不同模型规模上的常识推理性能。 \begin{table}[htp] \centering \caption{CASCADE与基线方法在不同模型规模上的常识推理性能比较(Micro-Avg准确率\%)。} \label{tab:ch5_cascade_scale} \small \begin{tabular}{lccc} \toprule \textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} \\ \midrule LoRA & \underline{57.50} & \underline{66.25} & 81.27 \\ AdaLoRA & 56.50 & 64.37 & 78.89 \\ FlyLoRA & 54.37 & 62.12 & \underline{81.33} \\ \textbf{CASCADE} & \textbf{58.07} & \textbf{66.75} & \textbf{82.22} \\ \bottomrule \end{tabular} \end{table} CASCADE在所有模型规模上均取得最优性能,且在较小模型(0.6B)上的优势更为明显(超过次优方法0.57个百分点),表明CASCADE的多尺度频谱分解在参数容量有限时也能有效提取关键适配模式。 \subsubsection{消融与路由行为分析} \begin{figure}[htp] \centering \subcaptionbox{消融实验\label{fig:ch5_cascade_ablation_a}}{% \includegraphics[width=0.48\linewidth]{assets/5_cascade_ablation_a.pdf}} \hfill \subcaptionbox{路由权重分布\label{fig:ch5_cascade_ablation_b}}{% \includegraphics[width=0.48\linewidth]{assets/5_cascade_ablation_b.pdf}} \caption{CASCADE的消融实验与路由行为分析。(a)移除各组件后的性能变化;(b)不同层中各专家的路由权重分布。} \label{fig:ch5_cascade_ablation} \end{figure} 消融实验表明:(1)移除DCT低频专家后,Micro-Avg从82.22\%下降约0.8个百分点,证明全局性的平滑适配结构对于建立基础适配框架不可或缺;(2)移除小波高频专家导致约0.6个百分点的下降,说明局部精细修正在低频基础之上提供了必要的互补;(3)禁用级联频谱调制机制(即切断低频到高频的条件依赖,让各频段独立工作)进一步降低约0.5个百分点,突显了显式建模从粗到细依赖关系的重要性——高频调制需要以低频的全局结构为条件;(4)空域残差专家提供约0.3个百分点的一致性增益,补偿了频域变换难以表达的局部空间更新模式。上述结果表明CASCADE的四个组件各自独立贡献不可替代的适配功能。 路由权重的层间可视化揭示了一个有意义的模式:在Transformer的浅层(前1/3),DCT低频专家获得的平均路由权重显著高于其他专家,反映浅层偏好全局性的特征对齐;在中间层,三类专家的权重趋于均衡,表明中间表示同时需要多尺度的调整;在深层(后1/3),小波高频专家的权重明显增大,表明深层更需要对局部语义特征的精细修正。这种层间路由演化趋势与CASCADE预期的从粗到细适配行为高度一致,也从另一角度验证了级联调制机制的合理性。 \subsection{MESSA实验验证} \label{subsec:ch5_messa_exp} \subsubsection{实验设置} \textbf{数据集与任务}。在五个多样化任务上评估多任务联合适配能力:BoolQ(布尔推理,Acc)、CodeAlpaca(代码生成,ICR)、MedQA(医学问答,Acc)、GSM8K(数学推理,EM)和HellaSwag(常识推理,Acc)。这五个任务涵盖了从事实判断、程序生成到领域知识和数学计算的异质推理场景,对多任务适配方法提出了全面的考验。报告三个聚合指标:Macro Average(宏平均)、Geometric Mean(几何平均,对低性能任务更敏感)和Worst-Task(最差任务性能,衡量任务间均衡性)。 \textbf{骨干模型}。采用Qwen3-4B、LLaMA 3.2-3B和Gemma3-4B三种架构差异显著的预训练模型,以评估方法的跨架构泛化能力。可扩展性实验使用Qwen3系列(0.6B、1.7B、4B)。 \textbf{基线方法}。包括低秩方法(LoRA、AdaLoRA,分shared和specific两种多任务设置)、稀疏方法(SHiRA,同样两种设置)和多任务专用方法(MTLoRA、MOELoRA)。其中shared设置为所有任务共享一组适配参数,specific设置为每个任务独立训练参数。所有方法在匹配的总参数预算(约2.25\%--2.70\%)下进行公平比较。 \textbf{实现细节}。在NVIDIA RTX 4090上使用BF16混合精度训练。采用AdamW优化器,学习率1e-4,余弦调度,采用基于epoch的混合任务采样策略。MESSA配置:参数预算2.5\%、候选池因子1.5、门控预热比例5\%、在训练15\%处执行一次性剪枝、重叠允许比例15\%。 \subsubsection{多任务总体性能} 表~\ref{tab:ch5_messa_overall}展示了MESSA在多任务总体性能上的结果。 \begin{table}[htp] \centering \caption{MESSA与基线方法在多任务总体性能上的比较。Avg为宏平均,Geo为几何平均,Worst为最差任务性能。*表示统计显著提升。} \label{tab:ch5_messa_overall} \small \resizebox{\linewidth}{!}{ \renewcommand{\arraystretch}{1.05} \begin{tabular}{l|c|ccc|ccc|ccc} \toprule \multirow{2}{*}{\textbf{方法}} & \multirow{2}{*}{\textbf{参数(\%)}} & \multicolumn{3}{c|}{\textbf{Qwen3-4B}} & \multicolumn{3}{c|}{\textbf{LLaMA3.2-3B}} & \multicolumn{3}{c}{\textbf{Gemma3-4B}} \\ \cmidrule(lr){3-5} \cmidrule(lr){6-8} \cmidrule(lr){9-11} & & Avg & Geo & Worst & Avg & Geo & Worst & Avg & Geo & Worst \\ \midrule LoRA (shared) & 2.25 & 76.47 & 75.56 & 59.81 & 67.05 & 65.99 & 53.03 & 71.22 & 69.53 & 50.08 \\ LoRA (specific) & 2.25 & \underline{76.66} & \underline{75.76} & 60.75 & 64.70 & 63.29 & 52.75 & \underline{71.86} & \underline{70.09} & 49.45 \\ AdaLoRA (shared) & 2.50 & 74.82 & 73.94 & 58.24 & 63.02 & 62.10 & 51.18 & 65.39 & 62.85 & 42.27 \\ AdaLoRA (specific) & 2.50 & 75.45 & 74.61 & 59.18 & 62.94 & 61.99 & 53.03 & 66.57 & 64.00 & 43.33 \\ \midrule SHiRA (shared) & 2.26 & 74.60 & 73.51 & 56.99 & 70.35 & 69.40 & 53.06 & 67.99 & 65.64 & 44.27 \\ SHiRA (specific) & 2.26 & 76.62 & 75.67 & \underline{62.64} & 66.94 & 65.62 & 51.33 & 71.26 & 69.52 & \underline{50.86} \\ \midrule MTLoRA & 2.70 & \underline{76.81} & \underline{75.98} & 62.01 & \underline{71.95} & \underline{71.29} & \underline{58.08} & 71.60 & 69.84 & 50.24 \\ MOELoRA & 2.26 & 76.07 & 75.27 & 60.91 & 70.96 & 70.24 & 55.42 & 70.52 & 68.78 & 48.67 \\ \textbf{MESSA} & 1.86 & \textbf{78.01*} & \textbf{77.18*} & \textbf{62.79*} & \textbf{72.96*} & \textbf{72.42*} & \textbf{59.50*} & \textbf{72.40*} & \textbf{70.63*} & \textbf{51.33*} \\ \bottomrule \end{tabular} } \end{table} MESSA在所有三种骨干模型上均取得统计显著的最优多任务性能,且使用的可训练参数(1.86\%)少于所有基线方法。在Qwen3-4B上,MESSA的Avg达到78.01\%,超过最强基线MTLoRA(76.81\%)1.20个百分点;Worst-Task达到62.79\%,表明MESSA有效平衡了多任务间的性能。 从跨骨干分析来看,MESSA在不同架构上的优势具有一致性:在LLaMA 3.2-3B上,MESSA的Avg(72.96\%)和Geo(72.42\%)均显著领先次优方法MTLoRA(71.95\%/71.29\%),差距约1个百分点;在Gemma3-4B上,MESSA在Avg(72.40\%)和Worst-Task(51.33\%)上也取得最优。特别值得关注的是MESSA在Worst-Task指标上的表现:在Qwen3-4B上62.79\%、LLaMA 3.2-3B上59.50\%、Gemma3-4B上51.33\%,均为各自骨干下的最优值。这表明MESSA的共享-特有分解与预算感知分配机制不仅提升了平均性能,更有效地防止了对特定任务的过度偏好,从而在异质任务间实现了更均衡的资源分配。 另一个重要发现是MESSA的参数效率优势。MESSA仅使用1.86\%的可训练参数,少于所有基线方法(LoRA 2.25\%、SHiRA 2.26\%、MTLoRA 2.70\%),但性能全面领先。这一"更少参数,更优性能"的结果从侧面验证了预算感知稀疏分配的有效性——通过将有限预算精准分配到关键参数组,避免了低效参数的浪费。 \subsubsection{逐任务性能分析} 表~\ref{tab:ch5_messa_pertask}进一步展示了MESSA在Qwen3-4B上五个任务的逐任务性能。 \begin{table}[htp] \centering \caption{MESSA与基线方法在各任务上的逐项性能比较(Qwen3-4B)。} \label{tab:ch5_messa_pertask} \small \resizebox{\linewidth}{!}{ \renewcommand{\arraystretch}{1.05} \begin{tabular}{lccccccc} \toprule \textbf{方法} & \textbf{BoolQ} & \textbf{CodeAlpaca} & \textbf{MedQA} & \textbf{GSM8K} & \textbf{HellaSwag} & \textbf{Avg} & \textbf{Geo} \\ \midrule LoRA (shared) & 86.79 & \underline{67.45} & 59.81 & 77.27 & 91.02 & 76.47 & 75.56 \\ LoRA (specific) & \underline{87.89} & 67.40 & 60.75 & 76.06 & 91.20 & 76.66 & 75.76 \\ AdaLoRA (shared) & 85.81 & 66.55 & 58.24 & 75.61 & 87.89 & 74.82 & 73.94 \\ AdaLoRA (specific) & 85.02 & 66.75 & 59.18 & \underline{77.42} & 88.89 & 75.45 & 74.61 \\ SHiRA (shared) & 86.79 & 64.65 & 56.99 & 74.85 & 89.70 & 74.60 & 73.51 \\ SHiRA (specific) & 87.40 & 63.50 & \underline{62.64} & 77.73 & \underline{91.83} & 76.62 & 75.67 \\ MTLoRA & 86.42 & 66.35 & 62.01 & \textbf{78.33} & 90.92 & \underline{76.81} & \underline{75.98} \\ MOELoRA & 86.24 & \underline{67.65} & 60.91 & 75.61 & 89.92 & 76.07 & 75.27 \\ \textbf{MESSA} & \textbf{88.07} & \textbf{68.30} & \textbf{62.79} & \textbf{78.33} & \textbf{92.57} & \textbf{78.01} & \textbf{77.18} \\ \bottomrule \end{tabular} } \end{table} 逐任务分析揭示了MESSA在所有五个任务上均取得最优或并列最优的性能。特别地,在跨领域差异最大的任务对(如编程类CodeAlpaca与医学类MedQA)上,MESSA均显著优于所有基线,表明共享-特有稀疏分解有效地在异质任务之间实现了知识的选择性复用与差异化适配。 \subsubsection{跨模型规模的可扩展性} 表~\ref{tab:ch5_messa_scale}展示了MESSA在Qwen3系列不同模型规模上的多任务性能。 \begin{table}[htp] \centering \caption{MESSA与基线方法在不同模型规模上的多任务性能比较。} \label{tab:ch5_messa_scale} \small \resizebox{\linewidth}{!}{ \renewcommand{\arraystretch}{1.05} \begin{tabular}{lcccccc} \toprule \multirow{2}{*}{\textbf{方法}} & \multicolumn{2}{c}{\textbf{Qwen3-0.6B}} & \multicolumn{2}{c}{\textbf{Qwen3-1.7B}} & \multicolumn{2}{c}{\textbf{Qwen3-4B}} \\ \cmidrule(lr){2-3} \cmidrule(lr){4-5} \cmidrule(lr){6-7} & Avg & Geo & Avg & Geo & Avg & Geo \\ \midrule LoRA (shared) & 58.97 & 55.91 & 69.75 & 68.42 & 76.47 & 75.56 \\ LoRA (specific) & 60.66 & 58.12 & 69.67 & 68.30 & 76.66 & 75.76 \\ SHiRA (shared) & 56.59 & 53.21 & 68.47 & 66.83 & 74.60 & 73.51 \\ SHiRA (specific) & 60.74 & 57.64 & \underline{70.96} & \underline{69.76} & 76.62 & 75.67 \\ MTLoRA & \underline{61.13} & \underline{58.39} & 70.05 & 68.61 & \underline{76.81} & \underline{75.98} \\ \textbf{MESSA} & \textbf{61.77} & \textbf{58.65} & \textbf{71.93} & \textbf{70.18} & \textbf{78.01} & \textbf{77.18} \\ \bottomrule \end{tabular} } \end{table} MESSA在所有模型规模上均取得最优性能。随着模型规模从0.6B增大到4B,MESSA相对于基线的优势保持稳定(Avg差距约0.6--1.9个百分点),表明共享-特有分解的结构分配策略在不同参数容量下均能有效运作。 \subsubsection{消融与结构分析} \begin{figure}[htp] \centering \includegraphics[width=0.9\linewidth]{assets/5_messa_analysis.pdf} \caption{MESSA的消融实验与结构分析。(a)各组件对多任务性能的贡献;(b)共享和任务特有更新在注意力模块间的分配比例。} \label{fig:ch5_messa_analysis} \end{figure} 消融实验表明,移除MESSA的任何核心组件均导致一致性的性能下降,验证了联合设计的必要性。具体而言:(1)移除共享-特有分解(即退化为纯共享或纯特有设置)导致Avg下降约1.2--1.5个百分点,表明显式的结构分离对多任务适配至关重要;(2)移除预算感知软门控(改为固定随机结构)导致Avg下降约0.8个百分点,证明数据驱动的结构发现优于手工或随机选择;(3)跳过门控预热阶段(直接开始联合优化门控和参数)导致训练不稳定和约0.5个百分点的性能损失,验证了预热阶段对初始化稳定稀疏结构的必要性;(4)移除共享-特有重叠正则化后,共享和特有参数组的重合比例显著增加,导致有效参数利用率下降和约0.4个百分点的性能损失。 结构分析可视化了注意力模块间的共享与任务特有更新分配,揭示了有意义的功能分化模式。共享稀疏更新在Key投影中被最频繁地选择(约占共享更新的35\%),其次是Value投影(约28\%)和Query投影(约22\%),Output投影最少(约15\%)。这一分布可以从注意力机制的功能角色来理解:Key投影定义了与任务无关的"被查询"表示空间,自然适合作为跨任务共享的适配目标;而Query投影更多地反映当前任务的查询意图,因此更倾向于被分配为任务特有更新。这种自发涌现的结构分化进一步验证了MESSA让数据驱动结构发现的设计理念。 \subsection{面向时空场景的补充验证} \label{subsec:ch5_st_validation} % TODO: 时空实验占位符 为验证CASCADE和MESSA在时空数据建模场景下的有效性,本节计划进行以下补充实验: (1)\textbf{CASCADE时空适配实验}。在时空预测任务上,以大语言模型为骨干,对比CASCADE与LoRA等基线方法。重点验证:多尺度频谱分解是否能更好地捕获时空数据中的多时间尺度模式;路由权重是否反映出时空特征的层间演化规律。 (2)\textbf{MESSA多任务时空实验}。在联合多个城市时空任务(如交通预测、区域分类、轨迹推理)的场景下,对比MESSA与LoRA shared/specific设置。重点验证:共享-特有分解是否能有效识别跨时空任务的通用知识和任务特异性需求。 \emph{上述实验的详细设置与结果将在后续补充完善。} \section{本章小结} \label{sec:ch5_summary} 本章将视角从表示空间转向参数空间,围绕频谱级多尺度异质性($\mathcal{R}_{spec}$)和参数级容量分配异质性($\mathcal{R}_{param}$),提出了两种结构感知适配方法。 CASCADE通过异构频域/空域专家建模权重更新的多尺度结构,并引入级联频谱调制建立从粗到细的跨频率依赖关系。在三种骨干模型和15个基准数据集上,CASCADE在常识与数学推理任务上均显著优于现有PEFT基线,验证了联合建模异构更新成分的有效性。 MESSA针对多任务场景,将适配分解为共享和任务特有的稀疏增量,通过预算感知的软到硬结构学习在统一参数预算下实现最优容量分配。在三种骨干模型和五个多样化任务上,MESSA以更少的参数量取得了全面领先的多任务性能,验证了显式建模共享-特有结构的价值。 CASCADE和MESSA分别丰富了统一框架中的组合式调制和结构分解调制形式,与第三章的乘性调制共同构成了完整的结构感知适配方法体系。至此,本文围绕四类结构异质性($\mathcal{R}_{mod}$、$\mathcal{R}_{dim}$、$\mathcal{R}_{spec}$、$\mathcal{R}_{param}$)提出的适配方法已全部介绍完毕。下一章将转向评测基础设施建设,为上述方法提供时空场景下的系统性评测支持。