1.fix all table size;2.fix some table max/2nd-max mark error;3.add fig & table caption mark;4.add some ref bibs

This commit is contained in:
D调E点
2026-03-23 12:20:48 +08:00
committed by panda361
parent cacdc79ae2
commit 965f2790dc
45 changed files with 380 additions and 275 deletions

View File

@@ -1,4 +1,4 @@
% !TeX root = ../main.tex
% !TeX root = main.tex
% 第六章 多尺度频谱感知与参数自适应的表征适配方法
\chapter{基于多尺度频谱结构与容量分配的参数空间适配方法}
\label{chap:cascade_messa}
@@ -36,7 +36,7 @@
\begin{figure}[htp]
\centering
\includegraphics[width=0.9\linewidth]{assets/6_spectral_analysis.pdf}
\caption{全量微调下权重更新的频谱特性。高频成分在频谱能量上占主导,但影响范围局限于少量参数;低频成分能量较小但影响权重矩阵的大部分区域。该模式在不同层和模块间保持一致。}
\caption[全量微调下权重更新的频谱特性]{全量微调下权重更新的频谱特性。高频成分在频谱能量上占主导,但影响范围局限于少量参数;低频成分能量较小但影响权重矩阵的大部分区域。该模式在不同层和模块间保持一致。}
\label{fig:ch6_spectral}
\end{figure}
@@ -50,7 +50,7 @@
\begin{figure}[htp]
\centering
\includegraphics[width=0.9\linewidth]{assets/6_task_activation.png}
\caption{多任务微调中不同任务在注意力模块各层的激活差异。红色表示任务A激活更强蓝色表示任务B激活更强揭示了不同层和模块对共享/专用适配的差异化需求。}
\caption[多任务微调中不同任务在注意力模块各层的激活差异]{多任务微调中不同任务在注意力模块各层的激活差异。红色表示任务A激活更强蓝色表示任务B激活更强揭示了不同层和模块对共享/专用适配的差异化需求。}
\label{fig:ch6_task_diff}
\end{figure}
@@ -90,7 +90,7 @@ CASCADE和MESSA分别回应了上述启示的前两点和后两点。
\begin{figure}[htp]
\centering
\includegraphics[width=0.85\linewidth]{assets/6_cascade_arch.pdf}
\caption{CASCADE方法框架图。CASCADE通过异构的频域和空域专家适配冻结的骨干模块借助级联调制协调全局与局部更新并通过频谱复杂度感知路由实现自适应专家组合。}
\caption[CASCADE方法框架图]{CASCADE方法框架图。CASCADE通过异构的频域和空域专家适配冻结的骨干模块借助级联调制协调全局与局部更新并通过频谱复杂度感知路由实现自适应专家组合。}
\label{fig:ch6_cascade_arch}
\end{figure}
@@ -220,7 +220,7 @@ CASCADE的主要超参数包括低频DCT系数20K个、小波系数10K个、
\RestyleAlgo{ruled}
\begin{algorithm}[htp]
\caption{CASCADE从粗到细的频谱级联适配算法}
\caption[CASCADE从粗到细的频谱级联适配算法]{CASCADE从粗到细的频谱级联适配算法}
\label{alg:ch6_cascade}
\KwIn{输入激活$\mathbf{x}$,冻结权重矩阵$\mathbf{W}_0$}
\KwOut{适配后的输出$\mathbf{y}$}
@@ -250,7 +250,7 @@ CASCADE解决了单一适配中的频谱级多尺度异质性问题。本节进
\begin{figure}[htp]
\centering
\includegraphics[width=0.85\linewidth]{assets/6_messa_arch.pdf}
\caption{MESSA方法框架图。MESSA将适配分解为共享和任务特有的稀疏更新通过预算感知的软门控学习稀疏结构并通过软到硬的训练过程在统一参数预算下生成可部署的稀疏模型。}
\caption[MESSA方法框架图]{MESSA方法框架图。MESSA将适配分解为共享和任务特有的稀疏更新通过预算感知的软门控学习稀疏结构并通过软到硬的训练过程在统一参数预算下生成可部署的稀疏模型。}
\label{fig:ch6_messa_arch}
\end{figure}
@@ -332,7 +332,7 @@ MESSA将每个任务$t$的适配增量分解为共享成分和任务特有成分
\RestyleAlgo{ruled}
\begin{algorithm}[htp]
\caption{MESSA软到硬的多任务稀疏微调算法}
\caption[MESSA软到硬的多任务稀疏微调算法]{MESSA软到硬的多任务稀疏微调算法}
\label{alg:ch6_messa}
\KwIn{冻结骨干模型$\mathcal{M}$,任务集合$\{\mathcal{T}_t\}_{t=1}^T$,全局预算$B$,训练步数$S$}
\KwOut{共享稀疏更新$\Delta_{\mathrm{sh}}$,各任务特有稀疏更新$\{\Delta_{\mathrm{sp}}^{(t)}\}_{t=1}^T$}
@@ -406,7 +406,7 @@ CASCADE和MESSA从不同角度应对参数空间的结构异质性挑战
\centering
% 占位:待替换为外部绘制的 6_cascade_messa_relation.pdf
% \includegraphics[width=0.85\textwidth]{assets/6_cascade_messa_relation.pdf}
\caption{CASCADE与MESSA在参数空间适配中的互补关系。该图采用双轴矩阵布局
\caption[CASCADE与MESSA在参数空间适配中的互补关系]{CASCADE与MESSA在参数空间适配中的互补关系。该图采用双轴矩阵布局
\textbf{横轴}为"适配问题维度",标注两个正交方向——"单任务内部的多尺度结构"(左)和"多任务间的容量分配"(右)。
\textbf{纵轴}为"调制机制",标注两种形式——"组合式调制"(上)和"结构分解调制"(下)。
CASCADE定位于左上象限用小型示意图展示其核心机制权重更新$\Delta\mathbf{W}$通过DCT和小波分解为低频全局成分与高频局部成分经级联调制后由路由权重$w_e$加权重组。
@@ -439,11 +439,10 @@ MESSA定位于右下象限用小型示意图展示其核心机制参数组
表~\ref{tab:ch6_cascade_common}展示了CASCADE在常识推理任务上的性能。
\begin{table}[htp]
\begin{table}[!htbp]
\centering
\caption{CASCADE与基线方法在常识推理任务上的性能比较Micro-Avg准确率\%)。*表示统计显著提升。}
\caption[CASCADE与基线方法在常识推理任务上的性能比较Micro-Avg准确率\%]{CASCADE与基线方法在常识推理任务上的性能比较Micro-Avg准确率\%)。\\ *表示统计显著提升。}
\label{tab:ch6_cascade_common}
\small
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{1.05}
\begin{tabular}{l|lcccccccccc}
@@ -489,19 +488,18 @@ CASCADE在所有三种骨干模型上均取得了统计显著的最优Micro-Avg
表~\ref{tab:ch6_cascade_math}展示了CASCADE在数学推理任务上的性能。
\begin{table}[htp]
\begin{table}[!htbp]
\centering
\caption{CASCADE与基线方法在数学推理任务上的性能比较Qwen3-4BMicro-Avg准确率\%)。*表示统计显著提升。}
\caption[CASCADE与基线方法在数学推理任务上的性能比较Qwen3-4BMicro-Avg准确率\%]{CASCADE与基线方法在数学推理任务上的性能比较Qwen3-4BMicro-Avg准确率\%)。*表示统计显著提升。}
\label{tab:ch6_cascade_math}
\small
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{1.05}
\begin{tabular}{lcccccccc}
\toprule
\textbf{方法} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} \\
\midrule
LoRA & \underline{77.50} & \underline{36.16} & \underline{83.80} & 26.77 & 85.83 & 55.90 & \underline{79.41} & \underline{58.53} \\
AdaLoRA & 80.50 & 33.81 & 75.95 & 22.83 & 74.41 & 48.80 & 74.37 & 54.01 \\
LoRA & 77.50 & \underline{36.16} & \underline{83.80} & 26.77 & 85.83 & 55.90 & \underline{79.41} & \underline{58.53} \\
AdaLoRA & \underline{80.50} & 33.81 & 75.95 & 22.83 & 74.41 & 48.80 & 74.37 & 54.01 \\
BONE & 79.50 & 31.69 & 78.99 & \underline{27.17} & 80.71 & 50.30 & 76.05 & 54.94 \\
FourierFT & 68.67 & 31.08 & 76.46 & 23.62 & 78.54 & \underline{57.30} & 74.34 & 54.02 \\
LoCA & 73.33 & 30.63 & 72.15 & 21.65 & 75.98 & 48.30 & 69.33 & 51.41 \\
@@ -518,11 +516,10 @@ CASCADE在Qwen3-4B上取得了60.29\%的最优Micro-Avg性能显著优于所
表~\ref{tab:ch6_cascade_scale}展示了CASCADE在Qwen3系列不同模型规模上的常识推理性能。
\begin{table}[htp]
\begin{table}[!htbp]
\centering
\caption{CASCADE与基线方法在不同模型规模上的常识推理性能比较Micro-Avg准确率\%)。}
\caption[CASCADE与基线方法在不同模型规模上的常识推理性能比较Micro-Avg准确率\%]{CASCADE与基线方法在不同模型规模上的常识推理性能比较Micro-Avg准确率\%)。}
\label{tab:ch6_cascade_scale}
\small
\begin{tabular}{lccc}
\toprule
\textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} \\
@@ -546,7 +543,7 @@ CASCADE在所有模型规模上均取得最优性能且在较小模型0.6B
\hfill
\subcaptionbox{路由权重分布\label{fig:ch6_cascade_ablation_b}}{%
\includegraphics[width=0.48\linewidth]{assets/6_cascade_ablation_b.pdf}}
\caption{CASCADE的消融实验与路由行为分析。a移除各组件后的性能变化b不同层中各专家的路由权重分布。}
\caption[CASCADE的消融实验与路由行为分析]{CASCADE的消融实验与路由行为分析。a移除各组件后的性能变化b不同层中各专家的路由权重分布。}
\label{fig:ch6_cascade_ablation}
\end{figure}
@@ -571,11 +568,10 @@ CASCADE在所有模型规模上均取得最优性能且在较小模型0.6B
表~\ref{tab:ch6_messa_overall}展示了MESSA在多任务总体性能上的结果。
\begin{table}[htp]
\begin{table}[!htbp]
\centering
\caption{MESSA与基线方法在多任务总体性能上的比较。Avg为宏平均Geo为几何平均Worst为最差任务性能。*表示统计显著提升。}
\caption[MESSA与基线方法在多任务总体性能上的比较]{MESSA与基线方法在多任务总体性能上的比较。Avg为宏平均Geo为几何平均Worst为最差任务性能。*表示统计显著提升。}
\label{tab:ch6_messa_overall}
\small
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{1.05}
\begin{tabular}{l|c|ccc|ccc|ccc}
@@ -585,7 +581,7 @@ CASCADE在所有模型规模上均取得最优性能且在较小模型0.6B
& & Avg & Geo & Worst & Avg & Geo & Worst & Avg & Geo & Worst \\
\midrule
LoRA (shared) & 2.25 & 76.47 & 75.56 & 59.81 & 67.05 & 65.99 & 53.03 & 71.22 & 69.53 & 50.08 \\
LoRA (specific) & 2.25 & \underline{76.66} & \underline{75.76} & 60.75 & 64.70 & 63.29 & 52.75 & \underline{71.86} & \underline{70.09} & 49.45 \\
LoRA (specific) & 2.25 & 76.66 & 75.76 & 60.75 & 64.70 & 63.29 & 52.75 & \underline{71.86} & \underline{70.09} & 49.45 \\
AdaLoRA (shared) & 2.50 & 74.82 & 73.94 & 58.24 & 63.02 & 62.10 & 51.18 & 65.39 & 62.85 & 42.27 \\
AdaLoRA (specific) & 2.50 & 75.45 & 74.61 & 59.18 & 62.94 & 61.99 & 53.03 & 66.57 & 64.00 & 43.33 \\
\midrule
@@ -610,29 +606,29 @@ MESSA在所有三种骨干模型上均取得统计显著的最优多任务性能
表~\ref{tab:ch6_messa_pertask}进一步展示了MESSA在Qwen3-4B上五个任务的逐任务性能。
\begin{table}[htp]
\begin{table}[!htbp]
\centering
\caption{MESSA与基线方法在各任务上的逐项性能比较Qwen3-4B}
\caption[MESSA与基线方法在各任务上的逐项性能比较Qwen3-4B]{MESSA与基线方法在各任务上的逐项性能比较Qwen3-4B}
\label{tab:ch6_messa_pertask}
\small
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{1.05}
\begin{tabular}{lccccccc}
\toprule
\textbf{方法} & \textbf{BoolQ} & \textbf{CodeAlpaca} & \textbf{MedQA} & \textbf{GSM8K} & \textbf{HellaSwag} & \textbf{Avg} & \textbf{Geo} \\
\midrule
LoRA (shared) & 86.79 & \underline{67.45} & 59.81 & 77.27 & 91.02 & 76.47 & 75.56 \\
LoRA (shared) & 86.79 & 67.45 & 59.81 & 77.27 & 91.02 & 76.47 & 75.56 \\
LoRA (specific) & \underline{87.89} & 67.40 & 60.75 & 76.06 & 91.20 & 76.66 & 75.76 \\
AdaLoRA (shared) & 85.81 & 66.55 & 58.24 & 75.61 & 87.89 & 74.82 & 73.94 \\
AdaLoRA (specific) & 85.02 & 66.75 & 59.18 & \underline{77.42} & 88.89 & 75.45 & 74.61 \\
AdaLoRA (specific) & 85.02 & 66.75 & 59.18 & 77.42 & 88.89 & 75.45 & 74.61 \\
SHiRA (shared) & 86.79 & 64.65 & 56.99 & 74.85 & 89.70 & 74.60 & 73.51 \\
SHiRA (specific) & 87.40 & 63.50 & \underline{62.64} & 77.73 & \underline{91.83} & 76.62 & 75.67 \\
SHiRA (specific) & 87.40 & 63.50 & \underline{62.64} & \underline{77.73} & \underline{91.83} & 76.62 & 75.67 \\
MTLoRA & 86.42 & 66.35 & 62.01 & \textbf{78.33} & 90.92 & \underline{76.81} & \underline{75.98} \\
MOELoRA & 86.24 & \underline{67.65} & 60.91 & 75.61 & 89.92 & 76.07 & 75.27 \\
\textbf{MESSA} & \textbf{88.07} & \textbf{68.30} & \textbf{62.79} & \textbf{78.33} & \textbf{92.57} & \textbf{78.01} & \textbf{77.18} \\
\bottomrule
\end{tabular}
}
\end{table}
逐任务分析揭示了MESSA在所有五个任务上均取得最优或并列最优的性能。特别地在跨领域差异最大的任务对如编程类CodeAlpaca与医学类MedQAMESSA均显著优于所有基线表明共享-特有稀疏分解有效地在异质任务之间实现了知识的选择性复用与差异化适配。
@@ -641,12 +637,11 @@ MESSA在所有三种骨干模型上均取得统计显著的最优多任务性能
表~\ref{tab:ch6_messa_scale}展示了MESSA在Qwen3系列不同模型规模上的多任务性能。
\begin{table}[htp]
\begin{table}[!htbp]
\centering
\caption{MESSA与基线方法在不同模型规模上的多任务性能比较。}
\caption[MESSA与基线方法在不同模型规模上的多任务性能比较]{MESSA与基线方法在不同模型规模上的多任务性能比较。}
\label{tab:ch6_messa_scale}
\small
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{1.05}
\begin{tabular}{lcccccc}
\toprule
@@ -662,7 +657,7 @@ MESSA在所有三种骨干模型上均取得统计显著的最优多任务性能
\textbf{MESSA} & \textbf{61.77} & \textbf{58.65} & \textbf{71.93} & \textbf{70.18} & \textbf{78.01} & \textbf{77.18} \\
\bottomrule
\end{tabular}
}
\end{table}
MESSA在所有模型规模上均取得最优性能。随着模型规模从0.6B增大到4BMESSA相对于基线的优势保持稳定Avg差距约0.6--1.9个百分点),表明共享-特有分解的结构分配策略在不同参数容量下均能有效运作。
@@ -672,7 +667,7 @@ MESSA在所有模型规模上均取得最优性能。随着模型规模从0.6B
\begin{figure}[htp]
\centering
\includegraphics[width=0.9\linewidth]{assets/6_messa_analysis.pdf}
\caption{MESSA的消融实验与结构分析。a各组件对多任务性能的贡献b共享和任务特有更新在注意力模块间的分配比例。}
\caption[MESSA的消融实验与结构分析]{MESSA的消融实验与结构分析。a各组件对多任务性能的贡献b共享和任务特有更新在注意力模块间的分配比例。}
\label{fig:ch6_messa_analysis}
\end{figure}