1.fix all table size;2.fix some table max/2nd-max mark error;3.add fig & table caption mark;4.add some ref bibs

2026-03-23 12:20:48 +08:00
parent cacdc79ae2
commit 965f2790dc
45 changed files with 380 additions and 275 deletions
--- a/chap06.tex
+++ b/chap06.tex
@@ -1,4 +1,4 @@
-% !TeX root = ../main.tex
+% !TeX root = main.tex
 % 第六章 多尺度频谱感知与参数自适应的表征适配方法
 \chapter{基于多尺度频谱结构与容量分配的参数空间适配方法}
 \label{chap:cascade_messa}
@@ -36,7 +36,7 @@
 \begin{figure}[htp]
  \centering
  \includegraphics[width=0.9\linewidth]{assets/6_spectral_analysis.pdf}
-  \caption{全量微调下权重更新的频谱特性。高频成分在频谱能量上占主导，但影响范围局限于少量参数；低频成分能量较小但影响权重矩阵的大部分区域。该模式在不同层和模块间保持一致。}
+  \caption[全量微调下权重更新的频谱特性]{全量微调下权重更新的频谱特性。高频成分在频谱能量上占主导，但影响范围局限于少量参数；低频成分能量较小但影响权重矩阵的大部分区域。该模式在不同层和模块间保持一致。}
  \label{fig:ch6_spectral}
 \end{figure}

@@ -50,7 +50,7 @@
 \begin{figure}[htp]
  \centering
  \includegraphics[width=0.9\linewidth]{assets/6_task_activation.png}
-  \caption{多任务微调中不同任务在注意力模块各层的激活差异。红色表示任务A激活更强，蓝色表示任务B激活更强，揭示了不同层和模块对共享/专用适配的差异化需求。}
+  \caption[多任务微调中不同任务在注意力模块各层的激活差异]{多任务微调中不同任务在注意力模块各层的激活差异。红色表示任务A激活更强，蓝色表示任务B激活更强，揭示了不同层和模块对共享/专用适配的差异化需求。}
  \label{fig:ch6_task_diff}
 \end{figure}

@@ -90,7 +90,7 @@ CASCADE和MESSA分别回应了上述启示的前两点和后两点。
 \begin{figure}[htp]
  \centering
  \includegraphics[width=0.85\linewidth]{assets/6_cascade_arch.pdf}
-  \caption{CASCADE方法框架图。CASCADE通过异构的频域和空域专家适配冻结的骨干模块，借助级联调制协调全局与局部更新，并通过频谱复杂度感知路由实现自适应专家组合。}
+  \caption[CASCADE方法框架图]{CASCADE方法框架图。CASCADE通过异构的频域和空域专家适配冻结的骨干模块，借助级联调制协调全局与局部更新，并通过频谱复杂度感知路由实现自适应专家组合。}
  \label{fig:ch6_cascade_arch}
 \end{figure}

@@ -220,7 +220,7 @@ CASCADE的主要超参数包括：低频DCT系数20K个、小波系数10K个、

 \RestyleAlgo{ruled}
 \begin{algorithm}[htp]
-\caption{CASCADE：从粗到细的频谱级联适配算法}
+\caption[CASCADE：从粗到细的频谱级联适配算法]{CASCADE：从粗到细的频谱级联适配算法}
 \label{alg:ch6_cascade}
 \KwIn{输入激活$\mathbf{x}$，冻结权重矩阵$\mathbf{W}_0$}
 \KwOut{适配后的输出$\mathbf{y}$}
@@ -250,7 +250,7 @@ CASCADE解决了单一适配中的频谱级多尺度异质性问题。本节进
 \begin{figure}[htp]
  \centering
  \includegraphics[width=0.85\linewidth]{assets/6_messa_arch.pdf}
-  \caption{MESSA方法框架图。MESSA将适配分解为共享和任务特有的稀疏更新，通过预算感知的软门控学习稀疏结构，并通过软到硬的训练过程在统一参数预算下生成可部署的稀疏模型。}
+  \caption[MESSA方法框架图]{MESSA方法框架图。MESSA将适配分解为共享和任务特有的稀疏更新，通过预算感知的软门控学习稀疏结构，并通过软到硬的训练过程在统一参数预算下生成可部署的稀疏模型。}
  \label{fig:ch6_messa_arch}
 \end{figure}

@@ -332,7 +332,7 @@ MESSA将每个任务$t$的适配增量分解为共享成分和任务特有成分

 \RestyleAlgo{ruled}
 \begin{algorithm}[htp]
-\caption{MESSA：软到硬的多任务稀疏微调算法}
+\caption[MESSA：软到硬的多任务稀疏微调算法]{MESSA：软到硬的多任务稀疏微调算法}
 \label{alg:ch6_messa}
 \KwIn{冻结骨干模型$\mathcal{M}$，任务集合$\{\mathcal{T}_t\}_{t=1}^T$，全局预算$B$，训练步数$S$}
 \KwOut{共享稀疏更新$\Delta_{\mathrm{sh}}$，各任务特有稀疏更新$\{\Delta_{\mathrm{sp}}^{(t)}\}_{t=1}^T$}
@@ -406,7 +406,7 @@ CASCADE和MESSA从不同角度应对参数空间的结构异质性挑战，两
 \centering
 % 占位：待替换为外部绘制的 6_cascade_messa_relation.pdf
 % \includegraphics[width=0.85\textwidth]{assets/6_cascade_messa_relation.pdf}
-\caption{CASCADE与MESSA在参数空间适配中的互补关系。该图采用双轴矩阵布局：
+\caption[CASCADE与MESSA在参数空间适配中的互补关系]{CASCADE与MESSA在参数空间适配中的互补关系。该图采用双轴矩阵布局：
 \textbf{横轴}为"适配问题维度"，标注两个正交方向——"单任务内部的多尺度结构"（左）和"多任务间的容量分配"（右）。
 \textbf{纵轴}为"调制机制"，标注两种形式——"组合式调制"（上）和"结构分解调制"（下）。
 CASCADE定位于左上象限，用小型示意图展示其核心机制：权重更新$\Delta\mathbf{W}$通过DCT和小波分解为低频全局成分与高频局部成分，经级联调制后由路由权重$w_e$加权重组。
@@ -439,11 +439,10 @@ MESSA定位于右下象限，用小型示意图展示其核心机制：参数组

 表~\ref{tab:ch6_cascade_common}展示了CASCADE在常识推理任务上的性能。

-\begin{table}[htp]
+\begin{table}[!htbp]
    \centering
-    \caption{CASCADE与基线方法在常识推理任务上的性能比较（Micro-Avg准确率\%）。*表示统计显著提升。}
+    \caption[CASCADE与基线方法在常识推理任务上的性能比较（Micro-Avg准确率\%）]{CASCADE与基线方法在常识推理任务上的性能比较（Micro-Avg准确率\%）。\\ *表示统计显著提升。}
    \label{tab:ch6_cascade_common}
-    \small
    \resizebox{\linewidth}{!}{
        \renewcommand{\arraystretch}{1.05}
        \begin{tabular}{l|lcccccccccc}
@@ -489,19 +488,18 @@ CASCADE在所有三种骨干模型上均取得了统计显著的最优Micro-Avg

 表~\ref{tab:ch6_cascade_math}展示了CASCADE在数学推理任务上的性能。

-\begin{table}[htp]
+\begin{table}[!htbp]
    \centering
-    \caption{CASCADE与基线方法在数学推理任务上的性能比较（Qwen3-4B，Micro-Avg准确率\%）。*表示统计显著提升。}
+    \caption[CASCADE与基线方法在数学推理任务上的性能比较（Qwen3-4B，Micro-Avg准确率\%）]{CASCADE与基线方法在数学推理任务上的性能比较（Qwen3-4B，Micro-Avg准确率\%）。*表示统计显著提升。}
    \label{tab:ch6_cascade_math}
-    \small
    \resizebox{\linewidth}{!}{
        \renewcommand{\arraystretch}{1.05}
        \begin{tabular}{lcccccccc}
            \toprule
            \textbf{方法} & \textbf{MultiArith} & \textbf{GSM8K} & \textbf{AddSub} & \textbf{AQuA} & \textbf{SingleEq} & \textbf{SVAMP} & \textbf{MAWPS} & \textbf{Micro-Avg$\uparrow$} \\
            \midrule
-            LoRA      & \underline{77.50} & \underline{36.16} & \underline{83.80} & 26.77 & 85.83 & 55.90 & \underline{79.41} & \underline{58.53} \\
-            AdaLoRA   & 80.50 & 33.81 & 75.95 & 22.83 & 74.41 & 48.80 & 74.37 & 54.01 \\
+            LoRA      & 77.50 & \underline{36.16} & \underline{83.80} & 26.77 & 85.83 & 55.90 & \underline{79.41} & \underline{58.53} \\
+            AdaLoRA   & \underline{80.50} & 33.81 & 75.95 & 22.83 & 74.41 & 48.80 & 74.37 & 54.01 \\
            BONE      & 79.50 & 31.69 & 78.99 & \underline{27.17} & 80.71 & 50.30 & 76.05 & 54.94 \\
            FourierFT & 68.67 & 31.08 & 76.46 & 23.62 & 78.54 & \underline{57.30} & 74.34 & 54.02 \\
            LoCA      & 73.33 & 30.63 & 72.15 & 21.65 & 75.98 & 48.30 & 69.33 & 51.41 \\
@@ -518,11 +516,10 @@ CASCADE在Qwen3-4B上取得了60.29\%的最优Micro-Avg性能，显著优于所

 表~\ref{tab:ch6_cascade_scale}展示了CASCADE在Qwen3系列不同模型规模上的常识推理性能。

-\begin{table}[htp]
+\begin{table}[!htbp]
    \centering
-    \caption{CASCADE与基线方法在不同模型规模上的常识推理性能比较（Micro-Avg准确率\%）。}
+    \caption[CASCADE与基线方法在不同模型规模上的常识推理性能比较（Micro-Avg准确率\%）]{CASCADE与基线方法在不同模型规模上的常识推理性能比较（Micro-Avg准确率\%）。}
    \label{tab:ch6_cascade_scale}
-    \small
    \begin{tabular}{lccc}
        \toprule
        \textbf{方法} & \textbf{Qwen3-0.6B} & \textbf{Qwen3-1.7B} & \textbf{Qwen3-4B} \\
@@ -546,7 +543,7 @@ CASCADE在所有模型规模上均取得最优性能，且在较小模型（0.6B
  \hfill
  \subcaptionbox{路由权重分布\label{fig:ch6_cascade_ablation_b}}{%
    \includegraphics[width=0.48\linewidth]{assets/6_cascade_ablation_b.pdf}}
-  \caption{CASCADE的消融实验与路由行为分析。（a）移除各组件后的性能变化；（b）不同层中各专家的路由权重分布。}
+  \caption[CASCADE的消融实验与路由行为分析]{CASCADE的消融实验与路由行为分析。（a）移除各组件后的性能变化；（b）不同层中各专家的路由权重分布。}
  \label{fig:ch6_cascade_ablation}
 \end{figure}

@@ -571,11 +568,10 @@ CASCADE在所有模型规模上均取得最优性能，且在较小模型（0.6B

 表~\ref{tab:ch6_messa_overall}展示了MESSA在多任务总体性能上的结果。

-\begin{table}[htp]
+\begin{table}[!htbp]
    \centering
-    \caption{MESSA与基线方法在多任务总体性能上的比较。Avg为宏平均，Geo为几何平均，Worst为最差任务性能。*表示统计显著提升。}
+    \caption[MESSA与基线方法在多任务总体性能上的比较]{MESSA与基线方法在多任务总体性能上的比较。Avg为宏平均，Geo为几何平均，Worst为最差任务性能。*表示统计显著提升。}
    \label{tab:ch6_messa_overall}
-    \small
    \resizebox{\linewidth}{!}{
        \renewcommand{\arraystretch}{1.05}
        \begin{tabular}{l|c|ccc|ccc|ccc}
@@ -585,7 +581,7 @@ CASCADE在所有模型规模上均取得最优性能，且在较小模型（0.6B
            & & Avg & Geo & Worst & Avg & Geo & Worst & Avg & Geo & Worst \\
            \midrule
            LoRA (shared) & 2.25 & 76.47 & 75.56 & 59.81 & 67.05 & 65.99 & 53.03 & 71.22 & 69.53 & 50.08 \\
-            LoRA (specific) & 2.25 & \underline{76.66} & \underline{75.76} & 60.75 & 64.70 & 63.29 & 52.75 & \underline{71.86} & \underline{70.09} & 49.45 \\
+            LoRA (specific) & 2.25 & 76.66 & 75.76 & 60.75 & 64.70 & 63.29 & 52.75 & \underline{71.86} & \underline{70.09} & 49.45 \\
            AdaLoRA (shared) & 2.50 & 74.82 & 73.94 & 58.24 & 63.02 & 62.10 & 51.18 & 65.39 & 62.85 & 42.27 \\
            AdaLoRA (specific) & 2.50 & 75.45 & 74.61 & 59.18 & 62.94 & 61.99 & 53.03 & 66.57 & 64.00 & 43.33 \\
            \midrule
@@ -610,29 +606,29 @@ MESSA在所有三种骨干模型上均取得统计显著的最优多任务性能

 表~\ref{tab:ch6_messa_pertask}进一步展示了MESSA在Qwen3-4B上五个任务的逐任务性能。

-\begin{table}[htp]
+\begin{table}[!htbp]
    \centering
-    \caption{MESSA与基线方法在各任务上的逐项性能比较（Qwen3-4B）。}
+    \caption[MESSA与基线方法在各任务上的逐项性能比较（Qwen3-4B）]{MESSA与基线方法在各任务上的逐项性能比较（Qwen3-4B）。}
    \label{tab:ch6_messa_pertask}
-    \small
-    \resizebox{\linewidth}{!}{
+
+    
        \renewcommand{\arraystretch}{1.05}
        \begin{tabular}{lccccccc}
            \toprule
            \textbf{方法} & \textbf{BoolQ} & \textbf{CodeAlpaca} & \textbf{MedQA} & \textbf{GSM8K} & \textbf{HellaSwag} & \textbf{Avg} & \textbf{Geo} \\
            \midrule
-            LoRA (shared) & 86.79 & \underline{67.45} & 59.81 & 77.27 & 91.02 & 76.47 & 75.56 \\
+            LoRA (shared) & 86.79 & 67.45 & 59.81 & 77.27 & 91.02 & 76.47 & 75.56 \\
            LoRA (specific) & \underline{87.89} & 67.40 & 60.75 & 76.06 & 91.20 & 76.66 & 75.76 \\
            AdaLoRA (shared) & 85.81 & 66.55 & 58.24 & 75.61 & 87.89 & 74.82 & 73.94 \\
-            AdaLoRA (specific) & 85.02 & 66.75 & 59.18 & \underline{77.42} & 88.89 & 75.45 & 74.61 \\
+            AdaLoRA (specific) & 85.02 & 66.75 & 59.18 & 77.42 & 88.89 & 75.45 & 74.61 \\
            SHiRA (shared) & 86.79 & 64.65 & 56.99 & 74.85 & 89.70 & 74.60 & 73.51 \\
-            SHiRA (specific) & 87.40 & 63.50 & \underline{62.64} & 77.73 & \underline{91.83} & 76.62 & 75.67 \\
+            SHiRA (specific) & 87.40 & 63.50 & \underline{62.64} & \underline{77.73} & \underline{91.83} & 76.62 & 75.67 \\
            MTLoRA & 86.42 & 66.35 & 62.01 & \textbf{78.33} & 90.92 & \underline{76.81} & \underline{75.98} \\
            MOELoRA & 86.24 & \underline{67.65} & 60.91 & 75.61 & 89.92 & 76.07 & 75.27 \\
            \textbf{MESSA} & \textbf{88.07} & \textbf{68.30} & \textbf{62.79} & \textbf{78.33} & \textbf{92.57} & \textbf{78.01} & \textbf{77.18} \\
            \bottomrule
        \end{tabular}
-    }
+    
 \end{table}

 逐任务分析揭示了MESSA在所有五个任务上均取得最优或并列最优的性能。特别地，在跨领域差异最大的任务对（如编程类CodeAlpaca与医学类MedQA）上，MESSA均显著优于所有基线，表明共享-特有稀疏分解有效地在异质任务之间实现了知识的选择性复用与差异化适配。
@@ -641,12 +637,11 @@ MESSA在所有三种骨干模型上均取得统计显著的最优多任务性能

 表~\ref{tab:ch6_messa_scale}展示了MESSA在Qwen3系列不同模型规模上的多任务性能。

-\begin{table}[htp]
+\begin{table}[!htbp]
    \centering
-    \caption{MESSA与基线方法在不同模型规模上的多任务性能比较。}
+    \caption[MESSA与基线方法在不同模型规模上的多任务性能比较]{MESSA与基线方法在不同模型规模上的多任务性能比较。}
    \label{tab:ch6_messa_scale}
-    \small
-    \resizebox{\linewidth}{!}{
+
        \renewcommand{\arraystretch}{1.05}
        \begin{tabular}{lcccccc}
            \toprule
@@ -662,7 +657,7 @@ MESSA在所有三种骨干模型上均取得统计显著的最优多任务性能
            \textbf{MESSA} & \textbf{61.77} & \textbf{58.65} & \textbf{71.93} & \textbf{70.18} & \textbf{78.01} & \textbf{77.18} \\
            \bottomrule
        \end{tabular}
-    }
+    
 \end{table}

 MESSA在所有模型规模上均取得最优性能。随着模型规模从0.6B增大到4B，MESSA相对于基线的优势保持稳定（Avg差距约0.6--1.9个百分点），表明共享-特有分解的结构分配策略在不同参数容量下均能有效运作。
@@ -672,7 +667,7 @@ MESSA在所有模型规模上均取得最优性能。随着模型规模从0.6B
 \begin{figure}[htp]
  \centering
  \includegraphics[width=0.9\linewidth]{assets/6_messa_analysis.pdf}
-  \caption{MESSA的消融实验与结构分析。（a）各组件对多任务性能的贡献；（b）共享和任务特有更新在注意力模块间的分配比例。}
+  \caption[MESSA的消融实验与结构分析]{MESSA的消融实验与结构分析。（a）各组件对多任务性能的贡献；（b）共享和任务特有更新在注意力模块间的分配比例。}
  \label{fig:ch6_messa_analysis}
 \end{figure}