1.fix all table size;2.fix some table max/2nd-max mark error;3.add fig & table caption mark;4.add some ref bibs

This commit is contained in:
D调E点
2026-03-23 12:20:48 +08:00
committed by panda361
parent cacdc79ae2
commit 965f2790dc
45 changed files with 380 additions and 275 deletions

View File

@@ -1,3 +1,4 @@
% !TeX root = main.tex
% 第三章 基于模块功能角色感知的多任务表征适配方法
\chapter{基于模块功能角色感知的多任务表征适配方法}
\label{chap:hycam}
@@ -82,7 +83,7 @@
\begin{figure}[htp]
\centering
\includegraphics[width=0.82\linewidth]{assets/3_model.pdf}
\caption{基于模块功能角色感知的多任务表征适配总体框架示意图。}
\caption[基于模块功能角色感知的多任务表征适配总体框架示意图]{基于模块功能角色感知的多任务表征适配总体框架示意图。}
\label{fig:ch3_framework}
\end{figure}
@@ -458,7 +459,7 @@ y_{i,t}
\RestyleAlgo{ruled}
\begin{algorithm}[htp]
\caption{HyCAM 多任务训练算法}
\caption[HyCAM 多任务训练算法]{HyCAM 多任务训练算法}
\label{alg:ch3_hycam}
\KwIn{预训练大语言模型参数 $\Theta_0$,多任务训练集 $\mathcal{D}$,专用模块数 $N_s$Gumbel-Softmax 温度 $\tau$,负载均衡系数 $\lambda_{balance}$,学习率 $\eta$}
冻结骨干模型参数 $\Theta_0$\;
@@ -510,22 +511,22 @@ y_{i,t}
具体数据统计可整理如表~\ref{tab:ch3_dataset_stat} 所示。训练、验证与测试采用 $7:2:1$ 划分,并进行五折交叉验证以增强结果稳定性。实验骨干模型覆盖多个主流开源大语言模型系列,包括 Llama、Mistral 与 Qwen 家族,从而考察方法的跨模型泛化性。
\begin{table*}[ht]
\centering
\caption{多任务基准数据统计。}
\label{tab:ch3_dataset_stat}
\resizebox{0.88\linewidth}{!}{
\begin{tabular}{lccccc}
\toprule
数据集 & 样本数 & 总 Token 数 & 平均 Token 数 & 任务属性 & 数据来源 \\
\midrule
Auto CoT & 5,816 & 943,474 & 162.22 & 推理与复杂逻辑 & \cite{zhang2023automatic} \\
iCliniq & 7,321 & 1,826,306 & 249.46 & 医疗问答 & \cite{li2023chatdoctor} \\
Dolly 2.0 & 15,015 & 3,061,007 & 203.86 & 通用指令与问答 & \cite{DatabricksBlog2023DollyV2} \\
CodeAlpaca & 20,222 & 2,195,523 & 109.66 & 代码生成 & \cite{codealpaca} \\
WebGPT & 18,994 & 13,988,895 & 736.49 & 检索增强问答 & \cite{nakano2021webgpt} \\
\bottomrule
\end{tabular}
}
\centering
\caption[多任务基准数据统计]{多任务基准数据统计。}
\label{tab:ch3_dataset_stat}
\begin{tabular}{lccccc}
\toprule
数据集 & 样本数 & 总 Token 数 & 平均 Token 数 & 任务属性 & 数据来源 \\
\midrule
Auto CoT & 5,816 & 943,474 & 162.22 & 推理与复杂逻辑 & \cite{zhang2023automatic} \\
iCliniq & 7,321 & 1,826,306 & 249.46 & 医疗问答 & \cite{li2023chatdoctor} \\
Dolly 2.0 & 15,015 & 3,061,007 & 203.86 & 通用指令与问答 & \cite{DatabricksBlog2023DollyV2} \\
CodeAlpaca & 20,222 & 2,195,523 & 109.66 & 代码生成 & \cite{codealpaca} \\
WebGPT & 18,994 & 13,988,895 & 736.49 & 检索增强问答 & \cite{nakano2021webgpt} \\
\bottomrule
\end{tabular}
\end{table*}
\subsubsection{基线方法}
@@ -548,11 +549,11 @@ y_{i,t}
HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置为 0.5,负载均衡损失系数 $\lambda_{balance}$ 设置为 0.1。所有方法统一采用 AdamW 优化器,学习率设置为 $2 \times 10^{-5}$并采用余弦退火Cosine Annealing学习率调度策略。为防止过拟合训练过程中引入基于验证集损失的早停机制。具体实现细节汇总于表~\ref{tab:ch3_impl_details}
\begin{table}[h]
\begin{table}[!htbp]
\centering
\caption{HyCAM 实验实现细节汇总。}
\caption[HyCAM 实验实现细节汇总]{HyCAM 实验实现细节汇总。}
\label{tab:ch3_impl_details}
\resizebox{0.6\linewidth}{!}{
\begin{tabular}{ll}
\toprule
配置项 & 设置 \\
@@ -572,7 +573,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
早停策略 & 基于验证集损失 \\
\bottomrule
\end{tabular}
}
\end{table}
\subsection{实验结果与分析}
@@ -580,118 +581,120 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
\subsubsection{总体性能比较}
表~\ref{tab:ch3_overall_main} 给出了 HyCAM 与各基线方法在不同骨干模型上的总体结果。可以看出HyCAM 在多数设置下均取得了最优结果,且相对最强基线呈现出稳定优势,平均相对提升约 3.65\%(双侧 $t$ 检验,$p < 0.05$)。这说明,在复杂多任务场景下,通过模块角色感知的方式对自注意力表示流进行定向调制,确实能够比传统低秩更新更有效地兼顾知识保持与任务特化。
\begin{table}[!htbp]
\centering
\caption[不同骨干模型上的总体实验结果]{不同骨干模型上的总体实验结果。}
\label{tab:ch3_overall_main}
\begin{table}[h]
\centering
\caption{不同骨干模型上的总体实验结果。}
\label{tab:ch3_overall_main}
\resizebox{0.62\linewidth}{!}{
\begin{tabular}{llccc}
\toprule
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
\midrule
\multirow{5}{*}{Llama 2 7B}
& Full Finetune & 3.193 & \underline{0.171} & 0.231 \\
& LoRA & 3.222 & 0.157 & 0.225 \\
& Multi LoRA & 3.287 & 0.121 & 0.217 \\
& RieMoE-LoRA & \underline{3.171} & 0.154 & \underline{0.232} \\
& HyCAM & \textbf{3.081} & \textbf{0.173} & \textbf{0.244} \\
\midrule
\multirow{5}{*}{Llama 3 8B}
& Full Finetune & 3.978 & 0.151 & 0.203 \\
& LoRA & 3.556 & 0.148 & 0.240 \\
& Multi LoRA & 3.547 & 0.157 & 0.236 \\
& RieMoE-LoRA & \underline{3.497} & \underline{0.159} & \underline{0.242} \\
& HyCAM & \textbf{3.484} & \textbf{0.162} & \textbf{0.245} \\
\midrule
\multirow{5}{*}{Llama 3.1 8B}
& Full Finetune & 3.873 & 0.153 & 0.205 \\
& LoRA & 3.537 & 0.156 & 0.237 \\
& Multi LoRA & 3.653 & 0.134 & 0.235 \\
& RieMoE-LoRA & \underline{3.487} & \underline{0.161} & \underline{0.238} \\
& HyCAM & \textbf{3.453} & \textbf{0.172} & \textbf{0.251} \\
\midrule
\multirow{5}{*}{Mistral 7B}
& Full Finetune & 4.403 & 0.157 & 0.192 \\
& LoRA & \underline{3.418} & \underline{0.163} & \underline{0.244} \\
& Multi LoRA & 3.461 & 0.141 & 0.225 \\
& RieMoE-LoRA & 3.597 & 0.143 & 0.240 \\
& HyCAM & \textbf{3.299} & \textbf{0.171} & \textbf{0.249} \\
\midrule
\multirow{5}{*}{Qwen 2.5 7B}
& Full Finetune & 3.024 & \underline{0.169} & 0.225 \\
& LoRA & 2.840 & 0.137 & \underline{0.239} \\
& Multi LoRA & 3.069 & 0.136 & 0.222 \\
& RieMoE-LoRA & \underline{2.830} & 0.157 & 0.227 \\
& HyCAM & \textbf{2.757} & \textbf{0.172} & \textbf{0.248} \\
\bottomrule
\end{tabular}
}
\begin{tabular}{llccc}
\toprule
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
\midrule
\multirow{5}{*}{Llama 2 7B}
& Full Finetune & 3.193 & \underline{0.171} & 0.231 \\
& LoRA & 3.222 & 0.157 & 0.225 \\
& Multi LoRA & 3.287 & 0.121 & 0.217 \\
& RieMoE-LoRA & \underline{3.171} & 0.154 & \underline{0.232} \\
& HyCAM & \textbf{3.081} & \textbf{0.173} & \textbf{0.244} \\
\midrule
\multirow{5}{*}{Llama 3 8B}
& Full Finetune & 3.978 & 0.151 & 0.203 \\
& LoRA & 3.556 & 0.148 & 0.240 \\
& Multi LoRA & 3.547 & 0.157 & 0.236 \\
& RieMoE-LoRA & \underline{3.497} & \underline{0.159} & \underline{0.242} \\
& HyCAM & \textbf{3.484} & \textbf{0.162} & \textbf{0.245} \\
\midrule
\multirow{5}{*}{Llama 3.1 8B}
& Full Finetune & 3.873 & 0.153 & 0.205 \\
& LoRA & 3.537 & 0.156 & 0.237 \\
& Multi LoRA & 3.653 & 0.134 & 0.235 \\
& RieMoE-LoRA & \underline{3.487} & \underline{0.161} & \underline{0.238} \\
& HyCAM & \textbf{3.453} & \textbf{0.172} & \textbf{0.251} \\
\midrule
\multirow{5}{*}{Mistral 7B}
& Full Finetune & 4.403 & 0.157 & 0.192 \\
& LoRA & \underline{3.418} & \underline{0.163} & \underline{0.244} \\
& Multi LoRA & 3.461 & 0.141 & 0.225 \\
& RieMoE-LoRA & 3.597 & 0.143 & 0.240 \\
& HyCAM & \textbf{3.299} & \textbf{0.171} & \textbf{0.249} \\
\midrule
\multirow{5}{*}{Qwen 2.5 7B}
& Full Finetune & 3.024 & \underline{0.169} & 0.225 \\
& LoRA & 2.840 & 0.137 & \underline{0.239} \\
& Multi LoRA & 3.069 & 0.136 & 0.222 \\
& RieMoE-LoRA & \underline{2.830} & 0.157 & 0.227 \\
& HyCAM & \textbf{2.757} & \textbf{0.172} & \textbf{0.248} \\
\bottomrule
\end{tabular}
\end{table}
表~\ref{tab:ch3_overall_main} 给出了 HyCAM 与各基线方法在不同骨干模型上的总体结果。可以看出HyCAM 在多数设置下均取得了最优结果,且相对最强基线呈现出稳定优势,平均相对提升约 3.65\%(双侧 $t$ 检验,$p < 0.05$)。这说明,在复杂多任务场景下,通过模块角色感知的方式对自注意力表示流进行定向调制,确实能够比传统低秩更新更有效地兼顾知识保持与任务特化。
这一结果可从三个层面理解。第一相较于全参数微调HyCAM 在仅引入少量适配参数的前提下取得了更优或相当的性能,表明其并不依赖对整个模型进行重写,而是通过更有效的上下文调制获得收益。第二,相较于 LoRAHyCAM 的优势说明单纯依赖低秩参数增量并不足以充分应对复杂多任务场景中的结构差异,而围绕自注意力表示流构造输入条件化调制可以更直接地提升任务适配能力。第三,相较于 Multi-LoRA 与 RieMoE-LoRAHyCAM 的优势说明“共享 + 专用 + 动态路由”的混合设计比单纯并行适配或一般专家融合更适合多任务协同建模。
对于本文的多任务适配主题而言,这一结论具有直接启发意义:面对多种异质任务同时建模时,模型的关键改进方向未必是持续扩大参数更新规模,而更可能是增强其对上下文进行任务感知组织的能力。本章实验虽然基于通用多任务集合,但其所验证的正是这种\emph{模块级结构调制}的普适有效性。
\begin{table}[ht]
\centering
\caption{Qwen2.5 系列不同规模下的可扩展性实验结果。最优结果加粗,次优结果加下划线。}
\label{tab:ch3_qwen_scale}
\resizebox{0.42\linewidth}{!}{
\begin{tabular}{llccc}
\toprule
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
\midrule
\multirow{5}{*}{Qwen 2.5 0.5B}
& Full Finetune & 3.778 & \underline{0.159} & 0.219 \\
& LoRA & 3.764 & 0.145 & 0.222 \\
& Multi LoRA & 3.754 & 0.144 & 0.221 \\
& RieMoE-LoRA & \underline{3.621} & 0.152 & \underline{0.232} \\
& HyCAM & \textbf{3.611} & \textbf{0.169} & \textbf{0.262} \\
\midrule
\multirow{5}{*}{Qwen 2.5 1.5B}
& Full Finetune & \textbf{3.102} & \textbf{0.169} & \underline{0.235} \\
& LoRA & 3.344 & 0.138 & 0.229 \\
& Multi LoRA & 3.330 & 0.148 & 0.226 \\
& RieMoE-LoRA & 3.180 & 0.148 & 0.230 \\
& HyCAM & \underline{3.108} & \underline{0.167} & \textbf{0.236} \\
\midrule
\multirow{5}{*}{Qwen 2.5 3B}
& Full Finetune & \underline{2.982} & \underline{0.161} & 0.222 \\
& LoRA & 3.106 & 0.144 & 0.230 \\
& Multi LoRA & 3.053 & 0.157 & 0.225 \\
& RieMoE-LoRA & 3.001 & 0.148 & \underline{0.238} \\
& HyCAM & \textbf{2.940} & \textbf{0.165} & \textbf{0.249} \\
\midrule
\multirow{5}{*}{Qwen 2.5 7B}
& Full Finetune & 3.024 & \underline{0.169} & 0.225 \\
& LoRA & 2.840 & 0.137 & \underline{0.239} \\
& Multi LoRA & 3.069 & 0.136 & 0.222 \\
& RieMoE-LoRA & \underline{2.830} & 0.157 & 0.227 \\
& HyCAM & \textbf{2.757} & \textbf{0.172} & \textbf{0.248} \\
\midrule
\multirow{5}{*}{Qwen 2.5 14B}
& Full Finetune & 2.839 & \textbf{0.176} & 0.214 \\
& LoRA & 2.889 & 0.147 & \underline{0.238} \\
& Multi LoRA & 2.882 & 0.152 & 0.235 \\
& RieMoE-LoRA & \underline{2.792} & 0.142 & \underline{0.238} \\
& HyCAM & \textbf{2.682} & \underline{0.160} & \textbf{0.242} \\
\bottomrule
\end{tabular}
}
\end{table}
\subsubsection{不同模型规模下的可扩展性分析}
为了进一步考察 HyCAM 在不同参数规模模型中的适用性,原始实验还在 Qwen2.5 与 Llama3.2 系列上进行了跨规模验证。结果如表~\ref{tab:ch3_qwen_scale} 与表~\ref{tab:ch3_llama_scale} 所示。总体来看HyCAM 在从小模型到中大模型的多个规模区间内均表现出稳定优势,且在不少较大模型上其优势更为明显。
\begin{table}[h]
\begin{table}[!htbp]
\centering
\caption[Qwen2.5 系列不同规模下的可扩展性实验结果]{Qwen2.5 系列不同规模下的可扩展性实验结果。最优结果加粗,次优结果加下划线。}
\label{tab:ch3_qwen_scale}
\begin{tabular}{llccc}
\toprule
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
\midrule
\multirow{5}{*}{Qwen 2.5 0.5B}
& Full Finetune & 3.778 & \underline{0.159} & 0.219 \\
& LoRA & 3.764 & 0.145 & 0.222 \\
& Multi LoRA & 3.754 & 0.144 & 0.221 \\
& RieMoE-LoRA & \underline{3.621} & 0.152 & \underline{0.232} \\
& HyCAM & \textbf{3.611} & \textbf{0.169} & \textbf{0.262} \\
\midrule
\multirow{5}{*}{Qwen 2.5 1.5B}
& Full Finetune & \textbf{3.102} & \textbf{0.169} & \underline{0.235} \\
& LoRA & 3.344 & 0.138 & 0.229 \\
& Multi LoRA & 3.330 & 0.148 & 0.226 \\
& RieMoE-LoRA & 3.180 & 0.148 & 0.230 \\
& HyCAM & \underline{3.108} & \underline{0.167} & \textbf{0.236} \\
\midrule
\multirow{5}{*}{Qwen 2.5 3B}
& Full Finetune & \underline{2.982} & \underline{0.161} & 0.222 \\
& LoRA & 3.106 & 0.144 & 0.230 \\
& Multi LoRA & 3.053 & 0.157 & 0.225 \\
& RieMoE-LoRA & 3.001 & 0.148 & \underline{0.238} \\
& HyCAM & \textbf{2.940} & \textbf{0.165} & \textbf{0.249} \\
\midrule
\multirow{5}{*}{Qwen 2.5 7B}
& Full Finetune & 3.024 & \underline{0.169} & 0.225 \\
& LoRA & 2.840 & 0.137 & \underline{0.239} \\
& Multi LoRA & 3.069 & 0.136 & 0.222 \\
& RieMoE-LoRA & \underline{2.830} & 0.157 & 0.227 \\
& HyCAM & \textbf{2.757} & \textbf{0.172} & \textbf{0.248} \\
\midrule
\multirow{5}{*}{Qwen 2.5 14B}
& Full Finetune & 2.839 & \textbf{0.176} & 0.214 \\
& LoRA & 2.889 & 0.147 & \underline{0.238} \\
& Multi LoRA & 2.882 & 0.152 & 0.235 \\
& RieMoE-LoRA & \underline{2.792} & 0.142 & \underline{0.238} \\
& HyCAM & \textbf{2.682} & \underline{0.160} & \textbf{0.242} \\
\bottomrule
\end{tabular}
\end{table}
\begin{table}[!htbp]
\centering
\caption{Llama3.2 系列不同规模下的可扩展性实验结果。最优结果加粗,次优结果加下划线。}
\caption[Llama3.2 系列不同规模下的可扩展性实验结果]{Llama3.2 系列不同规模下的可扩展性实验结果。最优结果加粗,次优结果加下划线。}
\label{tab:ch3_llama_scale}
\resizebox{0.42\linewidth}{!}{
\begin{tabular}{llccc}
\toprule
骨干模型 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
@@ -711,7 +714,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
& HyCAM & \underline{3.778} & \textbf{0.167} & \textbf{0.243} \\
\bottomrule
\end{tabular}
}
\end{table}
这一现象说明HyCAM 的收益并非依赖某个特定模型家族,而是与其核心建模机制有关。随着模型规模增大,预训练模型往往具备更丰富的知识储备与更复杂的表示空间,此时若仍采用简单统一的低秩更新,可能难以充分利用大模型内部潜在的功能结构;而 HyCAM 通过面向注意力表示流的调制,为大模型提供了更灵活的任务特化路径,因此更容易发挥其潜在能力。
@@ -726,11 +729,11 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
为了分析 HyCAM 是否仅在个别任务上获益,还是在整体上具有更均衡的多任务适配能力,表~\ref{tab:ch3_cross_task} 给出了基于 Llama2-7B 的跨任务细粒度结果。从结果可见HyCAM 在多数任务上均取得了较优表现,尤其在 Auto CoT、CodeAlpaca 和 WebGPT 等任务上优势较明显。这表明HyCAM 不是通过牺牲部分任务来换取整体平均性能提升,而是能够在较大程度上缓解多任务训练中的任务干扰问题。
\begin{table}[h]
\begin{table}[!htbp]
\centering
\caption{不同任务上的细粒度结果分析骨干模型Llama2-7B。最优结果加粗次优结果加下划线。}
\caption[不同任务上的细粒度结果分析骨干模型Llama2-7B]{不同任务上的细粒度结果分析骨干模型Llama2-7B。最优结果加粗次优结果加下划线。}
\label{tab:ch3_cross_task}
\resizebox{0.42\linewidth}{!}{
\begin{tabular}{llccc}
\toprule
任务 & 方法 & PPL$\downarrow$ & BLEU$\uparrow$ & ROUGE$\uparrow$ \\
@@ -746,15 +749,15 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
& Full Finetune & \textbf{7.497} & \textbf{0.053} & 0.123 \\
& LoRA & 8.140 & 0.049 & \underline{0.124} \\
& Multi LoRA & 8.846 & 0.037 & 0.122 \\
& RieMoE-LoRA & 8.001 & 0.051 & 0.123 \\
& RieMoE-LoRA & 8.001 & \underline{0.051} & 0.123 \\
& HyCAM & \underline{7.546} & \textbf{0.053} & \textbf{0.125} \\
\midrule
\multirow{5}{*}{Dolly 2.0}
& Full Finetune & 6.461 & 0.088 & \textbf{0.200} \\
& LoRA & 6.029 & 0.070 & 0.181 \\
& Multi LoRA & \textbf{5.743} & 0.101 & 0.177 \\
& Multi LoRA & \textbf{5.743} & \underline{0.101} & 0.177 \\
& RieMoE-LoRA & 5.954 & \textbf{0.106} & 0.183 \\
& HyCAM & \underline{5.893} & \underline{0.093} & \underline{0.194} \\
& HyCAM & \underline{5.893} & 0.093 & \underline{0.194} \\
\midrule
\multirow{5}{*}{CodeAlpaca}
& Full Finetune & 2.532 & 0.138 & 0.195 \\
@@ -771,7 +774,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
& HyCAM & \textbf{1.845} & \underline{0.180} & \underline{0.337} \\
\bottomrule
\end{tabular}
}
\end{table}
需要指出的是不同任务之间的性能水平本身存在显著差异。例如医疗问答和部分开放式指令任务通常具有更高输出不确定性因此其绝对指标可能整体较低。这一现象在多任务建模中普遍存在例如封闭式事实判断与开放式推理解释的难度本就不可简单等同。因此更重要的不是要求所有任务在同一数值尺度上接近而是观察方法能否在面对异质目标时保持相对稳定、均衡的适配能力。从这一意义上看HyCAM 的结果具有较好的说服力。
@@ -796,11 +799,11 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
所有消融变体均在 Llama2-7B 上进行评估,实验结果如表~\ref{tab:ch3_ablation} 所示。
\begin{table}[htp]
\begin{table}[!htbp]
\centering
\caption{HyCAM 消融实验结果(以 PPL 为例)。}
\caption[HyCAM 消融实验结果(以 PPL 为例)]{HyCAM 消融实验结果(以 PPL 为例)。}
\label{tab:ch3_ablation}
\resizebox{0.3\linewidth}{!}{
\begin{tabular}{lc}
\toprule
变体 & PPL$\downarrow$ \\
@@ -812,7 +815,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
HyCAM & \textbf{3.081} \\
\bottomrule
\end{tabular}
}
\end{table}
从表~\ref{tab:ch3_ablation} 可以看出,完整 HyCAM 取得了最优表现,这说明共享与专用分支之间确实具有互补性。仅使用共享 CAM 时,模型虽能学习跨任务共性调制,但缺乏足够的任务特化能力;仅使用专用 CAM 时,则由于缺乏统一共享底座,容易导致跨任务知识无法有效复用,反而降低整体性能。将所有专用模块都替换为全参数结构虽然也能取得较好结果,但会显著增加参数成本,与本章追求高效适配的目标不符。反向分配参数预算同样说明:让共享分支保持较强表达能力、让专用分支采用轻量结构,是当前框架下更合理的设计。
@@ -828,7 +831,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
\begin{figure}[htp]
\centering
\includegraphics[width=0.52\linewidth]{assets/3_sens.pdf}
\caption{专用 CAM 模块数量 $N_s$ 对 HyCAM 性能的影响。}
\caption[专用 CAM 模块数量 $N_s$ 对 HyCAM 性能的影响]{专用 CAM 模块数量 $N_s$ 对 HyCAM 性能的影响。}
\label{fig:ch3_sens}
\end{figure}
@@ -836,33 +839,33 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
从训练过程来看HyCAM 的损失收敛通常更快、更稳定。这与本章的建模思想是一致的相比于直接在大规模参数空间内搜索任务适配方向HyCAM 通过模块角色感知调制将适配空间限制在更具功能针对性的表示流层面,使优化过程更集中于”如何组织上下文”,而非”全面重写模型”。因此,其训练曲线往往具有更好的稳定性。
\subsubsection{参数效率分析}
为了全面评估 HyCAM 在参数效率方面的优势,本节对各方法的可训练参数量进行了系统比较。以 Llama2-7B 为例,各方法的参数量统计如表~\ref{tab:ch3_param_count} 所示。
% TODO: 此表中的参数量数值如HyCAM 236.1M等)需要根据实际实现代码进行核实,原论文中未包含此表。
\begin{table}[htp]
\centering
\caption{不同适配方法在 Llama2-7B 上的可训练参数量对比。}
\label{tab:ch3_param_count}
\resizebox{0.48\linewidth}{!}{
\begin{tabular}{lccc}
\toprule
方法 & 可训练参数量 & 占比 & PPL$\downarrow$ \\
\midrule
Full Finetune & 6.74B & 100\% & 3.193 \\
LoRA ($r$=64) & 159.9M & 2.37\% & 3.222 \\
Multi LoRA & 319.8M & 4.75\% & 3.287 \\
RieMoE-LoRA & 319.8M & 4.75\% & 3.171 \\
HyCAM & 236.1M & 3.50\% & \textbf{3.081} \\
\bottomrule
\end{tabular}
}
\end{table}
从表~\ref{tab:ch3_param_count} 可以看出HyCAM 在可训练参数量上介于 LoRA 与 Multi-LoRA/RieMoE-LoRA 之间但在性能上显著优于所有基线方法。具体而言HyCAM 的共享 CAM 模块贡献了主要参数量(每层一个 $d \times d$ 的投影矩阵),而各专用 CAM 模块通过 SLoRA 参数化仅引入少量额外参数(每个模块约为共享模块的 $r/d$ 倍)。路由器参数量更为微小(每层仅 $d \times N_s$ 个参数),几乎可以忽略不计。
这一参数分配策略与本章”强共享底座 + 轻量专用分支”的设计理念高度一致。共享分支承担主要的跨任务调制建模职责,因此赋予其充分的参数预算;专用分支仅需在共享基础上学习增量式的任务特化方向,因此采用参数高效形式即可满足需求。这种非对称的参数分配,使得 HyCAM 能够在保持较低参数成本的同时,实现比均匀分配策略更优的多任务适配效果。
%\subsubsection{参数效率分析}
%
%为了全面评估 HyCAM 在参数效率方面的优势,本节对各方法的可训练参数量进行了系统比较。以 Llama2-7B 为例,各方法的参数量统计如表~\ref{tab:ch3_param_count} 所示。
%
%% TODO: 此表中的参数量数值如HyCAM 236.1M等)需要根据实际实现代码进行核实,原论文中未包含此表。
%\begin{table}[htp]
% \centering
% \caption[不同适配方法在 Llama2-7B 上的可训练参数量对比]{不同适配方法在 Llama2-7B 上的可训练参数量对比。}
% \label{tab:ch3_param_count}
% \resizebox{0.48\linewidth}{!}{
% \begin{tabular}{lccc}
% \toprule
% 方法 & 可训练参数量 & 占比 & PPL$\downarrow$ \\
% \midrule
% Full Finetune & 6.74B & 100\% & 3.193 \\
% LoRA ($r$=64) & 159.9M & 2.37\% & 3.222 \\
% Multi LoRA & 319.8M & 4.75\% & 3.287 \\
% RieMoE-LoRA & 319.8M & 4.75\% & 3.171 \\
% HyCAM & 236.1M & 3.50\% & \textbf{3.081} \\
% \bottomrule
% \end{tabular}
% }
%\end{table}
%
%从表~\ref{tab:ch3_param_count} 可以看出HyCAM 在可训练参数量上介于 LoRA 与 Multi-LoRA/RieMoE-LoRA 之间但在性能上显著优于所有基线方法。具体而言HyCAM 的共享 CAM 模块贡献了主要参数量(每层一个 $d \times d$ 的投影矩阵),而各专用 CAM 模块通过 SLoRA 参数化仅引入少量额外参数(每个模块约为共享模块的 $r/d$ 倍)。路由器参数量更为微小(每层仅 $d \times N_s$ 个参数),几乎可以忽略不计。
%
%这一参数分配策略与本章”强共享底座 + 轻量专用分支”的设计理念高度一致。共享分支承担主要的跨任务调制建模职责,因此赋予其充分的参数预算;专用分支仅需在共享基础上学习增量式的任务特化方向,因此采用参数高效形式即可满足需求。这种非对称的参数分配,使得 HyCAM 能够在保持较低参数成本的同时,实现比均匀分配策略更优的多任务适配效果。
\subsection{可解释性分析与方法讨论}
\label{subsec:ch3_interpretability}
@@ -876,7 +879,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
\begin{figure}[htp]
\centering
\includegraphics[width=0.72\linewidth]{assets/3_tsne.pdf}
\caption{注意力表示空间的可视化结果。上方为未施加 CAM 调制的基线表示,下方为经 HyCAM 调制后的表示。经调制后表示呈现更紧凑的簇结构与更高的区分度。}
\caption[注意力表示空间的可视化结果]{注意力表示空间的可视化结果。上方为未施加 CAM 调制的基线表示,下方为经 HyCAM 调制后的表示。经调制后表示呈现更紧凑的簇结构与更高的区分度。}
\label{fig:ch3_tsne}
\end{figure}
@@ -889,7 +892,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
\begin{figure}[htp]
\centering
\includegraphics[width=0.72\linewidth]{assets/3_ht.pdf}
\caption{HyCAM 调制权重矩阵的可视化。不同 token 与维度上的调制强度呈现明显差异,说明 HyCAM 实现了细粒度的上下文感知调制。}
\caption[HyCAM 调制权重矩阵的可视化]{HyCAM 调制权重矩阵的可视化。不同 token 与维度上的调制强度呈现明显差异,说明 HyCAM 实现了细粒度的上下文感知调制。}
\label{fig:ch3_weights}
\end{figure}
@@ -902,7 +905,7 @@ HyCAM 特有的超参数设置如下Gumbel-Softmax 温度系数 $\tau$ 设置
\begin{figure}[htp]
\centering
\includegraphics[width=0.72\linewidth]{assets/3_loss.pdf}
\caption{不同方法的训练过程对比。HyCAM 相较基线方法表现出更快的收敛速度与更低的最终损失。}
\caption[HyCAM 不同方法的训练过程对比]{不同方法的训练过程对比。HyCAM 相较基线方法表现出更快的收敛速度与更低的最终损失。}
\label{fig:ch3_loss}
\end{figure}