Rev for Pre
This commit is contained in:
34
chap06.tex
34
chap06.tex
@@ -216,7 +216,7 @@ CASCADE在冻结骨干的基础上使用下游任务的标准监督目标进行
|
||||
\end{equation}
|
||||
该项通过最小化DCT系数向量与小波系数向量之间的内积绝对值,促使两类频域专家分别聚焦于互补的频谱模式。
|
||||
|
||||
CASCADE的主要超参数包括:低频DCT系数20K个、小波系数10K个、空域残差专家秩$r=48$、负载均衡和正交性损失权重均为0.01。CASCADE的整体训练流程如算法~\ref{alg:ch6_cascade}所示。
|
||||
CASCADE的主要超参数包括:低频DCT系数20K个、小波系数10K个、空域残差专家秩$r=48$、负载均衡和正交性损失权重均为0.01。CASCADE的整体训练流程如算法~\ref{alg:ch6_cascade_2}所示。
|
||||
|
||||
%\RestyleAlgo{ruled}
|
||||
%\begin{algorithm}[htp]
|
||||
@@ -432,19 +432,19 @@ CASCADE和MESSA从不同角度应对参数空间的结构异质性挑战,两
|
||||
|
||||
从方法设计层面看,CASCADE和MESSA分别丰富了统一框架中的组合式调制和结构分解调制两种形式。与第三至五章的乘性调制共同构成了三种调制形式的完整实例化,验证了第一章统一分析框架对不同结构异质性类型和调制机制的覆盖能力。
|
||||
|
||||
\begin{figure}[htbp]
|
||||
\centering
|
||||
% 占位:待替换为外部绘制的 6_cascade_messa_relation.pdf
|
||||
% \includegraphics[width=0.85\textwidth]{assets/6_cascade_messa_relation.pdf}
|
||||
\caption[CASCADE与MESSA在参数空间适配中的互补关系]{CASCADE与MESSA在参数空间适配中的互补关系。该图采用双轴矩阵布局:
|
||||
\textbf{横轴}为"适配问题维度",标注两个正交方向——"单任务内部的多尺度结构"(左)和"多任务间的容量分配"(右)。
|
||||
\textbf{纵轴}为"调制机制",标注两种形式——"组合式调制"(上)和"结构分解调制"(下)。
|
||||
CASCADE定位于左上象限,用小型示意图展示其核心机制:权重更新$\Delta\mathbf{W}$通过DCT和小波分解为低频全局成分与高频局部成分,经级联调制后由路由权重$w_e$加权重组。
|
||||
MESSA定位于右下象限,用小型示意图展示其核心机制:参数组通过软门控$z^{\text{sh}}_g$/$z^{\text{sp}}_{g,t}$被分配为共享或任务特有状态,在全局预算$B$约束下经一次性剪枝固化结构。
|
||||
左上与右下之间用双向虚线箭头标注"互补",并在交叉区域(右上)标注"潜在组合方向:频谱感知的共享-特有分解"。
|
||||
图底部用色条标注两种方法在统一框架中的定位:$\mathcal{R}_{spec}$(组合式调制)与$\mathcal{R}_{param}$(结构分解调制)。}
|
||||
\label{fig:ch6_cascade_messa_relation}
|
||||
\end{figure}
|
||||
% \begin{figure}[htbp]
|
||||
% \centering
|
||||
% % 占位:待替换为外部绘制的 6_cascade_messa_relation.pdf
|
||||
% % \includegraphics[width=0.85\textwidth]{assets/6_cascade_messa_relation.pdf}
|
||||
% \caption[CASCADE与MESSA在参数空间适配中的互补关系]{CASCADE与MESSA在参数空间适配中的互补关系。该图采用双轴矩阵布局:
|
||||
% \textbf{横轴}为"适配问题维度",标注两个正交方向——"单任务内部的多尺度结构"(左)和"多任务间的容量分配"(右)。
|
||||
% \textbf{纵轴}为"调制机制",标注两种形式——"组合式调制"(上)和"结构分解调制"(下)。
|
||||
% CASCADE定位于左上象限,用小型示意图展示其核心机制:权重更新$\Delta\mathbf{W}$通过DCT和小波分解为低频全局成分与高频局部成分,经级联调制后由路由权重$w_e$加权重组。
|
||||
% MESSA定位于右下象限,用小型示意图展示其核心机制:参数组通过软门控$z^{\text{sh}}_g$/$z^{\text{sp}}_{g,t}$被分配为共享或任务特有状态,在全局预算$B$约束下经一次性剪枝固化结构。
|
||||
% 左上与右下之间用双向虚线箭头标注"互补",并在交叉区域(右上)标注"潜在组合方向:频谱感知的共享-特有分解"。
|
||||
% 图底部用色条标注两种方法在统一框架中的定位:$\mathcal{R}_{spec}$(组合式调制)与$\mathcal{R}_{param}$(结构分解调制)。}
|
||||
% \label{fig:ch6_cascade_messa_relation}
|
||||
% \end{figure}
|
||||
|
||||
|
||||
\section{实验验证与结果分析}
|
||||
@@ -471,7 +471,7 @@ MESSA定位于右下象限,用小型示意图展示其核心机制:参数组
|
||||
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption[CASCADE与基线方法在常识推理任务上的性能比较(Micro-Avg准确率\%)]{CASCADE与基线方法在常识推理任务上的性能比较(Micro-Avg准确率\%)。\\ *表示统计显著提升。}
|
||||
\caption[CASCADE与基线方法在常识推理任务上的性能比较]{CASCADE与基线方法在常识推理任务上的性能比较(Micro-Avg准确率\%)。\\ *表示统计显著提升。}
|
||||
\label{tab:ch6_cascade_common}
|
||||
\resizebox{\linewidth}{!}{
|
||||
\renewcommand{\arraystretch}{1.05}
|
||||
@@ -520,7 +520,7 @@ CASCADE在所有三种骨干模型上均取得了统计显著的最优Micro-Avg
|
||||
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption[CASCADE与基线方法在数学推理任务上的性能比较(Qwen3-4B,Micro-Avg准确率\%)]{CASCADE与基线方法在数学推理任务上的性能比较(Qwen3-4B,Micro-Avg准确率\%)。*表示统计显著提升。}
|
||||
\caption[CASCADE与基线方法在数学推理任务上的性能比较]{CASCADE与基线方法在数学推理任务上的性能比较(Qwen3-4B,Micro-Avg准确率\%)。*表示统计显著提升。}
|
||||
\label{tab:ch6_cascade_math}
|
||||
\resizebox{\linewidth}{!}{
|
||||
\renewcommand{\arraystretch}{1.05}
|
||||
@@ -548,7 +548,7 @@ CASCADE在Qwen3-4B上取得了60.29\%的最优Micro-Avg性能,显著优于所
|
||||
|
||||
\begin{table}[!htbp]
|
||||
\centering
|
||||
\caption[CASCADE与基线方法在不同模型规模上的常识推理性能比较(Micro-Avg准确率\%)]{CASCADE与基线方法在不同模型规模上的常识推理性能比较(Micro-Avg准确率\%)。}
|
||||
\caption[CASCADE与基线方法在不同模型规模上的常识推理性能比较]{CASCADE与基线方法在不同模型规模上的常识推理性能比较(Micro-Avg准确率\%)。}
|
||||
\label{tab:ch6_cascade_scale}
|
||||
\begin{tabular}{lccc}
|
||||
\toprule
|
||||
|
||||
Reference in New Issue
Block a user