1.fix all table size;2.fix some table max/2nd-max mark error;3.add fig & table caption mark;4.add some ref bibs

This commit is contained in:
D调E点
2026-03-23 12:20:48 +08:00
committed by panda361
parent cacdc79ae2
commit 965f2790dc
45 changed files with 380 additions and 275 deletions

View File

@@ -1,4 +1,4 @@
% !TeX root = ../main.tex
% !TeX root = main.tex
% 第四章 基于位置结构感知的选择性表征适配方法
\chapter{基于位置结构感知的选择性表征适配方法}
\label{chap:rosa}
@@ -69,7 +69,7 @@ RoPE的频率结构不仅是数学上的设计选择更在实际模型中诱
\hfill
\subcaptionbox{跨层激活分布\label{fig:ch4_attn_layer}}{%
\includegraphics[width=0.48\linewidth]{assets/4_AcrossLayer.pdf}}
\caption{预训练模型LLaMA-2-7B中Query状态的激活强度可视化。通过计算每个注意力头各维度的平均L2范数来量化激活强度。低频维度高索引集中了更强的激活且不同层之间呈现差异化的激活模式体现了维度级和层级的双重异质性。}
\caption[预训练模型LLaMA-2-7B中Query状态的激活强度可视化]{预训练模型LLaMA-2-7B中Query状态的激活强度可视化。通过计算每个注意力头各维度的平均L2范数来量化激活强度。低频维度高索引集中了更强的激活且不同层之间呈现差异化的激活模式体现了维度级和层级的双重异质性。}
\label{fig:ch4_activation}
\end{figure}
@@ -115,7 +115,7 @@ RoPE的频率结构不仅是数学上的设计选择更在实际模型中诱
\begin{figure}[htp]
\centering
\includegraphics[width=0.85\linewidth]{assets/4_rosa_arch.pdf}
\caption{RoSA方法框架图。RoSA由两个核心模块组成RoPE感知注意力增强RoAE选择性增强RoPE影响的Q/K状态中的低频成分动态层选择DLS基于LayerNorm梯度信号动态选择重要层进行更新。}
\caption[RoSA方法框架图]{RoSA方法框架图。RoSA由两个核心模块组成RoPE感知注意力增强RoAE选择性增强RoPE影响的Q/K状态中的低频成分动态层选择DLS基于LayerNorm梯度信号动态选择重要层进行更新。}
\label{fig:ch4_rosa_arch}
\end{figure}
@@ -211,7 +211,7 @@ DLS通过动态识别和适配最关键的层来减少不必要的参数更新
\RestyleAlgo{ruled}
\begin{algorithm}[htp]
\caption{RoPE感知的选择性适配RoSA训练算法}
\caption[RoPE感知的选择性适配RoSA训练算法]{RoPE感知的选择性适配RoSA训练算法}
\label{alg:ch4_rosa}
\KwIn{预训练大语言模型$\mathcal{M}$,数据集$\mathcal{D}$RoAE超参数$\alpha$, $r_{\text{low}}$DLS超参数$k_{\text{ratio}}$, $p_{\text{exploit}}$, $u$),学习率$\eta$,预热步数$T_{\text{warmup}}$}
使用$\alpha$$r_{\text{low}}$初始化RoAE模块并集成至$\mathcal{M}$\;
@@ -275,12 +275,12 @@ RoSA的设计具有良好的模块化特性RoAE和DLS各自独立运作
表~\ref{tab:ch4_rosa_common}展示了RoSA与基线方法在常识推理任务上的性能比较。
\begin{table}[htp]
\begin{table}[!htbp]
\centering
\caption{RoSA与基线方法在常识推理任务上的性能比较。在三种骨干模型上RoSA在可比参数预算下均取得最优平均性能。*表示相比最优基线的统计显著提升双侧t检验$p<0.05$)。}
\caption[RoSA与基线方法在常识推理任务上的性能比较]{RoSA与基线方法在常识推理任务上的性能比较。\\在三种骨干模型上RoSA在可比参数预算下均取得最优平均性能。\\ *表示相比最优基线的统计显著提升双侧t检验$p<0.05$)。}
\label{tab:ch4_rosa_common}
\small
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{0.96}
\begin{tabular}{l|lcccccccccc}
\toprule
@@ -331,12 +331,12 @@ RoSA的设计具有良好的模块化特性RoAE和DLS各自独立运作
表~\ref{tab:ch4_rosa_math}展示了RoSA在Qwen2.5-7B上数学推理任务的结果。
\begin{table}[htp]
\begin{table}[!htbp]
\centering
\caption{RoSA与基线方法在Qwen2.5-7B上数学推理任务的性能比较。}
\caption[RoSA与基线方法在Qwen2.5-7B上数学推理任务的性能比较]{RoSA与基线方法在Qwen2.5-7B上数学推理任务的性能比较。}
\label{tab:ch4_rosa_math}
\small
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{0.95}
\begin{tabular}{lccccccccc}
\toprule
@@ -362,11 +362,11 @@ RoSA的设计具有良好的模块化特性RoAE和DLS各自独立运作
表~\ref{tab:ch4_rosa_scale}展示了RoSA在不同规模Qwen2.5模型上的可扩展性。
\begin{table}[htp]
\begin{table}[!htbp]
\centering
\caption{RoSA在不同规模Qwen2.5模型上常识推理任务的可扩展性比较。}
\caption[RoSA在不同规模Qwen2.5模型上常识推理任务的可扩展性比较]{RoSA在不同规模Qwen2.5模型上常识推理任务的可扩展性比较。}
\label{tab:ch4_rosa_scale}
\small
\begin{tabular}{lcccc}
\toprule
\textbf{方法} & \textbf{0.5B} & \textbf{1.5B} & \textbf{3B} & \textbf{7B} \\
@@ -387,11 +387,11 @@ RoSA的设计具有良好的模块化特性RoAE和DLS各自独立运作
表~\ref{tab:ch4_rosa_ablation}展示了RoSA各组件的消融分析在Qwen2.5-7B常识推理任务上进行。
\begin{table}[htp]
\begin{table}[!htbp]
\centering
\caption{RoSA消融实验结果Qwen2.5-7B常识推理Micro-Avg}
\caption[RoSA消融实验结果Qwen2.5-7B常识推理Micro-Avg]{RoSA消融实验结果Qwen2.5-7B常识推理Micro-Avg}
\label{tab:ch4_rosa_ablation}
\small
\begin{tabular}{lc}
\toprule
\textbf{变体} & \textbf{Micro-Avg$\uparrow$} \\
@@ -412,7 +412,7 @@ RoSA的设计具有良好的模块化特性RoAE和DLS各自独立运作
\begin{figure}[htp]
\centering
\includegraphics[width=0.45\linewidth]{assets/4_dls_sensitivity.pdf}
\caption{RoSA中层选择比例$k_{\text{ratio}}$的敏感性分析。}
\caption[RoSA中层选择比例$k_{\text{ratio}}$的敏感性分析]{RoSA中层选择比例$k_{\text{ratio}}$的敏感性分析。}
\label{fig:ch4_dls_sensitivity}
\end{figure}
@@ -426,7 +426,7 @@ RoSA的设计具有良好的模块化特性RoAE和DLS各自独立运作
\begin{figure}[htp]
\centering
\includegraphics[width=0.6\linewidth]{assets/4_layer_selection.pdf}
\caption{RoSA训练过程中各层被DLS选择的频率可视化Qwen2.5-7B}
\caption[RoSA训练过程中各层被DLS选择的频率可视化Qwen2.5-7B]{RoSA训练过程中各层被DLS选择的频率可视化Qwen2.5-7B}
\label{fig:ch4_layer_sel}
\end{figure}