1.fix table & pic title;2.fix table;

This commit is contained in:
D调E点
2026-03-23 14:32:56 +08:00
committed by panda361
parent 965f2790dc
commit 21707be041
5 changed files with 61 additions and 31 deletions

View File

@@ -69,7 +69,7 @@ RoPE的频率结构不仅是数学上的设计选择更在实际模型中诱
\hfill
\subcaptionbox{跨层激活分布\label{fig:ch4_attn_layer}}{%
\includegraphics[width=0.48\linewidth]{assets/4_AcrossLayer.pdf}}
\caption[预训练模型LLaMA-2-7B中Query状态的激活强度可视化]{预训练模型LLaMA-2-7B中Query状态的激活强度可视化。通过计算每个注意力头各维度的平均L2范数来量化激活强度。低频维度高索引集中了更强的激活且不同层之间呈现差异化的激活模式体现了维度级和层级的双重异质性。}
\caption[预训练模型LLaMA-2-7B中Query状态的激活强度可视化]{预训练模型LLaMA-2-7B中Query状态的激活强度可视化。\\ 通过计算每个注意力头各维度的平均L2范数来量化激活强度。\\ 低频维度(高索引)集中了更强的激活,且不同层之间呈现差异化的激活模式,体现了维度级和层级的双重异质性。}
\label{fig:ch4_activation}
\end{figure}
@@ -115,7 +115,7 @@ RoPE的频率结构不仅是数学上的设计选择更在实际模型中诱
\begin{figure}[htp]
\centering
\includegraphics[width=0.85\linewidth]{assets/4_rosa_arch.pdf}
\caption[RoSA方法框架图]{RoSA方法框架图。RoSA由两个核心模块组成RoPE感知注意力增强RoAE选择性增强RoPE影响的Q/K状态中的低频成分动态层选择DLS基于LayerNorm梯度信号动态选择重要层进行更新。}
\caption[RoSA方法框架图]{RoSA方法框架图。\\ RoSA由两个核心模块组成RoPE感知注意力增强RoAE选择性增强RoPE影响的Q/K状态中的低频成分\\ 动态层选择DLS基于LayerNorm梯度信号动态选择重要层进行更新。}
\label{fig:ch4_rosa_arch}
\end{figure}