1.fix table & pic title;2.fix table;
This commit is contained in:
@@ -69,7 +69,7 @@ RoPE的频率结构不仅是数学上的设计选择,更在实际模型中诱
|
||||
\hfill
|
||||
\subcaptionbox{跨层激活分布\label{fig:ch4_attn_layer}}{%
|
||||
\includegraphics[width=0.48\linewidth]{assets/4_AcrossLayer.pdf}}
|
||||
\caption[预训练模型(LLaMA-2-7B)中Query状态的激活强度可视化]{预训练模型(LLaMA-2-7B)中Query状态的激活强度可视化。通过计算每个注意力头各维度的平均L2范数来量化激活强度。低频维度(高索引)集中了更强的激活,且不同层之间呈现差异化的激活模式,体现了维度级和层级的双重异质性。}
|
||||
\caption[预训练模型(LLaMA-2-7B)中Query状态的激活强度可视化]{预训练模型(LLaMA-2-7B)中Query状态的激活强度可视化。\\ 通过计算每个注意力头各维度的平均L2范数来量化激活强度。\\ 低频维度(高索引)集中了更强的激活,且不同层之间呈现差异化的激活模式,体现了维度级和层级的双重异质性。}
|
||||
\label{fig:ch4_activation}
|
||||
\end{figure}
|
||||
|
||||
@@ -115,7 +115,7 @@ RoPE的频率结构不仅是数学上的设计选择,更在实际模型中诱
|
||||
\begin{figure}[htp]
|
||||
\centering
|
||||
\includegraphics[width=0.85\linewidth]{assets/4_rosa_arch.pdf}
|
||||
\caption[RoSA方法框架图]{RoSA方法框架图。RoSA由两个核心模块组成:RoPE感知注意力增强(RoAE),选择性增强RoPE影响的Q/K状态中的低频成分;动态层选择(DLS),基于LayerNorm梯度信号动态选择重要层进行更新。}
|
||||
\caption[RoSA方法框架图]{RoSA方法框架图。\\ RoSA由两个核心模块组成:RoPE感知注意力增强(RoAE),选择性增强RoPE影响的Q/K状态中的低频成分;\\ 动态层选择(DLS),基于LayerNorm梯度信号动态选择重要层进行更新。}
|
||||
\label{fig:ch4_rosa_arch}
|
||||
\end{figure}
|
||||
|
||||
|
||||
Reference in New Issue
Block a user