Rev for Pre

This commit is contained in:
panda361
2026-03-23 22:07:08 +08:00
parent de3d1598b0
commit 1fd3c5771f
12 changed files with 303 additions and 121 deletions

View File

@@ -1,24 +1,24 @@
% 摘要-{中文}{英文}
\Abstract{%
论文摘要是对论文研究内容的高度概括,应体现论文工作的核心思想。博士学
位论文的中文摘要一般约8001200字硕士学位论文的中文摘要一般约500字。摘
要内容应涉及本项科研工作的目的和意义、研究思想和方法、研究成果和结论,博
士学位论文应突出论文的创造性成果,硕士学位论文应突出论文的新见解。应具有
独立性和自含性,即应是一篇简短但意义完整的文章。论文摘要中不要出现图片、
图表、表格或其他插图材料。
随着大语言模型在推理、问答、生成与多任务协同场景中的广泛应用,如何在有限参数预算下高效完成下游适配,已成为基础模型落地中的关键问题。现有参数高效微调方法大多对不同层、不同模块或不同参数子空间施加形式一致的更新,默认模型内部结构是均匀的,因而难以充分利用大语言模型在模块功能、表示维度和参数组织等方面普遍存在的结构异质性。围绕这一问题,本文以结构异质性分析为切入点,研究面向大语言模型的结构感知表征适配方法,构建了由统一分析框架到多层级方法设计的系统技术路线。
论文的关键词,是为了文献标引工作从论文中选取出来用以表示全文主题内容
信息的单词或术语关键词一般为35个按词条的外延层次排列外延大的排在
前面)。每个关键词之间用逗号间隔,最后一个关键词后不缀标点符号。
首先,本文从表示流与参数更新两个视角出发,将模型适配统一刻画为在结构角色约束下的非均匀调制过程,构建了结构感知调制的统一分析框架,并将结构异质性归纳为模块级功能异质性、维度级位置结构异质性、频谱级多尺度异质性和参数级容量分配异质性四类,进一步对应乘性调制、组合式调制和结构分解调制三种基本形式。
论文摘要的中文版与英文版文字内容要对应。从中文摘要开始编写页码并采用
双面印刷。“Keywords”与中文摘要部分的关键词对应每个关键词之间用逗号间隔。
其次,围绕表示空间中的结构异质性,本文提出三类递进式方法:针对多任务场景中自注意力与前馈网络的功能分工差异,提出基于模块功能角色感知的混合上下文注意力调制方法 HyCAM通过共享调制、专用调制与动态路由协同实现知识共享与任务特化针对 RoPE 诱导的维度级位置结构异质性,提出静态选择性适配方法 RoSA通过低频维度增强与动态层选择提升对关键位置结构的利用效率在此基础上进一步提出动态位置注意力调制方法 DyPAM通过输入条件化的维度对调制以及头级、层级结构偏置实现由静态选择向动态细粒度调制的扩展。
再次,围绕参数空间中的结构异质性,本文提出两类结构化适配方法:针对权重更新中的多尺度频谱结构,提出基于频谱级联的多尺度参数适配方法 CASCADE通过 DCT 低频专家、小波高频专家与空域残差专家的协同建模,实现从全局平滑调整到局部精细修正的级联适配;针对多任务适配中的容量分配问题,提出基于共享-特有稀疏分解的多任务适配方法 MESSA通过预算感知的软到硬结构学习在统一参数预算下实现共享能力与任务特化能力之间的高效分配。
最后,本文在常识推理、数学推理和多任务联合适配等多类基准任务上进行了系统实验,覆盖 LLaMA、Qwen、Gemma、Mistral 等多个主流模型家族以及 0.5B 至 14B 的不同参数规模。实验结果表明,本文提出的五种方法在各自适用场景下均能稳定优于 LoRA、DoRA、AdaLoRA、FourierFT、MTLoRA 等代表性基线,验证了显式建模并利用大语言模型内部结构异质性对于提升参数高效适配性能与资源利用效率的有效性。本文的研究为大语言模型结构感知适配提供了统一的分析视角和系统的方法支撑。
}{
The abstract is a concise summary of the research content of the thesis, reflecting the core ideas of the work. For a doctoral dissertation, the Chinese abstract is typically around 8001,200 words, while for a master's thesis, it is generally about 500 words. The abstract should address the purpose and significance of the research, the methodology and approach, as well as the key findings and conclusions. Doctoral dissertations should emphasize original contributions, while master's theses should highlight novel insights. The abstract must be self-contained and independent, functioning as a complete yet concise standalone text. Figures, charts, tables, or other illustrative materials should not appear in the abstract.
As large language models are increasingly deployed in reasoning, question answering, generation, and multi-task scenarios, parameter-efficient adaptation under limited budgets has become a central problem for practical use. Most existing parameter-efficient fine-tuning methods apply updates with largely uniform forms across layers, modules, or parameter subspaces, implicitly assuming structural homogeneity inside the model. Such designs cannot fully exploit the structural heterogeneity that widely exists in module functions, representation dimensions, and parameter organization. To address this problem, this dissertation studies structure-aware representation adaptation for large language models and develops a systematic technical route from a unified analytical framework to multi-level method design.
Keywords are terms or phrases selected from the thesis to represent the main thematic content for indexing purposes. Typically, 35 keywords are required, arranged in hierarchical order of scope (with broader terms listed first). Keywords are separated by semicolons, with no punctuation following the last keyword.
First, from the dual perspectives of representation flow and parameter updates, this dissertation formulates model adaptation as a non-uniform modulation process constrained by structural roles, and establishes a unified framework for structure-aware modulation. Structural heterogeneity is summarized into four types: module-level functional heterogeneity, dimension-level positional heterogeneity, spectrum-level multi-scale heterogeneity, and parameter-level capacity-allocation heterogeneity. These types are further associated with three basic modulation forms, namely multiplicative modulation, compositional modulation, and structural-decomposition modulation.
The Chinese and English versions of the abstract must align in content. Page numbering begins with the Chinese abstract, and the document should be printed double-sided. The "Keywords" section in the English abstract corresponds to the Chinese version, with terms similarly separated by semicolons.
Second, for heterogeneity in the representation space, three progressively refined methods are proposed. HyCAM addresses the functional-role differences between self-attention and feed-forward networks in multi-task adaptation by coordinating shared modulation, task-specific modulation, and dynamic routing to balance knowledge sharing and task specialization. RoSA targets the dimension-level positional heterogeneity induced by RoPE, and improves the utilization of critical positional structure through selective low-frequency enhancement and dynamic layer selection. Building on this, DyPAM further extends static selection to fine-grained dynamic modulation by introducing input-conditioned modulation over RoPE-aligned dimension pairs together with head-level and layer-level structural biases.
Third, for heterogeneity in the parameter space, two structured adaptation methods are proposed. CASCADE addresses the multi-scale spectral structure of weight updates by combining a DCT-based low-frequency expert, a wavelet-based high-frequency expert, and a spatial residual expert, thereby realizing cascading adaptation from global smooth adjustment to local fine-grained correction. MESSA addresses capacity allocation in multi-task adaptation through a shared-specific sparse decomposition and a budget-aware soft-to-hard structure learning strategy, enabling efficient allocation between shared capability and task-specific capability under a unified parameter budget.
Finally, comprehensive experiments are conducted on commonsense reasoning, mathematical reasoning, and joint multi-task adaptation benchmarks, covering multiple mainstream model families including LLaMA, Qwen, Gemma, and Mistral, with model sizes ranging from 0.5B to 14B parameters. Experimental results show that the five proposed methods consistently outperform representative baselines such as LoRA, DoRA, AdaLoRA, FourierFT, and MTLoRA in their respective settings, validating the effectiveness of explicitly modeling and utilizing the structural heterogeneity inside large language models for improving adaptation performance and parameter efficiency. This dissertation provides both a unified analytical perspective and a systematic methodological foundation for structure-aware adaptation of large language models.
}
% 关键字-{中文}{英文}
\Keyword{大语言模型,参数高效微调,结构异质性,表征适配,结构感知调制}{Large Language Model, Parameter-Efficient Fine-Tuning, Structural Heterogeneity, Representation Adaptation, Structure-Aware Modulation}
\Keyword{大语言模型,参数高效微调,结构异质性,结构感知适配,表征适配}{Large Language Models, Parameter-Efficient Fine-Tuning, Structural Heterogeneity, Structure-Aware Adaptation, Representation Adaptation}

BIN
assets/2_rope_frequency.pdf Normal file

Binary file not shown.

Binary file not shown.

BIN
assets/route.pdf Normal file

Binary file not shown.

BIN
assets/三类方法.pdf Normal file

Binary file not shown.

BIN
assets/研究内容.pdf Normal file

Binary file not shown.

View File

@@ -14,12 +14,12 @@
与传统面向特定任务构建模型的范式相比,基础模型强调在统一表示空间中对多任务进行建模与迁移。模型不再针对每一类任务独立学习特定结构,而是通过预训练阶段形成通用表示,并在下游任务中通过适配机制对已有表示进行重组与调用。这一由“任务特定建模”向“通用表示学习”的转变,使模型能够在不同任务之间复用已有知识结构,并在新任务场景中实现高效迁移。
\begin{figure}[htbp]
\centering
% \includegraphics[width=0.85\textwidth]{fm_paradigm.pdf}
\caption[基础模型范式下统一表示学习的示意图]{基础模型范式下统一表示学习的示意图。\\左侧表示传统任务特定建模方式,不同任务依赖独立模型与特征设计;\\右侧表示基础模型通过预训练形成统一表示空间,并通过适配机制支持多任务共享与迁移。}
\label{fig:ch1_fm_paradigm}
\end{figure}
% \begin{figure}[htbp]
% \centering
% % \includegraphics[width=0.85\textwidth]{fm_paradigm.pdf}
% \caption[基础模型范式下统一表示学习的示意图]{基础模型范式下统一表示学习的示意图。\\左侧表示传统任务特定建模方式,不同任务依赖独立模型与特征设计;\\右侧表示基础模型通过预训练形成统一表示空间,并通过适配机制支持多任务共享与迁移。}
% \label{fig:ch1_fm_paradigm}
% \end{figure}
在这一范式下,模型能力不再仅由单一任务性能刻画,而更多取决于其在统一的表示空间中整合多源信息与支持多类型推理的能力。这种能力依赖于表示空间的内部组织方式,即不同语义成分、结构信息与知识模式在表示中的编码与分布形式。
@@ -81,11 +81,11 @@
这一具有内在一致性的分层方法体系,有助于从整体视角理解不同适配策略之间的关系,使模型改进从局部结构优化拓展为在统一框架下的系统化建模。同时,该体系为多任务场景中的表示迁移与能力协同提供了方法基础,并为后续结构感知建模研究提供了可扩展的技术路径。
{\heiti \underline{应用与工程价值}}
从应用角度看,大语言模型正由离线研究环境逐步走向多任务协同与持续部署的复杂系统场景。在这一过程中,模型适配方法不仅需要具备性能提升能力,还需要在计算开销、参数规模与部署稳定性等方面满足工程约束。在保持预训练模型主体能力的前提下,通过有限参数更新实现高效适配,已成为基础模型落地应用的关键问题。
从应用角度看,大语言模型正由离线研究环境逐步走向多任务协同与持续部署的复杂系统场景。在这一过程中,模型适配方法不仅需要面向性能,还需要在计算开销、参数规模与部署稳定性等方面满足工程约束。在保持预训练模型原有能力的前提下,通过有限参数更新实现高效适配,已成为基础模型落地应用的关键问题。
本文提出的结构感知适配方法,通过在模型内部关键结构单元上进行针对性的表示调制与参数组织,使适配过程更加聚焦于对任务能力形成具有关键作用的表示成分,从而在有限适配预算条件下提升模型性能与资源利用效率。这种建模方式有助于降低大模型在实际部署中的适配成本,并提升其在多任务环境中的持续适应能力。
此外,通过对不同结构适配策略进行系统验证,可以在多任务与多场景条件下评估方法性能表现,从而更全面分析结构感知适配机制的有效性。方法设计与实验分析的结合,有助于形成从结构建模到性能验证的完整研究闭环。
总体而言,围绕结构感知表征适配问题开展系统研究,有助于深化对基础模型适配机制的理解,推动模型适配方法由均匀更新向结构驱动调制演进,并为复杂任务场景下的大语言模型高效应用提供方法支撑。
\section{大语言模型表征适配研究现状与关键问题分析}
@@ -125,14 +125,15 @@
在参数空间层面,模型训练与微调过程中的参数更新通常呈现出非均匀分布与多尺度特征\cite{rahaman2019spectral}% 注需补充到ref.bib: rahaman2019spectral (Rahaman et al., On the Spectral Bias of Neural Networks, ICML 2019)
部分参数子空间对模型整体行为具有更显著影响,而多任务场景中不同任务对共享与专用参数的依赖程度也存在差异。这些现象表明,参数组织方式本身也具有结构属性,并对适配效果产生重要影响。
总体来看,现有研究已从模块、维度与参数等多个角度揭示了大语言模型内部的结构复杂性。然而,这些工作多围绕局部结构特征展开,其分析对象、建模方式及方法形式尚未形成统一描述框架,不同层级结构异质性之间的内在联系仍有待系统刻画。图~\ref{fig:ch1_research_landscape}~概括了上述研究现状及其与本文方法体系的关系。
总体来看,现有研究已从模块、维度与参数等多个角度揭示了大语言模型内部的结构复杂性。然而,这些工作多围绕局部结构特征展开,其分析对象、建模方式及方法形式尚未形成统一描述框架,不同层级结构异质性之间的内在联系仍有待系统刻画。
% 图~\ref{fig:ch1_research_landscape}~概括了上述研究现状及其与本文方法体系的关系。
\begin{figure}[htbp]
\centering
% \includegraphics[width=0.95\textwidth]{ch1_research_landscape.pdf}
\caption[大语言模型表征适配研究现状与本文方法定位]{大语言模型表征适配研究现状与本文方法定位。左侧展示模型内部三个层面的结构异质性现象(模块级功能分化、维度级位置结构差异、参数空间多尺度与容量分配特征);中间为现有参数高效适配方法的均匀适配假设与三类局限;右侧为本文构建的统一分析框架与五种方法的对应关系。}
\label{fig:ch1_research_landscape}
\end{figure}
% \begin{figure}[htbp]
% \centering
% % \includegraphics[width=0.95\textwidth]{ch1_research_landscape.pdf}
% \caption[大语言模型表征适配研究现状与本文方法定位]{大语言模型表征适配研究现状与本文方法定位。左侧展示模型内部三个层面的结构异质性现象(模块级功能分化、维度级位置结构差异、参数空间多尺度与容量分配特征);中间为现有参数高效适配方法的均匀适配假设与三类局限;右侧为本文构建的统一分析框架与五种方法的对应关系。}
% \label{fig:ch1_research_landscape}
% \end{figure}
\subsection{现有研究的关键问题总结}
\label{subsec:status_summary}
@@ -215,14 +216,13 @@
\begin{figure}[htbp]
\centering
% 占位:待替换为外部绘制的 modulation_forms.pdf
% \includegraphics[width=0.9\textwidth]{modulation_forms.pdf}
\caption[三种结构感知调制形式的示意图]{三种结构感知调制形式的示意图。该图采用三列并排布局,每列对应一种调制形式:
\textbf{}乘性调制):输入表示$\mathbf{Z}^{(\ell)}$经过条件化信号生成模块$\mathbf{S}_\theta(\mathbf{X},\mathcal{R})$产生逐元素调制信号通过Hadamard乘法$\odot$作用于原始表示,输出调制后表示$\tilde{\mathbf{Z}}^{(\ell)}$。下方标注"HyCAM / RoSA / DyPAM"及"表示空间"
\textbf{}组合式调制):输入通过多个异构频域变换分解为$S$个频段分量$\mathbf{Z}_1, \mathbf{Z}_2, \ldots, \mathbf{Z}_S$,每个分量经路由权重$g_{\theta,s}$加权后通过$\bigoplus$重组。下方标注"CASCADE"及"参数空间"
\textbf{右列}(结构分解调制):参数更新被分解为共享增量$\Delta\Theta_{shared}$和经掩码$\mathbf{m}$选择的专用增量$\Delta\Theta_{specific}$,二者相加后与输入表示相乘。下方标注"MESSA"及"参数空间"。
三列顶部统一标注公式$\tilde{\mathbf{Z}}^{(\ell)}=\mathcal{M}_{\theta}(\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R})$作为统一母式。每列使用与方法体系表一致的配色(表示空间青色调、参数空间橙色调)。}
\label{fig:ch1_modulation_forms}
\includegraphics[width=0.9\textwidth]{assets/三类方法.pdf}
\caption[三种结构感知调制形式的示意图]{三种结构感知调制形式的示意图。
\textbf{左列}(乘性调制):输入表示经过条件化信号生成模块$\mathbf{S}_\theta(\mathbf{X},\mathcal{R})$产生逐元素调制信号通过Hadamard乘法作用于原始表示。
\textbf{}组合式调制):输入通过多个异构频域变换分解为$S$个频段分量,每个分量经路由权重$g_{\theta,s}$加权后通过$\bigoplus$重组
\textbf{}结构分解调制):参数更新被分解为共享增量和经掩码选择的专用增量,二者相加后与输入表示相乘
}
\label{fig:ch1_method_system}
\end{figure}
\begin{table}[h]
@@ -254,6 +254,14 @@
在此划分下,本文的方法体系沿着由表示空间到参数空间的路径递进展开:第三至第五章在表示空间中,从模块级功能差异出发,逐步深入到维度级位置结构的静态选择与动态调制;第六章则转向参数空间,从多尺度频谱结构与参数容量分配两个方面对适配机制进行建模。
\begin{figure}[htbp]
\centering
\includegraphics[width=0.9\textwidth]{assets/研究内容.pdf}
\caption[本文方法体系的整体构成]{本文方法体系的整体构成。从表示流调制与参数更新组织两个研究视角出发,分别针对四类结构异质性(模块级功能异质性、维度级位置结构异质性、频谱级参数异质性、参数角色分配异质性)构建相应的适配方法,形成覆盖模块级、静态维度级、动态维度级、频谱参数级与结构参数级五个适配层级的递进式方法体系。
}
\label{fig:ch1_modulation_forms}
\end{figure}
综上,本文在统一的结构感知调制框架下,将模型适配刻画为在不同结构角色约束下对表示流与参数更新的非均匀调制过程,并据此形成由表示空间到参数空间逐层展开的方法体系。该框架为后续各章方法的设计与分析提供了统一的建模基础。
\section{研究内容与技术路线}
@@ -393,8 +401,8 @@
\begin{figure}[htbp]
\centering
% 占位:待替换为外部绘制的 tech_route.pdf
% \includegraphics[width=0.9\textwidth]{tech_route.pdf}
\caption[本文整体技术路线示意图]{本文整体技术路线示意图。该图采用自上而下的层级流程结构,共分为五层,见注释:}
\includegraphics[width=0.9\textwidth]{assets/route.pdf}
\caption[本文整体技术路线示意图]{本文整体技术路线示意图。}
% \textbf{第一层}(问题层)为全幅横条,标注"大语言模型内部多层级结构异质性",列出四类异质性——模块功能分化、维度位置结构差异、参数更新多尺度模式、容量分配需求不均匀。
% \textbf{第二层}(框架层)为全幅横条(蓝色调),标注"结构感知表征适配统一分析框架",包含统一调制算子公式$\tilde{\mathbf{Z}}^{(\ell)}=\mathcal{M}_{\theta}(\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R})$,列出四类描述符$\mathcal{R}_{\mathrm{mod}}$/$\mathcal{R}_{\mathrm{dim}}$/$\mathcal{R}_{\mathrm{spec}}$/$\mathcal{R}_{\mathrm{param}}$与三种调制形式。

View File

@@ -3,7 +3,8 @@
\chapter{大语言模型表征适配的相关理论与研究进展}
\label{chap:related_work}
本章围绕大语言模型的架构基础、参数高效适配方法、多任务学习机制以及结构异质性感知建模四个方面,对相关领域的研究进展进行系统梳理。第~\ref{sec:rw_llm_arch}~节介绍 Transformer 架构、旋转位置编码、预训练范式以及模型内部功能分化的研究基础;第~\ref{sec:rw_peft}~节综述参数高效微调方法的主要类别及其均匀适配局限;第~\ref{sec:rw_multitask}~节梳理多任务学习与模块级功能适配的相关工作;第~\ref{sec:rw_structure_aware}~节回顾围绕维度级异质性、频谱结构与参数容量分配的结构感知适配研究。上述梳理为第~\ref{sec:unified_framework}~节提出的统一分析框架以及后续各章方法设计提供文献基础与问题定位
本章围绕大语言模型的架构基础、参数高效适配方法、多任务学习机制以及结构异质性感知建模四个方面,对相关领域的研究进展进行系统梳理。第~\ref{sec:rw_llm_arch}~节介绍Transformer架构、旋转位置编码、预训练范式以及模型内部功能分化的研究基础第~\ref{sec:rw_peft}~节综述参数高效微调方法的主要类别及其适配局限;第~\ref{sec:rw_multitask}~节梳理多任务学习与模块级功能适配的相关工作;第~\ref{sec:rw_structure_aware}~节回顾围绕维度级异质性、频谱结构与参数容量分配的结构感知适配研究。上述梳理为第~\ref{sec:unified_framework}~节提出的统一分析框架以及后续各章方法提供理论基础
% 与问题定位。
%======================================================================
@@ -36,7 +37,7 @@ Transformer 架构通过引入自注意力机制,实现了对序列内部全
\end{equation}
各头输出拼接后经线性投影得到 MHSA 最终输出。现代大语言模型还广泛采用分组查询注意力Grouped Query Attention, GQA以在保持模型容量的同时降低推理开销\cite{ainslie2023gqa}
前馈网络模块通常采用门控线性单元Gated Linear Unit结构以 SwiGLU 为典型代表
前馈网络模块通常采用门控线性单元Gated Linear Unit结构以 SiLU 为典型:
\begin{equation}
\mathrm{FFN}(\mathbf{x}) = (\mathrm{SiLU}(\mathbf{x}\mathbf{W}_1) \odot \mathbf{x}\mathbf{W}_3) \mathbf{W}_2,
\end{equation}
@@ -47,10 +48,11 @@ Transformer 架构通过引入自注意力机制,实现了对序列内部全
\begin{figure}[htbp]
\centering
% 占位:待替换为外部绘制的 2_transformer_block.pdf
% \includegraphics[width=0.75\textwidth]{assets/2_transformer_block.pdf}
\caption[基于Pre-LN结构的Transformer解码器块示意图]{基于Pre-LN结构的Transformer解码器块示意图。该图展示单个Transformer层的完整计算流程
输入隐藏状态$\mathbf{H}^{(\ell-1)}$首先经LayerNorm归一化进入多头自注意力MHSA模块其中Query/Key经RoPE旋转后计算带因果掩码的缩放点积注意力Value不经旋转直接参与加权聚合MHSA输出经残差连接后再经LayerNorm进入采用SwiGLU结构的前馈网络FFN模块最终经残差连接输出$\mathbf{H}^{(\ell)}$
图中应标注以下结构异质性关注点1MHSA与FFN之间的功能分工上下文路由 vs 知识存储)标注为$\mathcal{R}_{mod}$2MHSA内部不同维度对的RoPE频率差异标注为$\mathcal{R}_{dim}$3权重矩阵$\mathbf{W}$上的参数更新结构标注为$\mathcal{R}_{spec}$/$\mathcal{R}_{param}$}
\includegraphics[width=0.9\textwidth]{assets/2_transformer_block.pdf}
\caption[基于Pre-LN结构的Transformer解码器块示意图]{基于Pre-LN结构的Transformer解码器块示意图。输入$\mathbf{H}^{(\ell-1)}$依次经LayerNorm、多头自注意力MHSAQuery/Key施加RoPE旋转、残差连接、LayerNorm、SwiGLU前馈网络FFN及残差连接输出$\mathbf{H}^{(\ell)}$。图中标注了本文关注的三类结构异质性MHSA与FFN的模块级功能分工$\mathcal{R}_{mod}$、MHSA内部RoPE维度对的频率差异$\mathcal{R}_{dim}$)、以及权重矩阵的参数更新结构($\mathcal{R}_{spec}$/$\mathcal{R}_{param}$)。}
% \caption[基于Pre-LN结构的Transformer解码器块示意图]{基于Pre-LN结构的Transformer解码器块示意图。该图展示单个Transformer层的完整计算流程
% 输入隐藏状态$\mathbf{H}^{(\ell-1)}$首先经LayerNorm归一化进入多头自注意力MHSA模块其中Query/Key经RoPE旋转后计算带因果掩码的缩放点积注意力Value不经旋转直接参与加权聚合MHSA输出经残差连接后再经LayerNorm进入采用SwiGLU结构的前馈网络FFN模块最终经残差连接输出$\mathbf{H}^{(\ell)}$。
% 图中应标注以下结构异质性关注点1MHSA与FFN之间的功能分工上下文路由 vs 知识存储)标注为$\mathcal{R}_{mod}$2MHSA内部不同维度对的RoPE频率差异标注为$\mathcal{R}_{dim}$3权重矩阵$\mathbf{W}$上的参数更新结构标注为$\mathcal{R}_{spec}$/$\mathcal{R}_{param}$。}
\label{fig:ch2_transformer_block}
\end{figure}
@@ -82,11 +84,14 @@ RoPE 最显著的特性在于其呈现出一种频率分解结构frequency de
\begin{figure}[htbp]
\centering
% 占位:待替换为外部绘制的 2_rope_frequency.pdf
% \includegraphics[width=0.85\textwidth]{assets/2_rope_frequency.pdf}
\caption[RoPE旋转位置编码的频率分解结构示意图]{RoPE旋转位置编码的频率分解结构示意图。该图分为三个子图:
\textbf{a维度对旋转频率}:横轴为维度对索引$i$,纵轴为旋转频率$\theta_i = \omega^{-2i/d_h}$(对数刻度),展示频率随维度索引几何递减的趋势,标注低索引=高频(局部位置敏感)与高索引=低频(全局依赖)两个区域。
\textbf{b位置响应衰减曲线}:横轴为相对位置距离$|t_1 - t_2|$纵轴为注意力得分贡献绘制3--4条代表性维度对的衰减曲线高频对快速衰减、低频对缓慢衰减直观展示不同维度对的多尺度位置感知特性。
\textbf{c维度对旋转示意}:选取一个高频维度对和一个低频维度对,在复平面上展示位置$t$$0$$T$时向量旋转轨迹的差异——高频对旋转多圈、低频对仅旋转小角度。}
\includegraphics[width=0.85\textwidth]{assets/2_rope_frequency.pdf}
\caption[RoPE旋转位置编码的频率分解结构示意图]{RoPE旋转位置编码的频率分解结构示意图。\textbf{a}旋转频率$\theta_i$随维度对索引$i$几何递减,低索引对应高频(局部位置敏感),高索引
对应低频(全局依赖)。\textbf{b}不同维度对的注意力得分随相对位置距离的衰减曲线,高频维度对快速衰减,低频维度对缓慢衰减,体现多尺度位置感知特性。\textbf{c}高频与低频维度对在
复平面上的旋转轨迹对比,高频对旋转多圈,低频对仅旋转小角度。}
% \caption[RoPE旋转位置编码的频率分解结构示意图]{RoPE旋转位置编码的频率分解结构示意图。该图分为三个子图
% \textbf{a维度对旋转频率}:横轴为维度对索引$i$,纵轴为旋转频率$\theta_i = \omega^{-2i/d_h}$(对数刻度),展示频率随维度索引几何递减的趋势,标注低索引=高频(局部位置敏感)与高索引=低频(全局依赖)两个区域。
% \textbf{b位置响应衰减曲线}:横轴为相对位置距离$|t_1 - t_2|$纵轴为注意力得分贡献绘制3--4条代表性维度对的衰减曲线高频对快速衰减、低频对缓慢衰减直观展示不同维度对的多尺度位置感知特性。
% \textbf{c维度对旋转示意}:选取一个高频维度对和一个低频维度对,在复平面上展示位置$t$从$0$到$T$时向量旋转轨迹的差异——高频对旋转多圈、低频对仅旋转小角度。}
\label{fig:ch2_rope_frequency}
\end{figure}
@@ -174,17 +179,17 @@ GPT 系列模型展示了随模型规模扩展而出现的强 few-shot 与 in-co
综合上述三类方法,可以从适配机制、结构假设以及与后续章节的衔接关系等维度对现有适配方法进行系统比较,如表~\ref{tab:ch2_method_comparison}~所示。
\begin{figure}[htbp]
\centering
% 占位:待替换为外部绘制的 2_peft_taxonomy.pdf
% \includegraphics[width=0.88\textwidth]{assets/2_peft_taxonomy.pdf}
\caption[参数高效适配方法的谱系结构与本文方法定位]{参数高效适配方法的谱系结构与本文方法定位。该图采用树形或层级分类布局:
\textbf{第一层}按适配对象分为三大类——"参数更新结构"(低秩、稀疏)、"附加模块"Adapter、前缀/提示)、"表示调制"(激活缩放、门控调制)。
\textbf{第二层}在每个大类下列出代表性方法低秩类LoRA、DoRA、AdaLoRA、稀疏类BitFit、SHiRA、运动剪枝、附加类Adapter、Prefix-Tuning、Prompt Tuning、调制类(IA)$^3$)。
\textbf{第三层}用虚线框或高亮标注本文五个方法HyCAM、RoSA、DyPAM、CASCADE、MESSA的定位并用箭头标注其相对于现有方法的创新方向——从"均匀适配"指向"结构感知适配"。
右侧用渐变色条标注"结构感知程度"从弱到强的演进趋势。}
\label{fig:ch2_peft_taxonomy}
\end{figure}
% \begin{figure}[htbp]
% \centering
% % 占位:待替换为外部绘制的 2_peft_taxonomy.pdf
% % \includegraphics[width=0.88\textwidth]{assets/2_peft_taxonomy.pdf}
% \caption[参数高效适配方法的谱系结构与本文方法定位]{参数高效适配方法的谱系结构与本文方法定位。该图采用树形或层级分类布局:
% \textbf{第一层}按适配对象分为三大类——"参数更新结构"(低秩、稀疏)、"附加模块"Adapter、前缀/提示)、"表示调制"(激活缩放、门控调制)。
% \textbf{第二层}在每个大类下列出代表性方法低秩类LoRA、DoRA、AdaLoRA、稀疏类BitFit、SHiRA、运动剪枝、附加类Adapter、Prefix-Tuning、Prompt Tuning、调制类(IA)$^3$)。
% \textbf{第三层}用虚线框或高亮标注本文五个方法HyCAM、RoSA、DyPAM、CASCADE、MESSA的定位并用箭头标注其相对于现有方法的创新方向——从"均匀适配"指向"结构感知适配"。
% 右侧用渐变色条标注"结构感知程度"从弱到强的演进趋势。}
% \label{fig:ch2_peft_taxonomy}
% \end{figure}
\begin{table}[htbp]
\centering
@@ -307,21 +312,21 @@ RoPE 的频率结构为表示空间引入了额外的维度级异质性。由于
然而,当问题推进到多任务条件下,复杂度进一步提升。此时不仅要回答"哪些参数值得更新",还要回答"哪些更新应由所有任务共享,哪些应保留为任务特有"。现有方法多依赖预先设定的共享规则或简单的任务标识路由,缺乏能够在统一预算约束下同时学习共享结构与特有结构的系统化机制。如何将结构发现从"给定结构下的参数学习"提升为"结构与参数的联合优化",仍是当前多任务适配研究中的开放问题。
\begin{figure}[htbp]
\centering
% 占位:待替换为外部绘制的 2_heterogeneity_levels.pdf
% \includegraphics[width=0.9\textwidth]{assets/2_heterogeneity_levels.pdf}
\caption[大语言模型内部多层级结构异质性的表现与适配对应关系]{大语言模型内部多层级结构异质性的表现与适配对应关系。该图采用左右两栏布局:
\textbf{左栏}(结构异质性层级)自上而下展示四个层级的异质性现象,每层配一个小型示意:
1模块级$\mathcal{R}_{mod}$MHSA与FFN功能分工示意上下文路由 vs 知识存储),用不同色块标注;
2维度级$\mathcal{R}_{dim}$RoPE不同维度对的激活强度热图高频维度弱激活、低频维度强激活
3频谱级$\mathcal{R}_{spec}$):权重更新矩阵的频谱分解示意(低频全局平滑 + 高频局部修正);
4参数级$\mathcal{R}_{param}$):多任务参数分配示意(冻结/共享/专用三种状态的参数组)。
\textbf{右栏}(对应适配方法)与左栏四个层级一一对齐,标注本文对应的方法名、调制形式与章节:
HyCAM乘性Ch3、RoSA$\to$DyPAM乘性Ch4$\to$Ch5、CASCADE组合式Ch6、MESSA结构分解Ch6
左右栏之间用虚线箭头连接,表示"结构异质性$\to$结构感知适配"的映射关系。}
\label{fig:ch2_heterogeneity_levels}
\end{figure}
% \begin{figure}[htbp]
% \centering
% % 占位:待替换为外部绘制的 2_heterogeneity_levels.pdf
% % \includegraphics[width=0.9\textwidth]{assets/2_heterogeneity_levels.pdf}
% \caption[大语言模型内部多层级结构异质性的表现与适配对应关系]{大语言模型内部多层级结构异质性的表现与适配对应关系。该图采用左右两栏布局:
% \textbf{左栏}(结构异质性层级)自上而下展示四个层级的异质性现象,每层配一个小型示意:
% 1模块级$\mathcal{R}_{mod}$MHSA与FFN功能分工示意上下文路由 vs 知识存储),用不同色块标注;
% 2维度级$\mathcal{R}_{dim}$RoPE不同维度对的激活强度热图高频维度弱激活、低频维度强激活
% 3频谱级$\mathcal{R}_{spec}$):权重更新矩阵的频谱分解示意(低频全局平滑 + 高频局部修正);
% 4参数级$\mathcal{R}_{param}$):多任务参数分配示意(冻结/共享/专用三种状态的参数组)。
% \textbf{右栏}(对应适配方法)与左栏四个层级一一对齐,标注本文对应的方法名、调制形式与章节:
% HyCAM乘性Ch3、RoSA$\to$DyPAM乘性Ch4$\to$Ch5、CASCADE组合式Ch6、MESSA结构分解Ch6
% 左右栏之间用虚线箭头连接,表示"结构异质性$\to$结构感知适配"的映射关系。}
% \label{fig:ch2_heterogeneity_levels}
% \end{figure}
%======================================================================

View File

@@ -257,16 +257,16 @@ RoSA和DyPAM均针对维度级位置结构异质性$\mathcal{R}_{dim}$
\subsection{互补性与递进关系}
\begin{figure}[htbp]
\centering
% 占位:待替换为外部绘制的 5_rosa_dypam_compare.pdf
% \includegraphics[width=0.9\textwidth]{assets/5_rosa_dypam_compare.pdf}
\caption[RoSA与DyPAM在维度级位置结构适配上的设计演进对比]{RoSA与DyPAM在维度级位置结构适配上的设计演进对比。该图采用左右并排的双架构对比布局
\textbf{左半}RoSA——静态选择性增强展示RoSA的处理流程——Query/Key向量中以虚线分割低频与高频维度区域低频区域由超参数$r_{\text{low}}$固定选定)高亮标注为"增强区域",高频区域灰显为"未增强区域";调制信号$\mathbf{S}$在所有头间共享底部标注DLS的层选择机制部分层激活、部分层掩码。用标签强调静态维度划分、跨头共享、层级二值选择。
\textbf{右半}DyPAM——动态条件化调制展示DyPAM的处理流程——Query/Key向量的所有维度对均被调制因子$s_{t,h,i}$覆盖,调制强度用连续色阶(从浅到深)表示差异化程度;调制信号从输入隐藏状态经低秩投影动态生成,并叠加头级偏置$\boldsymbol{\beta}_h$和层级偏置$\boldsymbol{\beta}^{(\ell)}$作用点标注在RoPE之前。用标签强调全维度覆盖、输入条件化、头级独立、连续调制。
\textbf{中间}用大箭头连接左右两半,标注递进关系:"静态$\to$动态"、"粗粒度$\to$细粒度"、"维度选择$\to$维度对调制"。}
\label{fig:ch5_rosa_dypam_compare}
\end{figure}
% \begin{figure}[htbp]
% \centering
% % 占位:待替换为外部绘制的 5_rosa_dypam_compare.pdf
% % \includegraphics[width=0.9\textwidth]{assets/5_rosa_dypam_compare.pdf}
% \caption[RoSA与DyPAM在维度级位置结构适配上的设计演进对比]{RoSA与DyPAM在维度级位置结构适配上的设计演进对比。该图采用左右并排的双架构对比布局
% \textbf{左半}RoSA——静态选择性增强展示RoSA的处理流程——Query/Key向量中以虚线分割低频与高频维度区域低频区域由超参数$r_{\text{low}}$固定选定)高亮标注为"增强区域",高频区域灰显为"未增强区域";调制信号$\mathbf{S}$在所有头间共享底部标注DLS的层选择机制部分层激活、部分层掩码。用标签强调静态维度划分、跨头共享、层级二值选择。
% \textbf{右半}DyPAM——动态条件化调制展示DyPAM的处理流程——Query/Key向量的所有维度对均被调制因子$s_{t,h,i}$覆盖,调制强度用连续色阶(从浅到深)表示差异化程度;调制信号从输入隐藏状态经低秩投影动态生成,并叠加头级偏置$\boldsymbol{\beta}_h$和层级偏置$\boldsymbol{\beta}^{(\ell)}$作用点标注在RoPE之前。用标签强调全维度覆盖、输入条件化、头级独立、连续调制。
% \textbf{中间}用大箭头连接左右两半,标注递进关系:"静态$\to$动态"、"粗粒度$\to$细粒度"、"维度选择$\to$维度对调制"。}
% \label{fig:ch5_rosa_dypam_compare}
% \end{figure}
从设计演进的角度看DyPAM可以理解为对RoSA的全面推进
@@ -434,7 +434,7 @@ DyPAM在所有三种骨干模型的常识推理任务上均取得统计显著的
\begin{table}[!htbp]
\centering
\caption[DyPAM与主要基线方法在不同模型规模上的数学推理性能比较Macro-Avg准确率\%]{DyPAM与主要基线方法在不同模型规模上的数学推理性能比较Macro-Avg准确率\%)。}
\caption[DyPAM与主要基线方法在不同模型规模上的数学推理性能比较]{DyPAM与主要基线方法在不同模型规模上的数学推理性能比较Macro-Avg准确率\%)。}
\label{tab:ch5_dypam_scale}
\begin{tabular}{lcccc}
\toprule

View File

@@ -216,7 +216,7 @@ CASCADE在冻结骨干的基础上使用下游任务的标准监督目标进行
\end{equation}
该项通过最小化DCT系数向量与小波系数向量之间的内积绝对值促使两类频域专家分别聚焦于互补的频谱模式。
CASCADE的主要超参数包括低频DCT系数20K个、小波系数10K个、空域残差专家秩$r=48$、负载均衡和正交性损失权重均为0.01。CASCADE的整体训练流程如算法~\ref{alg:ch6_cascade}所示。
CASCADE的主要超参数包括低频DCT系数20K个、小波系数10K个、空域残差专家秩$r=48$、负载均衡和正交性损失权重均为0.01。CASCADE的整体训练流程如算法~\ref{alg:ch6_cascade_2}所示。
%\RestyleAlgo{ruled}
%\begin{algorithm}[htp]
@@ -432,19 +432,19 @@ CASCADE和MESSA从不同角度应对参数空间的结构异质性挑战
从方法设计层面看CASCADE和MESSA分别丰富了统一框架中的组合式调制和结构分解调制两种形式。与第三至五章的乘性调制共同构成了三种调制形式的完整实例化验证了第一章统一分析框架对不同结构异质性类型和调制机制的覆盖能力。
\begin{figure}[htbp]
\centering
% 占位:待替换为外部绘制的 6_cascade_messa_relation.pdf
% \includegraphics[width=0.85\textwidth]{assets/6_cascade_messa_relation.pdf}
\caption[CASCADE与MESSA在参数空间适配中的互补关系]{CASCADE与MESSA在参数空间适配中的互补关系。该图采用双轴矩阵布局
\textbf{横轴}为"适配问题维度",标注两个正交方向——"单任务内部的多尺度结构"(左)和"多任务间的容量分配"(右)。
\textbf{纵轴}为"调制机制",标注两种形式——"组合式调制"(上)和"结构分解调制"(下)。
CASCADE定位于左上象限用小型示意图展示其核心机制权重更新$\Delta\mathbf{W}$通过DCT和小波分解为低频全局成分与高频局部成分经级联调制后由路由权重$w_e$加权重组。
MESSA定位于右下象限用小型示意图展示其核心机制参数组通过软门控$z^{\text{sh}}_g$/$z^{\text{sp}}_{g,t}$被分配为共享或任务特有状态,在全局预算$B$约束下经一次性剪枝固化结构。
左上与右下之间用双向虚线箭头标注"互补",并在交叉区域(右上)标注"潜在组合方向:频谱感知的共享-特有分解"。
图底部用色条标注两种方法在统一框架中的定位:$\mathcal{R}_{spec}$(组合式调制)与$\mathcal{R}_{param}$(结构分解调制)。}
\label{fig:ch6_cascade_messa_relation}
\end{figure}
% \begin{figure}[htbp]
% \centering
% % 占位:待替换为外部绘制的 6_cascade_messa_relation.pdf
% % \includegraphics[width=0.85\textwidth]{assets/6_cascade_messa_relation.pdf}
% \caption[CASCADE与MESSA在参数空间适配中的互补关系]{CASCADE与MESSA在参数空间适配中的互补关系。该图采用双轴矩阵布局
% \textbf{横轴}为"适配问题维度",标注两个正交方向——"单任务内部的多尺度结构"(左)和"多任务间的容量分配"(右)。
% \textbf{纵轴}为"调制机制",标注两种形式——"组合式调制"(上)和"结构分解调制"(下)。
% CASCADE定位于左上象限用小型示意图展示其核心机制权重更新$\Delta\mathbf{W}$通过DCT和小波分解为低频全局成分与高频局部成分经级联调制后由路由权重$w_e$加权重组。
% MESSA定位于右下象限用小型示意图展示其核心机制参数组通过软门控$z^{\text{sh}}_g$/$z^{\text{sp}}_{g,t}$被分配为共享或任务特有状态,在全局预算$B$约束下经一次性剪枝固化结构。
% 左上与右下之间用双向虚线箭头标注"互补",并在交叉区域(右上)标注"潜在组合方向:频谱感知的共享-特有分解"。
% 图底部用色条标注两种方法在统一框架中的定位:$\mathcal{R}_{spec}$(组合式调制)与$\mathcal{R}_{param}$(结构分解调制)。}
% \label{fig:ch6_cascade_messa_relation}
% \end{figure}
\section{实验验证与结果分析}
@@ -471,7 +471,7 @@ MESSA定位于右下象限用小型示意图展示其核心机制参数组
\begin{table}[!htbp]
\centering
\caption[CASCADE与基线方法在常识推理任务上的性能比较Micro-Avg准确率\%]{CASCADE与基线方法在常识推理任务上的性能比较Micro-Avg准确率\%)。\\ *表示统计显著提升。}
\caption[CASCADE与基线方法在常识推理任务上的性能比较]{CASCADE与基线方法在常识推理任务上的性能比较Micro-Avg准确率\%)。\\ *表示统计显著提升。}
\label{tab:ch6_cascade_common}
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{1.05}
@@ -520,7 +520,7 @@ CASCADE在所有三种骨干模型上均取得了统计显著的最优Micro-Avg
\begin{table}[!htbp]
\centering
\caption[CASCADE与基线方法在数学推理任务上的性能比较Qwen3-4BMicro-Avg准确率\%]{CASCADE与基线方法在数学推理任务上的性能比较Qwen3-4BMicro-Avg准确率\%)。*表示统计显著提升。}
\caption[CASCADE与基线方法在数学推理任务上的性能比较]{CASCADE与基线方法在数学推理任务上的性能比较Qwen3-4BMicro-Avg准确率\%)。*表示统计显著提升。}
\label{tab:ch6_cascade_math}
\resizebox{\linewidth}{!}{
\renewcommand{\arraystretch}{1.05}
@@ -548,7 +548,7 @@ CASCADE在Qwen3-4B上取得了60.29\%的最优Micro-Avg性能显著优于所
\begin{table}[!htbp]
\centering
\caption[CASCADE与基线方法在不同模型规模上的常识推理性能比较Micro-Avg准确率\%]{CASCADE与基线方法在不同模型规模上的常识推理性能比较Micro-Avg准确率\%)。}
\caption[CASCADE与基线方法在不同模型规模上的常识推理性能比较]{CASCADE与基线方法在不同模型规模上的常识推理性能比较Micro-Avg准确率\%)。}
\label{tab:ch6_cascade_scale}
\begin{tabular}{lccc}
\toprule

View File

@@ -157,7 +157,7 @@
\Major{计算机应用技术}
\Feild{大语言模型参数高效微调}
\Discipline{计算机科学与技术}
\Direction{\highlight{计算机应用技术TBD}}
\Direction{计算机应用技术}
% 导师信息-{中文名}{英文名}{职称}
\Tutor{熊璋}{Zhang Xiong}{教授}
@@ -175,9 +175,9 @@
% 时间节点-{月}{日}{年}
\DateEnroll{09}{01}{2019}
\DateGraduate{\highlight{0x}}{31}{2026}
\DateSubmit{\highlight{0x}}{10}{2026}
\DateDefence{\highlight{0x}}{01}{2026}
\DateGraduate{}{31}{2026}
\DateSubmit{}{10}{2026}
\DateDefence{}{01}{2026}
%%=================================================================
\input{0.1_abs&keyw.tex}
@@ -228,17 +228,17 @@
\Bib{def/GBT7714-2015-NoWarning.bst}{ref.bib}
% 附录
\input{tex/chap_appendix}
% % 附录
% \input{tex/chap_appendix}
% 攻读学位期间成果
\input{tex/chap_achievement}
% % 攻读学位期间成果
% \input{tex/chap_achievement}
% 致谢
\input{tex/chap_acknowledge}
% % 致谢
% \input{tex/chap_acknowledge}
% 作者简介
\input{tex/chap_biography}
% % 作者简介
% \input{tex/chap_biography}
\vspace{5cm}

View File

@@ -0,0 +1,169 @@
"""
生成 RoPE 旋转位置编码的频率分解结构示意图 (fig:ch2_rope_frequency)
三个子图:(a) 维度对旋转频率 (b) 位置响应衰减曲线 (c) 复平面旋转轨迹
"""
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl
# ---------- 全局样式(支持中文) ----------
plt.rcParams.update({
"font.family": ["Arial Unicode MS", "Songti SC", "SimSun", "serif"],
"mathtext.fontset": "cm",
"font.size": 9,
"axes.labelsize": 10,
"axes.titlesize": 11,
"legend.fontsize": 8,
"figure.dpi": 150,
"axes.unicode_minus": False,
})
# ---------- RoPE 参数 ----------
d_h = 64 # 头维度
omega = 10000.0 # RoPE base
n_pairs = d_h // 2 # 32 个维度对
indices = np.arange(n_pairs)
theta = omega ** (-2.0 * indices / d_h) # 旋转频率
# ---------- 创建图 ----------
fig, axes = plt.subplots(1, 3, figsize=(14, 4.0))
# ===== (a) 维度对旋转频率 =====
ax = axes[0]
ax.semilogy(indices, theta, "o-", color="#2563EB", markersize=3.5, linewidth=1.5)
ax.set_xlabel(r"维度对索引 $i$")
ax.set_ylabel(r"旋转频率 $\theta_i$(对数刻度)", labelpad=2)
ax.tick_params(axis="y", pad=1)
ax.set_title("(a)", fontweight="bold", loc="left")
# 标注高频 / 低频区域
bbox_style = dict(boxstyle="round,pad=0.25", fc="white", ec="none", alpha=0.85)
ax.annotate(
"高频\n(局部位置敏感)",
xy=(2, theta[2]),
xytext=(12, theta[1] * 1.5),
fontsize=9,
ha="center",
arrowprops=dict(arrowstyle="->", color="#DC2626", lw=1.2),
color="#DC2626",
bbox=bbox_style,
)
ax.annotate(
"低频\n(全局依赖)",
xy=(28, theta[28]),
xytext=(18, theta[15] * 0.8),
fontsize=9,
ha="center",
arrowprops=dict(arrowstyle="->", color="#059669", lw=1.2),
color="#059669",
bbox=bbox_style,
)
ax.set_xlim(-1, n_pairs)
ax.grid(True, alpha=0.3)
# ===== (b) 位置响应衰减曲线 =====
ax = axes[1]
rel_pos = np.arange(0, 129) # 相对位置距离
# 选 4 条代表性维度对
selected = [0, 5, 15, 31]
colors_b = ["#DC2626", "#F59E0B", "#2563EB", "#059669"]
labels_b = [rf"$i={s}$" for s in selected]
for s, c, lb in zip(selected, colors_b, labels_b):
# 注意力得分贡献 ∝ cos(theta_i * delta)
score = np.cos(theta[s] * rel_pos)
ax.plot(rel_pos, score, color=c, linewidth=1.5, label=lb)
ax.set_xlabel(r"相对位置距离 $|t_1 - t_2|$")
ax.set_ylabel("注意力得分贡献", labelpad=2)
ax.tick_params(axis="y", pad=1)
ax.set_title("(b)", fontweight="bold", loc="left")
ax.legend(loc="upper right", framealpha=0.9)
ax.set_xlim(0, 128)
ax.set_ylim(-1.15, 1.15)
ax.axhline(0, color="gray", linewidth=0.5, linestyle="--")
ax.grid(True, alpha=0.3)
# ===== (c) 复平面旋转轨迹 =====
ax = axes[2]
T = 64 # 位置范围
positions = np.arange(0, T + 1)
# 高频维度对 i=0
i_high = 0
angles_high = theta[i_high] * positions
x_high = np.cos(angles_high)
y_high = np.sin(angles_high)
# 低频维度对 i=31
i_low = 31
angles_low = theta[i_low] * positions
x_low = np.cos(angles_low)
y_low = np.sin(angles_low)
# 单位圆
circle_t = np.linspace(0, 2 * np.pi, 200)
ax.plot(np.cos(circle_t), np.sin(circle_t), color="gray", linewidth=0.6, linestyle="--", alpha=0.5)
# 绘制轨迹
ax.plot(x_high, y_high, color="#DC2626", linewidth=1.5, label=rf"$i={i_high}$(高频)", alpha=0.85)
ax.plot(x_high[0], y_high[0], "o", color="#DC2626", markersize=5)
ax.plot(x_high[-1], y_high[-1], "s", color="#DC2626", markersize=5)
ax.plot(x_low, y_low, color="#059669", linewidth=2.0, label=rf"$i={i_low}$(低频)", alpha=0.85)
ax.plot(x_low[0], y_low[0], "o", color="#059669", markersize=5)
ax.plot(x_low[-1], y_low[-1], "s", color="#059669", markersize=5)
# 起点标注 — 放在圆外右上方,避免重叠
ax.annotate(
r"$t=0$",
xy=(x_high[0], y_high[0]),
xytext=(1.15, 0.25),
fontsize=8,
color="#555",
arrowprops=dict(arrowstyle="->", color="#555", lw=0.8),
bbox=bbox_style,
)
# 高频终点标注 — 放在左下
ax.annotate(
rf"$t={T}$",
xy=(x_high[-1], y_high[-1]),
xytext=(-1.15, -0.9),
fontsize=8,
color="#DC2626",
arrowprops=dict(arrowstyle="->", color="#DC2626", lw=0.8),
bbox=bbox_style,
)
# 低频终点标注 — 放在右侧偏下
ax.annotate(
rf"$t={T}$",
xy=(x_low[-1], y_low[-1]),
xytext=(0.7, -0.9),
fontsize=8,
color="#059669",
arrowprops=dict(arrowstyle="->", color="#059669", lw=0.8),
bbox=bbox_style,
)
ax.set_xlabel("实部 Re")
ax.set_ylabel("虚部 Im", labelpad=2)
ax.tick_params(axis="y", pad=1)
ax.set_title("(c)", fontweight="bold", loc="left")
ax.set_aspect("equal")
ax.legend(loc="lower left", framealpha=0.9, fontsize=8)
ax.set_xlim(-1.4, 1.4)
ax.set_ylim(-1.4, 1.4)
ax.grid(True, alpha=0.3)
ax.axhline(0, color="gray", linewidth=0.4)
ax.axvline(0, color="gray", linewidth=0.4)
# ---------- 保存 ----------
plt.tight_layout(w_pad=2.5)
plt.subplots_adjust(left=0.06)
output_path = "assets/2_rope_frequency.pdf"
fig.savefig(output_path, bbox_inches="tight", pad_inches=0.1)
print(f"Saved to {output_path}")
plt.show()