Rev for Pre

This commit is contained in:
panda361
2026-03-23 22:07:08 +08:00
parent de3d1598b0
commit 1fd3c5771f
12 changed files with 303 additions and 121 deletions

View File

@@ -14,12 +14,12 @@
与传统面向特定任务构建模型的范式相比,基础模型强调在统一表示空间中对多任务进行建模与迁移。模型不再针对每一类任务独立学习特定结构,而是通过预训练阶段形成通用表示,并在下游任务中通过适配机制对已有表示进行重组与调用。这一由“任务特定建模”向“通用表示学习”的转变,使模型能够在不同任务之间复用已有知识结构,并在新任务场景中实现高效迁移。
\begin{figure}[htbp]
\centering
% \includegraphics[width=0.85\textwidth]{fm_paradigm.pdf}
\caption[基础模型范式下统一表示学习的示意图]{基础模型范式下统一表示学习的示意图。\\左侧表示传统任务特定建模方式,不同任务依赖独立模型与特征设计;\\右侧表示基础模型通过预训练形成统一表示空间,并通过适配机制支持多任务共享与迁移。}
\label{fig:ch1_fm_paradigm}
\end{figure}
% \begin{figure}[htbp]
% \centering
% % \includegraphics[width=0.85\textwidth]{fm_paradigm.pdf}
% \caption[基础模型范式下统一表示学习的示意图]{基础模型范式下统一表示学习的示意图。\\左侧表示传统任务特定建模方式,不同任务依赖独立模型与特征设计;\\右侧表示基础模型通过预训练形成统一表示空间,并通过适配机制支持多任务共享与迁移。}
% \label{fig:ch1_fm_paradigm}
% \end{figure}
在这一范式下,模型能力不再仅由单一任务性能刻画,而更多取决于其在统一的表示空间中整合多源信息与支持多类型推理的能力。这种能力依赖于表示空间的内部组织方式,即不同语义成分、结构信息与知识模式在表示中的编码与分布形式。
@@ -81,11 +81,11 @@
这一具有内在一致性的分层方法体系,有助于从整体视角理解不同适配策略之间的关系,使模型改进从局部结构优化拓展为在统一框架下的系统化建模。同时,该体系为多任务场景中的表示迁移与能力协同提供了方法基础,并为后续结构感知建模研究提供了可扩展的技术路径。
{\heiti \underline{应用与工程价值}}
从应用角度看,大语言模型正由离线研究环境逐步走向多任务协同与持续部署的复杂系统场景。在这一过程中,模型适配方法不仅需要具备性能提升能力,还需要在计算开销、参数规模与部署稳定性等方面满足工程约束。在保持预训练模型主体能力的前提下,通过有限参数更新实现高效适配,已成为基础模型落地应用的关键问题。
从应用角度看,大语言模型正由离线研究环境逐步走向多任务协同与持续部署的复杂系统场景。在这一过程中,模型适配方法不仅需要面向性能,还需要在计算开销、参数规模与部署稳定性等方面满足工程约束。在保持预训练模型原有能力的前提下,通过有限参数更新实现高效适配,已成为基础模型落地应用的关键问题。
本文提出的结构感知适配方法,通过在模型内部关键结构单元上进行针对性的表示调制与参数组织,使适配过程更加聚焦于对任务能力形成具有关键作用的表示成分,从而在有限适配预算条件下提升模型性能与资源利用效率。这种建模方式有助于降低大模型在实际部署中的适配成本,并提升其在多任务环境中的持续适应能力。
此外,通过对不同结构适配策略进行系统验证,可以在多任务与多场景条件下评估方法性能表现,从而更全面分析结构感知适配机制的有效性。方法设计与实验分析的结合,有助于形成从结构建模到性能验证的完整研究闭环。
总体而言,围绕结构感知表征适配问题开展系统研究,有助于深化对基础模型适配机制的理解,推动模型适配方法由均匀更新向结构驱动调制演进,并为复杂任务场景下的大语言模型高效应用提供方法支撑。
\section{大语言模型表征适配研究现状与关键问题分析}
@@ -125,14 +125,15 @@
在参数空间层面,模型训练与微调过程中的参数更新通常呈现出非均匀分布与多尺度特征\cite{rahaman2019spectral}% 注需补充到ref.bib: rahaman2019spectral (Rahaman et al., On the Spectral Bias of Neural Networks, ICML 2019)
部分参数子空间对模型整体行为具有更显著影响,而多任务场景中不同任务对共享与专用参数的依赖程度也存在差异。这些现象表明,参数组织方式本身也具有结构属性,并对适配效果产生重要影响。
总体来看,现有研究已从模块、维度与参数等多个角度揭示了大语言模型内部的结构复杂性。然而,这些工作多围绕局部结构特征展开,其分析对象、建模方式及方法形式尚未形成统一描述框架,不同层级结构异质性之间的内在联系仍有待系统刻画。图~\ref{fig:ch1_research_landscape}~概括了上述研究现状及其与本文方法体系的关系。
总体来看,现有研究已从模块、维度与参数等多个角度揭示了大语言模型内部的结构复杂性。然而,这些工作多围绕局部结构特征展开,其分析对象、建模方式及方法形式尚未形成统一描述框架,不同层级结构异质性之间的内在联系仍有待系统刻画。
% 图~\ref{fig:ch1_research_landscape}~概括了上述研究现状及其与本文方法体系的关系。
\begin{figure}[htbp]
\centering
% \includegraphics[width=0.95\textwidth]{ch1_research_landscape.pdf}
\caption[大语言模型表征适配研究现状与本文方法定位]{大语言模型表征适配研究现状与本文方法定位。左侧展示模型内部三个层面的结构异质性现象(模块级功能分化、维度级位置结构差异、参数空间多尺度与容量分配特征);中间为现有参数高效适配方法的均匀适配假设与三类局限;右侧为本文构建的统一分析框架与五种方法的对应关系。}
\label{fig:ch1_research_landscape}
\end{figure}
% \begin{figure}[htbp]
% \centering
% % \includegraphics[width=0.95\textwidth]{ch1_research_landscape.pdf}
% \caption[大语言模型表征适配研究现状与本文方法定位]{大语言模型表征适配研究现状与本文方法定位。左侧展示模型内部三个层面的结构异质性现象(模块级功能分化、维度级位置结构差异、参数空间多尺度与容量分配特征);中间为现有参数高效适配方法的均匀适配假设与三类局限;右侧为本文构建的统一分析框架与五种方法的对应关系。}
% \label{fig:ch1_research_landscape}
% \end{figure}
\subsection{现有研究的关键问题总结}
\label{subsec:status_summary}
@@ -215,14 +216,13 @@
\begin{figure}[htbp]
\centering
% 占位:待替换为外部绘制的 modulation_forms.pdf
% \includegraphics[width=0.9\textwidth]{modulation_forms.pdf}
\caption[三种结构感知调制形式的示意图]{三种结构感知调制形式的示意图。该图采用三列并排布局,每列对应一种调制形式:
\textbf{}乘性调制):输入表示$\mathbf{Z}^{(\ell)}$经过条件化信号生成模块$\mathbf{S}_\theta(\mathbf{X},\mathcal{R})$产生逐元素调制信号通过Hadamard乘法$\odot$作用于原始表示,输出调制后表示$\tilde{\mathbf{Z}}^{(\ell)}$。下方标注"HyCAM / RoSA / DyPAM"及"表示空间"
\textbf{}组合式调制):输入通过多个异构频域变换分解为$S$个频段分量$\mathbf{Z}_1, \mathbf{Z}_2, \ldots, \mathbf{Z}_S$,每个分量经路由权重$g_{\theta,s}$加权后通过$\bigoplus$重组。下方标注"CASCADE"及"参数空间"
\textbf{右列}(结构分解调制):参数更新被分解为共享增量$\Delta\Theta_{shared}$和经掩码$\mathbf{m}$选择的专用增量$\Delta\Theta_{specific}$,二者相加后与输入表示相乘。下方标注"MESSA"及"参数空间"。
三列顶部统一标注公式$\tilde{\mathbf{Z}}^{(\ell)}=\mathcal{M}_{\theta}(\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R})$作为统一母式。每列使用与方法体系表一致的配色(表示空间青色调、参数空间橙色调)。}
\label{fig:ch1_modulation_forms}
\includegraphics[width=0.9\textwidth]{assets/三类方法.pdf}
\caption[三种结构感知调制形式的示意图]{三种结构感知调制形式的示意图。
\textbf{左列}(乘性调制):输入表示经过条件化信号生成模块$\mathbf{S}_\theta(\mathbf{X},\mathcal{R})$产生逐元素调制信号通过Hadamard乘法作用于原始表示。
\textbf{}组合式调制):输入通过多个异构频域变换分解为$S$个频段分量,每个分量经路由权重$g_{\theta,s}$加权后通过$\bigoplus$重组
\textbf{}结构分解调制):参数更新被分解为共享增量和经掩码选择的专用增量,二者相加后与输入表示相乘
}
\label{fig:ch1_method_system}
\end{figure}
\begin{table}[h]
@@ -254,6 +254,14 @@
在此划分下,本文的方法体系沿着由表示空间到参数空间的路径递进展开:第三至第五章在表示空间中,从模块级功能差异出发,逐步深入到维度级位置结构的静态选择与动态调制;第六章则转向参数空间,从多尺度频谱结构与参数容量分配两个方面对适配机制进行建模。
\begin{figure}[htbp]
\centering
\includegraphics[width=0.9\textwidth]{assets/研究内容.pdf}
\caption[本文方法体系的整体构成]{本文方法体系的整体构成。从表示流调制与参数更新组织两个研究视角出发,分别针对四类结构异质性(模块级功能异质性、维度级位置结构异质性、频谱级参数异质性、参数角色分配异质性)构建相应的适配方法,形成覆盖模块级、静态维度级、动态维度级、频谱参数级与结构参数级五个适配层级的递进式方法体系。
}
\label{fig:ch1_modulation_forms}
\end{figure}
综上,本文在统一的结构感知调制框架下,将模型适配刻画为在不同结构角色约束下对表示流与参数更新的非均匀调制过程,并据此形成由表示空间到参数空间逐层展开的方法体系。该框架为后续各章方法的设计与分析提供了统一的建模基础。
\section{研究内容与技术路线}
@@ -393,8 +401,8 @@
\begin{figure}[htbp]
\centering
% 占位:待替换为外部绘制的 tech_route.pdf
% \includegraphics[width=0.9\textwidth]{tech_route.pdf}
\caption[本文整体技术路线示意图]{本文整体技术路线示意图。该图采用自上而下的层级流程结构,共分为五层,见注释:}
\includegraphics[width=0.9\textwidth]{assets/route.pdf}
\caption[本文整体技术路线示意图]{本文整体技术路线示意图。}
% \textbf{第一层}(问题层)为全幅横条,标注"大语言模型内部多层级结构异质性",列出四类异质性——模块功能分化、维度位置结构差异、参数更新多尺度模式、容量分配需求不均匀。
% \textbf{第二层}(框架层)为全幅横条(蓝色调),标注"结构感知表征适配统一分析框架",包含统一调制算子公式$\tilde{\mathbf{Z}}^{(\ell)}=\mathcal{M}_{\theta}(\mathbf{Z}^{(\ell)};\mathbf{X},\mathcal{R})$,列出四类描述符$\mathcal{R}_{\mathrm{mod}}$/$\mathcal{R}_{\mathrm{dim}}$/$\mathcal{R}_{\mathrm{spec}}$/$\mathcal{R}_{\mathrm{param}}$与三种调制形式。