综述 | OPSD：大语言模型的在线策略自蒸馏

导读

这篇综述聚焦 On-Policy Self-Distillation（OPSD，在策略自蒸馏）这一新近兴起的大语言模型训练范式。它试图回答一个非常实际的问题：如果强化学习能解决 on-policy 分布匹配，却只有稀疏奖励；知识蒸馏能提供逐令牌密集监督，却依赖额外教师模型；那么是否可以让同一个模型既作为学生生成轨迹，又在获得答案、反馈或其他特权信息后作为教师，为自己的轨迹提供更细粒度的训练信号？论文给出的答案是 OPSD。其核心思想并不复杂：学生角色只看到问题并按当前策略采样；教师角色共享同一套参数，但额外看到真实答案、验证反馈、工具输出或其他特权上下文；训练目标是在学生自己生成的轨迹上，对齐学生分布和教师分布。这样既保留了 on-policy 训练对当前模型行为分布的贴合，又避免部署外部大教师模型的高显存开销。论文指出，相比标准 On-Policy Distillation，OPSD 通常可降低约 40%-60% GPU 内存消耗。作为一篇 brief overview，原文没有展开大规模实验，而是按照背景方法、设计分类、实验设置与结论来组织。本文严格沿用这一组织结构，并在每一节中补充中文解释：先讲 SFT、GRPO、OPD 与 OPSD 的差异，再梳理 OPSD 的八类设计方向，包括混合策略优化、反馈驱动蒸馏、训练稳定性校准、推理压缩、能力内化、多模态扩展、结构化轨迹蒸馏与理论范式。对于希望理解 LLM 后训练新趋势的读者，这篇综述的价值在于提供了一个简洁的地图：OPSD 不是单一算法，而是一组围绕“同一模型、双重角色、特权信息、逐令牌对齐”展开的方法族。

阅读重点

阅读这篇综述时，可以抓住三条线索。第一条线索是“训练分布”：SFT 使用专家轨迹，训练条件与模型推理时的自回归条件不一致；GRPO 让模型在自己的采样分布上学习，但奖励信号很稀疏；OPD 也在学生轨迹上训练，却需要外部教师提供逐令牌分布；OPSD 则进一步把教师角色收回到同一模型内部。第二条线索是“监督密度”：OPSD 试图把最终答案、环境反馈或工具结果转化为每个 token 位置上的分布对齐信号，从而缓解强化学习中的信用分配问题。第三条线索是“资源约束”：在大模型后训练中，额外部署一个强教师往往意味着显存翻倍，而 OPSD 的共享参数设计使它更接近可落地的训练范式。因此，OPSD 的意义不只在于“自蒸馏”这个名字，而在于它把后训练中的几个矛盾放在同一个框架下处理：既要 on-policy，又要密集监督；既要利用答案或反馈，又不能在推理时泄漏答案；既要吸收教师式信号，又不能承担独立教师模型的显存成本。后文的八类设计方向，实际上都是围绕这几个矛盾展开的不同工程化解法。

Abstract / 摘要

On-Policy Self-Distillation (OPSD) 是一种统一学习框架，其中单个大型语言模型同时扮演教师和学生两个角色。与依赖独立、通常更大的教师模型的传统知识蒸馏不同，OPSD 在不同上下文角色下运作：教师策略被授予访问已验证推理轨迹的特权信息，而学生策略仅观察问题陈述。OPSD 的训练目标是最小化从学生自身采样的轨迹上两个角色之间的逐令牌分布差异，从而将模型自身的推理行为与知晓解决方案的推理过程对齐。OPSD 消除了对外部教师模型的需求，直接利用真实解决方案信息，并解决了离策略蒸馏中固有的分布不匹配问题。与标准 On-Policy Distillation (OPD) 相比，OPSD 通常减少约 40%-60% 的 GPU 内存消耗。本文从该领域初学者的视角，简要分析了 OPSD 在大语言模型中的概念基础、方法创新和原则性设计，旨在为同样新进入该领域的研究者提供设计原则和新兴模式的简明概述。

1 Introduction / 引言

大语言模型后训练的“三板斧”是：SFT（监督微调）、RL（强化学习）和 OPD（策略蒸馏）。SFT 直接模仿专家轨迹，简单高效，但本质上是离策略的——训练分布与推理分布之间存在不匹配，导致泛化能力差，在持续学习时还会引发灾难性遗忘。RL 方法使用可验证奖励进行策略训练，解决了分布偏移问题；然而，奖励信号极其稀疏——一个单一的标量均匀分配给所有令牌，使得信用分配成为关键瓶颈。更严重的是，当一批 rollout 全部正确或全部错误时，梯度信号完全消失。OPD 提供密集的逐令牌监督，但依赖更强大的外部教师模型，并需要应对教师过强、与学生差距过大导致的学习困难；此外，额外部署教师模型对 GPU 内存提出了过高要求。当前存在一种解决方案，能够同时实现策略训练和密集监督，且不依赖外部教师：让同一个模型扮演两个角色。学生只看到问题，教师额外接收特权信息（例如真实答案或推理轨迹）。两个角色共享相同的模型参数，但根据不同的上下文进行条件化。训练时，模型最小化学生自身采样的轨迹上两个分布之间的散度。这个方案被称为 On-Policy Self-Distillation (OPSD)。 我们的贡献。 本文专注于审视 OPSD 在大语言模型中的数学公式、实现洞见和技术创新。我们以简洁、易于理解的格式呈现材料，帮助读者快速掌握 OPSD 框架的机制和优势。

2 Background / 背景

在本节中，我们介绍经典 SFT、GRPO（RL 方法）、OPD 和 OPSD 的原理。说明：下图展示了 SFT、GRPO、OPD 和 OPSD 四个方法的训练流程对比。SFT 使用专家数据（提示-答案对）对学生模型进行最大似然估计；GRPO 使用提示数据集，学生模型采样多个响应，通过组内奖励归一化得到相对优势信号，再应用 PPO 风格损失；OPD 中，学生模型采样响应，教师模型提供逐令牌的 KL 散度监督；OPSD 中，同一模型同时扮演学生和教师：学生基于提示采样，教师基于提示和真实答案（特权信息）提供监督，使用 KL 或 JSD 散度进行蒸馏。图1：SFT、GRPO、OPD 与 OPSD 的训练流程对比。图中展示四种范式在数据来源、监督信号、教师角色与参数更新路径上的差异。来源：根据原论文图1中文重绘。

监督微调

SFT 是使预训练 LLM 适应下游任务的基础基线。它遵循一个简单的原则：在专家演示数据上进行最大似然估计 (MLE)。给定提示-答案对数据集 ( D = {(x^{(i)}, y^{(i)})} )，SFT 训练策略 ( \pi_\theta ) 最大化专家下一个令牌的概率。标准的 SFT 目标是负对数似然 (NLL) 损失：

为了防止预训练分布的灾难性遗忘，通常添加 KL 惩罚项，将策略锚定到初始预训练模型 ( \pi_{\text{ref}} )：

然而，该方法存在两个局限：1) 分布偏移（曝光偏差）： 训练时模型基于真实令牌 ( y_{<t} ) 进行条件化；推理时条件化于自身（可能错误的）采样 ( \hat{y}_{<t} )，导致误差累积。2) 缺乏探索： SFT 只是模仿，无法从演示数据中学习或改进。

组相对策略优化

由 DeepSeek 开发的 GRPO 是一种尖端的强化学习算法，旨在提升 LLM 的推理性能。GRPO 的关键创新是放弃资源密集型的 Critic 模型。它通过为每个提示采样一组响应，并通过组内奖励归一化计算相对优势信号，从而无需绝对价值估计。利用“组相对”优势信号，GRPO 显著减少了内存占用和计算开销。在给定每个查询 ( x ) 生成 ( G ) 个响应后，GRPO 为每个令牌 ( y_{i,t} ) 推导出两个关键量：重要性比率 ( w_{i,t}(\theta) ) 和优势估计 ( \hat{A}_{i,t} )。后者在响应级别定义，即相同的值 ( \hat{A}_i ) 适用于输出序列 ( y_i ) 中的每个令牌。GRPO 损失定义为：

尽管如此，该方法存在两个局限：1) 稀疏信用分配： 尽管是策略训练，奖励通常只是整个序列的单个标量（例如正确答案为 1，否则为 0），这使得归因信用到特定令牌变得极其困难。2) 高方差： 如果组内所有响应都正确（或都错误），优势信号归零，导致梯度消失。

策略蒸馏

OPD 由广义知识蒸馏 (GKD) 框架正式化，通过在模型自身的轨迹上提供密集的逐令牌监督，弥合了 RL 和模仿学习之间的差距。学生策略 ( \pi_\theta ) 在策略上生成响应（通过采样或束搜索），一个强大的冻结教师模型 ( \pi_{\text{teacher}} ) 为这些生成轨迹中的每个令牌提供概率分布。学生最小化其输出与教师输出在每一个令牌位置上的散度（通常为反向 KL）。OPD 目标为：

反向 KL 是模式寻找的，避免在多个教师模式上平均，强制学生承诺于教师分布的单一高质量模式。然而，该方法存在两个局限：1) 教师依赖： 需要独立的、明显更强的教师模型，增加了内存占用和计算成本。2) 能力差距： 如果学生相对于教师过弱，可能无法近似教师的复杂分布，导致优化不稳定。

策略自蒸馏

OPSD 是 OPD 的一个优雅扩展，它通过使用特权信息打破对称性，让同一个模型同时充当学生和教师，从而消除了外部教师。其核心假设是：评估比生成更容易。当模型获得正确答案（特权信息）时，它能够生成更优的推理轨迹。在 OPSD 中，模型被分裂为两个角色，共享参数 ( \theta )：

学生 (( \pi_\theta^{\text{stud}} ))：仅基于提示 ( x ) 进行条件化。
教师 (( \pi_\theta^{\text{teach}} ))：基于提示 ( x ) 和真实答案 ( y^* )（或其他特权信息）进行条件化。

学生生成一个 rollout ( y \sim \pi_\theta^{\text{stud}}(\cdot | x) )。教师则为这个具体的 rollout 提供逐令牌监督，学生最小化两个分布之间的散度：

特权信息 (( y^ ))* 是只提供给教师的“答案钥匙”，允许教师生成一个修正或验证过的推理路径供学生对齐。共享权重意味着模型实际上是在学习如何让自己的“盲目”（学生）行为与“知情”（教师）行为相似。在 OPSD 框架中，教师和学生分布之间的逐令牌散度可以通过多种散度度量来衡量。其中，广义 Jensen-Shannon 散度 (JSD) 常被提及作为一种稳定的、对称的替代方案。给定加权参数 ( \beta \in [0, 1] )，广义 JSD 定义为：

其中 ( m = \beta p_T + (1-\beta) p_S ) 是混合分布。JSD 是对称的：( \text{JSD}\beta(p_T | p_S) = \text{JSD}{1-\beta}(p_S | p_T) )。标准 JSD ( ( \beta = 0.5 ) ) 有界于 0 和 log 2，有助于稳定训练并防止梯度爆炸。混合分布 ( m ) 充当教师和学生之间的“平滑桥梁”，使损失景观更易于优化。当 JSD 被选为 OPSD 损失中的散度 ( D ) 时，逐令牌训练目标变为：

( \beta = 0.5 ) 给出经典对称 Jensen-Shannon 散度；( \beta \neq 0.5 ) 允许目标偏向教师或学生，可用于控制教师监督的“强度”。当 ( \beta \to 1 )，JSD( _\beta ) 接近前向 KL；当 ( \beta \to 0 )，接近反向 KL。广义 JSD 可视为前向和反向 KL 之间的平滑插值，提供了可调的覆盖和寻找模式之间的权衡。

3 Designs / 设计分类

本节综述了 OPSD 在设计上的八个主要方向。

混合策略优化

核心思想： 超越纯 RL（稀疏奖励）或 SL（监督学习），将 RL 的优势函数与自蒸馏的 logit 信号混合。RL 提供“方向”，SD 提供“幅度”。

RLSD 将 RLVR 与自蒸馏结合，防止信息泄漏。
SRPO 动态路由，对 RL 处理的样本进行修正，对 SD 失败的样本进行补充处理。
GEAR 利用散度信号识别轨迹中的语义偏离点，用于分割优势函数。
VISD 引入结构化自蒸馏进行视频推理，使用视频感知的评判器将推理质量分解为多个维度，并提供诊断性反馈。
RLRT 被解释为 RLVR 中的一种新探索形式，不是均匀多样性，而是利用学生自身成功轨迹进行探索。
HDPO 针对失败模式，使用真实信息生成特权 rollout，将教师的逐令牌分布蒸馏到标准 RL 中。共享权重确保了有界的可实现性差距。

反馈驱动蒸馏

核心思想： 利用环境反馈（例如编译器错误、失败的单元测试、人工批评）作为“反思”上下文。模型重新生成修正后的输出，然后蒸馏回自身。

SDPO 在推理和代码任务上提升样本效率和最终准确率，可加速测试时探索。
Skill-SD 将 agent 自身的轨迹蒸馏为自然语言技能，作为特权教师上下文，通过重要性加权的反向 KL 损失提供密集监督。
GATES 不假设教师的正确性，而是通过多个采样推理轨迹的教师共识推导监督信号。
PAINT 引入自适应教师暴露：根据 rollout-真实答案重叠程度掩码已验证的解决方案，并在熵不匹配的令牌上应用能量空间插值。
SD-Zero 使用单一模型同时作为生成器和修订器。修订器基于生成器的输出和二进制奖励进行条件化以改进结果。

训练稳定性校准

核心思想： 自蒸馏的主要风险来自“教自己”导致的信号退化或过度自信。

AntiSD 在数学推理中，反转自蒸馏：最大化教师-学生散度并使用熵门控，提供有界的、即插即用的替代方案。
CREDIT 从逐点互信息 (PMI) 角度分析奖励，过滤掉与输入无关的捷径信号。
PACED 标准蒸馏浪费计算。PACED 按学生的通过率加权问题，将训练集中在最近发展区，无需额外参数。
ATESD 教师暴露对自蒸馏至关重要。ATESD 将其变为可学习变量，使用 Beta 策略控制器和基于学生未来改进的延迟奖励。
EGRSD 整合了奖励引导方向、教师-学生似然比幅度以及新的教师熵置信门控。
OGLS-SD 利用可验证的结果奖励，比较成功与不成功的策略轨迹，从而校准教师模型生成的 logits。
文献 [23] 分析了自蒸馏的副作用：教师的“丰富条件化”可能抑制模型的不确定性表达，导致领域内性能提升但 OOD 性能下降。

推理压缩加速

核心思想： 目标不是提升准确率，而是加速推理。通过教模型生成更简洁的思维链 (CoT) 或减少解码步骤，实现“模型瘦身”。

CRISP 从被提示“要简洁”的教师进行蒸馏。
Multi-Token 将下一个令牌预测器蒸馏成多令牌预测器。
D-OPSD 针对扩散模型，在微调期间保留“少步推理”能力。

能力内化迁移

核心思想： 将特定配置下展示的能力（例如使用外部工具链、高资源语言、长上下文）蒸馏到基础模型中，使其能在标准设置下表现良好。

OPHSD 使用外接工具的增强模型作为教师，将其能力蒸馏到独立学生中，实现鲁棒的泛化能力。
MSD 将安全对齐能力从高资源语言迁移到低资源语言。
OPSDL 利用模型自身的短上下文能力监督其长上下文生成，减少幻觉。
IRIS 提供了一个统一的理论视角，优化模型利用自身生成内容的学习动态。本质上是将模型自己产生的知识内化为更强的泛化能力。
文献 [56] 提出“简单自蒸馏 (SSD)”，通过对模型自身输出进行采样并微调来改进代码生成。

视觉多模态蒸馏

核心思想： 将自蒸馏范式应用于视觉生成（扩散模型）或多模态理解，关注特征对齐和保留少步推理能力。

D-OPSD 微调少步扩散模型有损害其速度的风险。D-OPSD 实现策略自蒸馏：学生从文本生成，教师看到文本和目标图像后提供监督。这保留了模型的高效推理能力。
RLSD 混合 RLVR 和 OPSD，RLVR 提供方向，自蒸馏提供幅度，实现更高的收敛速度和训练稳定性。

结构化轨迹蒸馏

核心思想： 超越简单的逐令牌模仿，通过分割、再校准或抽象等结构处理方法处理推理轨迹，使蒸馏与语义单元对齐。

GEAR 基于“语义偏离点”将轨迹分组为自适应片段。
TABOM 回放并抽象历史轨迹以蒸馏关键决策点。它通过 Boltzmann 分布对去噪顺序建模，并使用成对排序损失将训练与模型从易到难的推理确定性对齐。

基础范式理论

核心思想： 研究自蒸馏的基础理论，如泛化界、训练动态和奖励形成机制，为实践提供理论基础。

UniSD 从统一视角进行泛化分析。
CREDIT 自蒸馏奖励的信息论分解。
PBSD 基于偏好的自蒸馏理论框架。

4 Settings / 实验设置

实验允许在 8 块 A100 GPU 上进行，这可以覆盖大多数场景。因此，对于训练资源有限的研究机构和单位来说非常便利。OPSD 相比标准 OPD 通常减少约 40%-60% 的 GPU 内存消耗。在极端大规模模型场景下，OPSD 通常是唯一可行的选项，而 OPD 会直接导致内存溢出错误。常用的基准数据集包括：

数学推理：
GSM8K 小学水平的数学文字题，测试基本的多步推理。
MATH 竞赛级别、高难度的数学题（AMC/AIME），测试极限能力。
AIME 极难度的整数/几何竞赛题。
OpenThoughts 其价值在于阐明了教师模型选择原则和数据合成的有效性。
代码生成：
HumanEval 164 个手写的 Python 函数补全问题。
MBPP 来自 Google 的 1k 个入门级 Python 编程问题。
LiveCodeBench 持续更新的代码评估基准（包含竞赛题）。
Agent 交互环境：
WebShop 模拟在线购物（HTML 交互）。
ALFWorld 基于文本的游戏（家务任务）。
通用安全对齐：
UltraFeedback 大规模、多维度的偏好数据。
BeaverTails 安全对齐和红队测试数据集。
视觉多模态：
COCO 图像生成和描述。
MMMU 多学科视觉问答。

5 Conclusion / 结论

OPSD 在训练成本方面具有显著优势，非常适合工业界快速尝试并赋能业务需求。本文提供了对新兴的 On-Policy Self-Distillation (OPSD) 在大语言模型中的简要概述。它探讨了基础模型如何既作为驱动力又作为计算基底来支撑复杂的 OPSD 系统。本文还整理了实验所需的 GPU 内存资源和常用数据集。我们希望本文能为研究者提供当前前沿的简明介绍，并为未来在 OPSD 设计方面的努力提供一个起点。

原文信息

英文题目： A Brief Overview: On-Policy Self-Distillation In Large Language Models
作者： Fangming Cui, Sunan Li, Jiahong Li
arXiv ID： 2605.18141
类别： cs.HC (Human-Computer Interaction)
Comments/项目信息： 无
原文链接： http://arxiv.org/abs/2605.18141