On-policy distillation (OPD) has become a popular training paradigm in the LLM community. This paradigm selects a larger model as the teacher to provide dense, fine-grained signals for each sampled trajectory, in contrast to reinforcement learning with verifiable rewards (RLVR), which only obtains sparse signals from verifiable outcomes in the environment. Recently, the community has explored on-policy self-distillation (OPSD), where the same model serves as both teacher and student, with the teacher receiving additional privileged information such as reference answers to enable self-evolution. This paper demonstrates that learning signals solely derived from the privileged teacher result in severe information leakage and unstable long-term training. Accordingly, we identify the optimal niche for self-distillation and propose \textbf{RLSD} (\textbf{RL}VR with \textbf{S}elf-\textbf{D}istillation). Specifically, we leverage self-distillation to obtain token-level policy differences for determining fine-grained update magnitudes, while continuing to use RLVR to derive reliable update directions from environmental feedback (e.g., response correctness). This enables RLSD to simultaneously harness the strengths of both RLVR and OPSD, achieving a higher convergence ceiling and superior training stability.


翻译:同策略蒸馏(OPD)已成为大语言模型社区中流行的训练范式。该范式选择较大的模型作为教师,为每个采样轨迹提供密集、细粒度的信号,这与可验证奖励强化学习(RLVR)形成对比——后者仅从环境中可验证的结果中获得稀疏信号。近期,社区开始探索同策略自蒸馏(OPSD),其中同一模型同时充当教师和学生,教师通过获取参考答案等额外特权信息实现自我进化。本文证明,仅从特权教师获取的学习信号会导致严重的信息泄漏与长期训练不稳定。据此,我们确定了自蒸馏的最优生态位,并提出\textbf{RLSD}(基于自蒸馏的可验证奖励强化学习)。具体而言,我们利用自蒸馏获取词元级别的策略差异,以确定细粒度的更新幅度,同时继续使用RLVR从环境反馈(如响应正确性)中推导可靠的更新方向。这使得RLSD能够同时利用RLVR和OPSD的优势,实现更高的收敛上限与更优的训练稳定性。

0
下载
关闭预览

相关内容

大语言模型同策略蒸馏研究综述
专知会员服务
20+阅读 · 4月5日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
《可解释深度强化学习综述》
专知会员服务
40+阅读 · 2025年2月12日
【微信@CIKM2021 】 强化学习推荐模型的知识蒸馏探索之路
【ICLR2021】自监督蒸馏学习视觉表示
专知会员服务
34+阅读 · 2021年4月14日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
最新内容
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
2+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
6+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员