RLCSD: Reinforcement Learning with Contrastive On-Policy Self-Distillation - 专知论文

会员服务 ·

0

在线 · 蒸馏 · 自蒸馏 · 令牌 · 强化学习 ·

RLCSD: Reinforcement Learning with Contrastive On-Policy Self-Distillation

翻译：RLCSD：基于对比在线自蒸馏的强化学习方法

Leyi Pan,Shuchang Tao,Yunpeng Zhai,Lingzhe Zhang,Zhaoyang Liu,Bolin Ding,Aiwei Liu,Lijie Wen

from arxiv, 20 pages, 9 figures, 9 tables

On-policy self-distillation (OPSD) provides dense, token-level supervision for reasoning models by aligning a model's own distribution with the distribution it produces under privileged context, typically a verified solution. However, we show that the learning signal drawn from this distributional gap concentrates on style tokens rather than task-bearing ones, as the hinted model tends to produce more direct, shorter outputs. We term this pathology \emph{privilege-induced style drift}, which destabilizes training or causes response length to shrink. To address this, we propose \textbf{RLCSD} (Reinforcement Learning with Contrastive on-policy Self-Distillation), which mitigates this drift by contrasting the teacher-student gap under a correct hint against that under a wrong hint, suppressing the style shift that conditioning on a hint tends to induce regardless of correctness, and yielding a signal that is more concentrated on task-bearing tokens. Experiments on Qwen3 (1.7B/4B/8B) and Olmo-3-7B-Think across mathematical and logical reasoning show that RLCSD consistently outperforms GRPO and prior OPSD methods. We further show that the contrastive principle is general: it plugs into existing OPSD methods to improve them, and its underlying insight extends to the broader cross-model on-policy distillation setting.

翻译：在线自蒸馏通过将模型自身的分布与其在特权上下文（通常为已验证解）下产生的分布对齐，为推理模型提供密集的令牌级监督信号。然而，我们表明这种分布差异中提取的学习信号集中于风格令牌而非承载任务的令牌，因为提示模型倾向于生成更直接、更短的输出。我们将此病理现象称为**特权诱导风格漂移**，它会导致训练不稳定或响应长度缩减。为解决此问题，我们提出**RLCSD**（对比在线自蒸馏强化学习），该方法通过对比正确提示下的师生差异与错误提示下的师生差异来缓解这种漂移，从而抑制无论提示正确与否都倾向于发生的风格转移，并产生更集中于任务承载令牌的信号。在Qwen3（1.7B/4B/8B）和Olmo-3-7B-Think上的数学与逻辑推理实验表明，RLCSD始终优于GRPO及先前的在线自蒸馏方法。我们进一步证明该对比原则具有通用性：它可嵌入现有在线自蒸馏方法中提升其性能，其核心见解也可扩展至更广泛的跨模型在线蒸馏场景。

0

相关内容

综述 | OPSD：大语言模型的在线策略自蒸馏

综述 | OPSD：大语言模型的在线策略自蒸馏

专知会员服务

10+阅读 · 6月1日

对比学习需要哪样的数据？UCLA最新ICML2023论文《数据高效对比学习：简单样本贡献最大》，探究量化样本对SSL的贡献度

对比学习需要哪样的数据？UCLA最新ICML2023论文《数据高效对比学习：简单样本贡献最大》，探究量化样本对SSL的贡献度

专知会员服务

37+阅读 · 2023年5月14日

【CVPR2023】基于多模态在线知识蒸馏的自监督视觉表示学习

【CVPR2023】基于多模态在线知识蒸馏的自监督视觉表示学习

专知会员服务

42+阅读 · 2023年4月15日

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

专知会员服务

32+阅读 · 2022年4月5日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

【ICLR2021】自监督蒸馏学习视觉表示

【ICLR2021】自监督蒸馏学习视觉表示

专知会员服务

34+阅读 · 2021年4月14日

GNN如何自监督学习？TAMU首篇《图神经网络自监督学习》综述论文，17页pdf

GNN如何自监督学习？TAMU首篇《图神经网络自监督学习》综述论文，17页pdf

专知会员服务

74+阅读 · 2021年2月28日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知会员服务

96+阅读 · 2020年3月25日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

对比自监督学习

对比自监督学习

深度学习自然语言处理

35+阅读 · 2020年7月15日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知

37+阅读 · 2020年6月11日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

31+阅读 · 2019年6月14日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于理论VFC/LST特征空间的区域蒸散发遥感反演研究

国家自然科学基金

0+阅读 · 2015年12月31日

光遗传学技术应用于研究上丘相关皮层下神经环路对本能防御行为的调控

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于网络解析的低压切负荷在线决策方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

自热回收精馏过程的优化与控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

Constitutional On-Policy Safe Distillation

Arxiv

0+阅读 · 6月16日

Localizing Credit at the Divergence: Path-Conditioned Self-Distillation for LLM Reasoning

Arxiv

0+阅读 · 6月14日

SPARK: Spatial Policy-driven Adaptive Reinforcement learning for Knowledge distillation

Arxiv

0+阅读 · 6月13日

Entropy-Aware On-Policy Distillation of Language Models

Arxiv

0+阅读 · 6月12日

OmniOPD: Logit-Free On-Policy Distillation via Speculative Verification

Arxiv

0+阅读 · 6月11日

Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

Arxiv

0+阅读 · 6月11日

The Role of Feedback Alignment in Self-Distillation

Arxiv

0+阅读 · 6月9日

Rec-Distill: An Industrial Distillation Pipeline for Large-Scale Recommendation Models

Arxiv

0+阅读 · 5月28日

Skill-Conditioned Gated Self-Distillation for LLM Reasoning

Arxiv

0+阅读 · 5月27日

Entropy-Aware On-Policy Distillation of Language Models

Arxiv

0+阅读 · 5月22日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

0+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

综述 | OPSD：大语言模型的在线策略自蒸馏

综述 | OPSD：大语言模型的在线策略自蒸馏

专知会员服务

10+阅读 · 6月1日

对比学习需要哪样的数据？UCLA最新ICML2023论文《数据高效对比学习：简单样本贡献最大》，探究量化样本对SSL的贡献度

对比学习需要哪样的数据？UCLA最新ICML2023论文《数据高效对比学习：简单样本贡献最大》，探究量化样本对SSL的贡献度

专知会员服务

37+阅读 · 2023年5月14日

【CVPR2023】基于多模态在线知识蒸馏的自监督视觉表示学习

【CVPR2023】基于多模态在线知识蒸馏的自监督视觉表示学习

专知会员服务

42+阅读 · 2023年4月15日

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

自监督如何做推荐？昆士兰大学最新《自监督学习推荐系统》综述论文，阐述对比、生成、预测和混合四大类方法

专知会员服务

32+阅读 · 2022年4月5日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

【ICLR2021】自监督蒸馏学习视觉表示

【ICLR2021】自监督蒸馏学习视觉表示

专知会员服务

34+阅读 · 2021年4月14日

GNN如何自监督学习？TAMU首篇《图神经网络自监督学习》综述论文，17页pdf

GNN如何自监督学习？TAMU首篇《图神经网络自监督学习》综述论文，17页pdf

专知会员服务

74+阅读 · 2021年2月28日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知会员服务

96+阅读 · 2020年3月25日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

对比自监督学习

对比自监督学习

深度学习自然语言处理

35+阅读 · 2020年7月15日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知

37+阅读 · 2020年6月11日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

概述自动机器学习（AutoML）

概述自动机器学习（AutoML）

人工智能学家

19+阅读 · 2019年8月11日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

31+阅读 · 2019年6月14日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

相关论文

Constitutional On-Policy Safe Distillation

Arxiv

0+阅读 · 6月16日

Localizing Credit at the Divergence: Path-Conditioned Self-Distillation for LLM Reasoning

Arxiv

0+阅读 · 6月14日

SPARK: Spatial Policy-driven Adaptive Reinforcement learning for Knowledge distillation

Arxiv

0+阅读 · 6月13日

Entropy-Aware On-Policy Distillation of Language Models

Arxiv

0+阅读 · 6月12日

OmniOPD: Logit-Free On-Policy Distillation via Speculative Verification

Arxiv

0+阅读 · 6月11日

Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

Arxiv

0+阅读 · 6月11日

The Role of Feedback Alignment in Self-Distillation

Arxiv

0+阅读 · 6月9日

Rec-Distill: An Industrial Distillation Pipeline for Large-Scale Recommendation Models

Arxiv

0+阅读 · 5月28日

Skill-Conditioned Gated Self-Distillation for LLM Reasoning

Arxiv

0+阅读 · 5月27日

Entropy-Aware On-Policy Distillation of Language Models

Arxiv

0+阅读 · 5月22日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于控制器动态线性化的数据驱动控制方法及在精馏过程的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于理论VFC/LST特征空间的区域蒸散发遥感反演研究

国家自然科学基金

0+阅读 · 2015年12月31日

光遗传学技术应用于研究上丘相关皮层下神经环路对本能防御行为的调控

国家自然科学基金

0+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于网络解析的低压切负荷在线决策方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

自热回收精馏过程的优化与控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员