On-policy self-distillation (SD) improves LLM reasoning by using teacher-side privileged information (PI) to turn sparse verifier outcomes into dense token-level supervision. Existing methods usually assume trusted PI, such as reference answers or successful traces. We ask whether PI can instead come from an experience-derived skill bank, where retrieved skills are compact and reusable but may also be irrelevant or misleading. We propose Skill-Conditioned Gated Self-Distillation (SGSD), which formulates skill-based SD as teacher hypothesis validation rather than unconditional imitation. SGSD retrieves skill-mistake pairs, constructs a multi-teacher pool, and lets all skill-conditioned teachers score the same plain-prompt student rollout. The verifier validates each teacher's polarity: supporting a success or suppressing a failure gives positive supervision, while the opposite stance is reversed. A robust gated objective then distills informative teacher-student disagreements while suppressing uncertain or extreme signals. Experiments on multiple mathematical reasoning benchmarks show that SGSD consistently improves over GRPO and remains competitive with answer-conditioned OPSD under a weaker PI assumption. For example, on Qwen3-1.7B, SGSD outperforms GRPO by 6.2% and OPSD by 1.7% on average on AIME24, AIME25, and HMMT25. Our code is available at https://github.com/walawalagoose/SGSD.


翻译:在线策略自蒸馏通过利用教师端的特权信息,将稀疏的验证器结果转化为密集的词元级监督信号,从而提升大语言模型的推理能力。现有方法通常假设特权信息是可信的,例如参考答案或成功推理轨迹。本文探究特权信息是否可来源于经验驱动的技能库——其中检索到的技能虽然紧凑且可复用,但可能存在不相关或误导性内容。我们提出技能条件门控自蒸馏方法(SGSD),将基于技能的自蒸馏定义为教师假设验证过程而非无条件模仿。SGSD首先检索技能-错误配对,构建多教师池,并使所有技能条件教师对同一普通提示的学生生成序列进行评分。验证器判定每位教师的极性:若支持成功或抑制失败则提供正向监督,反之则反转监督信号。通过鲁棒的门控目标函数,该方法在蒸馏信息性强的教师-学生分歧信号的同时,抑制不确定或极端信号。在多个数学推理基准上的实验表明,在较弱特权信息假设下,SGSD相较GRPO持续提升性能,且与基于答案的条件型在线策略自蒸馏方法保持竞争力。例如,在Qwen3-1.7B模型上,SGSD在AIME24、AIME25和HMMT25三个基准上平均比GRPO提升6.2%,比在线策略自蒸馏提升1.7%。代码已开源至https://github.com/walawalagoose/SGSD。

0
下载
关闭预览

相关内容

综述 | OPSD:大语言模型的在线策略自蒸馏
专知会员服务
8+阅读 · 6月1日
大语言模型同策略蒸馏研究综述
专知会员服务
20+阅读 · 4月5日
基于大语言模型的时序知识图谱推理模型蒸馏方法
专知会员服务
38+阅读 · 2025年1月10日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月16日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
模型压缩 | 知识蒸馏经典解读
AINLP
11+阅读 · 2020年5月31日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员