We study multi-domain LLM training in which two models, each stronger in a different domain, co-evolve by tutoring each other through on-policy feedback. Unlike one-way distillation or single-model fine-tuning, our goal is mutual Pareto improvement: each model improves across domains without losing its original strength. To this end, we propose On-Policy Co-Distillation (OPCoD), where each student's self-distillation is conditioned on its own correct rollout and feedback from its peer. To make feedback exchange effective, OPCoD uses cognizance-based gating to decide when to give feedback and feedback anchoring to ground feedback in the problem. On Science Q\&A tasks, OPCoD consistently outperforms baselines and achieves Pareto improvement across all evaluated domain pairs and students.


翻译:本研究探索多领域大语言模型协同训练范式,其中两个各自在不同领域具有优势的模型通过同策略反馈实现相互指导与共同进化。区别于单向蒸馏或单模型微调方法,我们的目标是实现互惠帕累托改进:每个模型在保持自身原有优势的同时,提升跨领域表现。为此,我们提出同策略共蒸馏(OPCoD)框架,该框架中每个学生的自蒸馏过程同时依赖其自身的正确决策轨迹与同伴的反馈信息。为提升反馈交换效率,OPCoD采用认知门控机制决定何时提供反馈,并运用反馈锚定技术将反馈与具体问题相关联。在科学问答任务上的实验表明,OPCoD在所有评估领域配对和学生模型中均持续优于基线方法,并成功实现了帕累托改进。

0
下载
关闭预览

相关内容

综述 | OPSD:大语言模型的在线策略自蒸馏
专知会员服务
8+阅读 · 6月1日
大语言模型同策略蒸馏研究综述
专知会员服务
20+阅读 · 4月5日
多模态大语言模型的自我改进:综述
专知会员服务
28+阅读 · 2025年10月8日
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
《大型语言模型指令调优》综述
专知会员服务
74+阅读 · 2023年8月27日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
Arxiv
0+阅读 · 6月14日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员