Multi-turn agents that plan, invoke tools, and interact with environments offer a promising paradigm for solving complex tasks, yet their capabilities typically rely on very large models whose inference cost is prohibitive in practice.On-Policy Distillation (OPD) is a natural recipe for transferring such capabilities to smaller students, but we find that it suffers a characteristic failure mode in this setting: small student errors compound across turns and push the trajectory out of the teacher's familiar state distribution, so the teacher's supervision becomes least reliable precisely where the student needs it most.We propose Guided On-Policy Distillation (Guided-OPD), a simple yet effective algorithm that mixes teacher- and student-generated turns within each rollout and schedules the teacher's intervention probability along a curriculum that decays to zero.Strong guidance keeps early trajectories close to the teacher distribution and is then gradually withdrawn to recover the purely on-policy regime used at inference.On ALFWorld, ScienceWorld, and WebShop, distilling Qwen3 students from a Qwen3-30B-A3B teacher, Guided-OPD improves Score by 21.1\% and Success Rate by 25.5\% over vanilla OPD on average, with larger gains on smaller students.


翻译:多轮智能体通过规划、调用工具并与环境交互,为解决复杂任务提供了有前景的范式,但其能力通常依赖规模极大的模型,导致推理成本在实践中难以承受。在线策略蒸馏(On-Policy Distillation, OPD)是将此类能力迁移至较小学生模型的有效策略,但我们发现该方法在此场景中存在典型失效模式:学生模型在轮次间累积的小误差会将轨迹推离教师模型的熟悉状态分布,导致教师模型在最需要监督的环节提供最不可靠的指导。我们提出引导式在线策略蒸馏(Guided-OPD),一种简洁高效的算法,该算法在每个轨迹生成轮次中混合教师与学生生成的交互步骤,并按照逐步衰减至零的课程式规划策略调度教师干预概率。强引导机制使早期轨迹紧贴教师分布,随后逐步撤销引导以恢复推理阶段使用的纯在线策略模式。在ALFWorld、ScienceWorld及WebShop数据集上,通过将Qwen3-30B-A3B教师模型蒸馏至Qwen3学生模型,Guided-OPD相较于原始OPD方法,平均得分提升21.1%,成功率提升25.5%,且学生模型规模越小提升幅度越大。

0
下载
关闭预览

相关内容

《基于二元优化与图学习的多智能体行动方案自动生成》
Agent视域下的人工智能赋能作战系统
专知会员服务
58+阅读 · 2024年12月15日
基于Multi-Agent的无人机集群体系自主作战系统设计
专知会员服务
76+阅读 · 2024年4月8日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
论文 | 基于RNN的在线多目标跟踪
七月在线实验室
31+阅读 · 2017年12月27日
论文笔记:多任务相关粒子滤波跟踪器
统计学习与视觉计算组
10+阅读 · 2017年7月7日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
12+阅读 · 2010年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
10+阅读 · 2022年2月25日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
3+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
7+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
俄乌战场地面机器人如何改写战争规则
专知会员服务
9+阅读 · 6月14日
相关VIP内容
《基于二元优化与图学习的多智能体行动方案自动生成》
Agent视域下的人工智能赋能作战系统
专知会员服务
58+阅读 · 2024年12月15日
基于Multi-Agent的无人机集群体系自主作战系统设计
专知会员服务
76+阅读 · 2024年4月8日
相关基金
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
12+阅读 · 2010年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员