Deep search agents have emerged as a promising paradigm for addressing complex information-seeking tasks, but their training remains challenging due to sparse rewards, weak credit assignment, and limited labeled data. Self-play offers a scalable route to reduce data dependence, but conventional self-play optimizes students only through sparse outcome rewards, leading to low learning efficiency. In this work, we observe that self-play naturally produces a question construction path (QCP) during task generation, an intermediate artifact that captures the reverse solution process. This reveals a new source of privileged information for self-distillation: self-play can itself provide high-quality privileged context for the teacher model in a low-cost and scalable manner, without relying on human feedback or curated privileged information. Leveraging this insight, we propose Privileged Information Self-Play ($π$-Play), a multi-agent self-evolution framework. In $π$-Play, an examiner generates tasks together with their QCPs, and a teacher model leverages QCP as privileged context to densely supervise a student via self-distillation. This design transforms conventional sparse-reward self-play into a dense-feedback self-evolution loop. Extensive experiments show that data-free $π$-Play surpasses fully supervised search agents and improves evolutionary efficiency by 2-3$\times$ over conventional self-play.


翻译:深度搜索智能体已成为解决复杂信息获取任务的一种有前景范式,但其训练仍面临稀疏奖励、弱信用分配和标注数据有限等挑战。自博弈为减少数据依赖提供了一条可扩展的路径,但传统自博弈仅通过稀疏结果奖励优化学生模型,导致学习效率低下。本研究发现,自博弈在任务生成过程中自然会产生问题构建路径(QCP),这是一种捕获逆向求解过程的中间产物。这揭示了自蒸馏中一种全新的特权信息来源:自博弈本身能够以低成本、可扩展的方式为教师模型提供高质量特权上下文,而无需依赖人类反馈或精心设计的特权信息。基于这一洞察,我们提出特权信息自博弈($π$-Play),一种多智能体自进化框架。在$π$-Play中,审查者生成任务及其QCP,教师模型利用QCP作为特权上下文,通过自蒸馏对学生模型进行密集监督。该设计将传统的稀疏奖励自博弈转化为密集反馈的自进化循环。大量实验表明,无外部数据的$π$-Play超越了完全监督的搜索智能体,并将进化效率较传统自博弈提升2-3倍。

0
下载
关闭预览

相关内容

基于多智能体强化学习的博弈综述
专知会员服务
51+阅读 · 2024年11月23日
多智能体博弈中的分布式学习: 原理与算法
专知会员服务
54+阅读 · 2024年6月13日
多智能体博弈学习研究进展
专知会员服务
90+阅读 · 2024年5月5日
【TPAMI2021】基于知识锚点进化的AutoML
专知会员服务
23+阅读 · 2021年5月1日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 4月22日
VIP会员
最新内容
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
4+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
7+阅读 · 5月29日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员