As high-quality data becomes increasingly difficult to obtain, data-free self-evolution has emerged as a promising paradigm. This approach allows large language models (LLMs) to autonomously generate and solve complex problems, thereby improving their reasoning capabilities. However, multi-turn search agents struggle in data-free self-evolution due to the limited question diversity and the substantial compute required for multi-step reasoning and tool using. In this work, we introduce Dr. Zero, a framework enabling search agents to effectively self-evolve without any training data. In particular, we design a self-evolution feedback loop where a proposer generates diverse questions to train a solver initialized from the same base model. As the solver evolves, it incentivizes the proposer to produce increasingly difficult yet solvable tasks, thus establishing an automated curriculum to refine both agents. To enhance training efficiency, we also introduce hop-grouped relative policy optimization (HRPO). This method clusters structurally similar questions to construct group-level baselines, effectively minimizing the sampling overhead in evaluating each query's individual difficulty and solvability. Consequently, HRPO significantly reduces the compute requirements for solver training without compromising performance or stability. Extensive experiment results demonstrate that the data-free Dr. Zero matches or surpasses fully supervised search agents, proving that complex reasoning and search capabilities can emerge solely through self-evolution.


翻译:随着高质量数据日益难以获取,无数据自进化已成为一种颇具前景的研究范式。该方法使大语言模型(LLM)能够自主生成并解决复杂问题,从而提升其推理能力。然而,多轮搜索智能体在无数据自进化中面临挑战,主要受限于问题多样性不足以及多步推理与工具调用所需的大量计算资源。本研究提出Dr. Zero框架,使搜索智能体能够在完全无需训练数据的情况下实现高效自进化。具体而言,我们设计了一种自进化反馈循环:提议者生成多样化问题来训练从同一基础模型初始化的求解器。随着求解器的进化,它会激励提议者产生难度递增但仍可解决的任务,从而建立自动化课程机制以同步优化两个智能体。为提升训练效率,我们进一步提出跳数分组相对策略优化(HRPO)。该方法通过聚类结构相似的问题构建组级基线,有效降低了评估单个查询难度与可解性所需的采样开销。因此,HRPO在保持性能与稳定性的同时,显著减少了求解器训练的计算需求。大量实验结果表明,无数据训练的Dr. Zero在性能上达到甚至超越了全监督搜索智能体,证明了复杂推理与搜索能力可完全通过自进化机制实现。

0
下载
关闭预览

相关内容

互联网
自进化智能体综述:通往人工超级智能之路
专知会员服务
38+阅读 · 2025年7月30日
DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2025年2月11日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员