Deep research and agent evolution serve as de-facto tasks for AI agents in real-world applications toward artificial general intelligence. The former enables autonomous retrieval and integration of information in open-ended environments to tackle open-ended research tasks, yet it is constrained by the static parametric deep research capabilities of agent systems. The latter allows agents to autonomously interact with the environment to gain experiences that evolve model capabilities. However, its effectiveness has been widely validated only on verifiable tasks with standard answers, leaving a gap with open-ended research tasks. To bridge these two critical tasks, we propose the Hybrid Open-Ended Tri-Evolution (HOTE) framework, which leverages hybrid-mode reinforcement learning to facilitate the collaborative evolution of a proposer, solver and judge based on web-scale knowledge, moving toward autonomous evolving agents in open-ended tasks and environments. Extensive experiments on three long-form deep research benchmarks demonstrate that the 8B model trained via HOTE surpasses the strongest static open 8-32B models as well as those trained by state-of-the-art deep research training methods with less time overhead, and further verify that the evolution of all three modules in HOTE is indispensable.


翻译:深度研究与智能体进化构成人工智能代理在迈向通用人工智能进程中面向真实应用的实际任务。前者使得代理能在开放式环境中自主检索与整合信息以应对开放式研究任务,但受限于代理系统的静态参数化深度研究能力;后者允许代理自主与环境交互获取经验以进化模型能力,然而其有效性仅在具备标准答案的可验证任务上得到广泛验证,与开放式研究任务之间存在鸿沟。为桥接这两项关键任务,我们提出混合开放式三重进化(HOTE)框架,通过混合模式强化学习驱动提案者、求解者与评判者基于网络规模知识开展协同进化,最终在开放式任务与环境中实现自主进化代理。在三个长格式深度研究基准上的大量实验表明:采用HOTE训练的8B模型不仅超越最强静态开放式8-32B模型及经最先进深度研究方法训练的模型,且所需时间开销更少,同时进一步验证了HOTE中三个模块的进化缺一不可。

0
下载
关闭预览

相关内容

面向深度研究系统的强化学习基础:综述
专知会员服务
23+阅读 · 2025年9月22日
深度研究系统的强化学习基础:综述
专知会员服务
31+阅读 · 2025年9月10日
《多智能体强化学习中机制设计的优化》103页
专知会员服务
31+阅读 · 2025年5月3日
多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
结合进化算法的深度强化学习方法研究综述
专知会员服务
81+阅读 · 2022年7月16日
专知会员服务
41+阅读 · 2021年3月3日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
尽早跑通深度学习的实践代码,是入门深度学习的最快途径
算法与数据结构
22+阅读 · 2017年12月13日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Arxiv
0+阅读 · 5月18日
Arxiv
0+阅读 · 5月14日
Arxiv
0+阅读 · 5月13日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
面向深度研究系统的强化学习基础:综述
专知会员服务
23+阅读 · 2025年9月22日
深度研究系统的强化学习基础:综述
专知会员服务
31+阅读 · 2025年9月10日
《多智能体强化学习中机制设计的优化》103页
专知会员服务
31+阅读 · 2025年5月3日
多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
结合进化算法的深度强化学习方法研究综述
专知会员服务
81+阅读 · 2022年7月16日
专知会员服务
41+阅读 · 2021年3月3日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员