Deep research agents have shown remarkable potential in handling long-horizon tasks. However, state-of-the-art performance typically relies on online reinforcement learning (RL), which is financially expensive due to extensive API calls. While offline training offers a more efficient alternative, its progress is hindered by the scarcity of high-quality research trajectories. In this paper, we demonstrate that expensive online reinforcement learning is not all you need to build powerful research agents. To bridge this gap, we introduce a fully open-source suite designed for effective offline training. Our core contributions include DeepForge, a ready-to-use task synthesis framework that generates large-scale research queries without heavy preprocessing; and a curated collection of 66k QA pairs, 33k SFT trajectories, and 21k DPO pairs. Leveraging these resources, we train OffSeeker (8B), a model developed entirely offline. Extensive evaluations across six benchmarks show that OffSeeker not only leads among similar-sized agents but also remains competitive with 30B-parameter systems trained via heavy online RL.


翻译:深度研究智能体在处理长周期任务方面展现出显著潜力。然而,现有最优性能通常依赖于在线强化学习,这种训练方式因需要大量API调用而成本高昂。虽然离线训练提供了更高效的替代方案,但其发展受限于高质量研究轨迹的稀缺性。本文证明,构建强大的研究智能体并非必须依赖昂贵的在线强化学习。为弥合这一差距,我们引入了一套完全开源的高效离线训练工具集。核心贡献包括:DeepForge——一个无需繁重预处理即可生成大规模研究查询的即用型任务合成框架;以及精心整理的66k问答对、33k监督微调轨迹和21k直接偏好优化对数据集。基于这些资源,我们训练了完全通过离线方式开发的OffSeeker(8B)模型。在六个基准测试上的广泛评估表明,OffSeeker不仅在同等规模智能体中领先,还能与通过大量在线强化学习训练的300亿参数系统保持竞争力。

0
下载
关闭预览

相关内容

离线强化学习研究综述
专知会员服务
38+阅读 · 2025年1月12日
基于学习机制的多智能体强化学习综述
专知会员服务
61+阅读 · 2024年4月16日
专知会员服务
170+阅读 · 2021年8月3日
多智能体深度强化学习的若干关键科学问题
专知会员服务
195+阅读 · 2020年5月24日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
尽早跑通深度学习的实践代码,是入门深度学习的最快途径
算法与数据结构
22+阅读 · 2017年12月13日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
22+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
22+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员