Deep research agents synthesize long-form reports by searching and reasoning over retrieved evidence. Reinforcement learning with rubric-based rewards improves these agents by optimizing them against checkable criteria that translate report quality into reward signals, but its efficiency depends on whether those criteria reliably capture the task scope and evidence needs. Most existing studies ask an LLM to generate rubrics for a given query, but when the model fails to infer the underlying information needs, the generated rubrics may be incomplete and reduce RL efficiency. To obtain more reliable query--rubric supervision, we introduce DeepRubric, a data construction framework that reverses this process: instead of inferring evaluation criteria for a given query, it first determines what an evidence-backed report should be evaluated on and then synthesizes aligned query--rubric pairs from those evaluation targets. Starting from a sampled seed topic, DeepRubric builds an evidence tree by recursively expanding evidence-backed sub-questions, whose leaves serve as atomic and verifiable evaluation targets. It then uses the evidence tree to synthesize the training query and rubrics, ensuring that the reward evaluates exactly the information requested by the query. Using DeepRubric, we construct 9K query--rubric supervision examples and train DeepRubric-8B with rubric-based GRPO, achieving comparable performance to prior open state-of-the-art deep research models across three benchmarks with roughly 13x fewer RL GPU-hours.


翻译:深度研究智能体通过检索并推理所获取的证据来生成长篇研究报告。基于评价标准的强化学习通过将报告质量转化为奖励信号的可核查准则来优化此类智能体,但其效率取决于这些准则能否可靠地覆盖任务范围与证据需求。现有研究多由大语言模型针对给定查询生成评价标准,但当模型无法推断潜在信息需求时,所生成的评价标准可能不完整,从而降低强化学习效率。为获取更可靠的查询-评价标准监督信号,我们提出DeepRubric数据构建框架,该框架逆转了传统流程:并非为给定查询推断评估准则,而是先确定基于证据的报告应被评估的维度,再基于这些评估目标合成对齐的查询-评价标准对。从采样的种子主题出发,DeepRubric通过递归扩展基于证据的子问题构建证据树,其叶节点即为原子化且可验证的评估目标。随后利用证据树合成训练查询与评价标准,确保奖励信号精确评估查询所要求的信息。借助DeepRubric,我们构建了9千组查询-评价标准监督样本,并基于评价标准的GRPO训练出DeepRubric-8B模型。该模型在三个基准测试中达到与先前开源最佳深度研究模型相当的性能,而强化学习GPU耗时减少了约13倍。

0
下载
关闭预览

相关内容

《改进单智能体和多智能体深度强化学习方法》219页
专知会员服务
63+阅读 · 2025年2月14日
多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
结合进化算法的深度强化学习方法研究综述
专知会员服务
81+阅读 · 2022年7月16日
专知会员服务
170+阅读 · 2021年8月3日
专知会员服务
214+阅读 · 2019年8月30日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
《改进单智能体和多智能体深度强化学习方法》219页
专知会员服务
63+阅读 · 2025年2月14日
多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
结合进化算法的深度强化学习方法研究综述
专知会员服务
81+阅读 · 2022年7月16日
专知会员服务
170+阅读 · 2021年8月3日
专知会员服务
214+阅读 · 2019年8月30日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员