Deep Research Systems (DRS) aim to help users search the web, synthesize information, and deliver comprehensive investigative reports. However, how to rigorously evaluate these systems remains under-explored. Existing deep-research benchmarks often fall into two failure modes. Some do not adequately test a system's ability to analyze evidence and write coherent reports. Others rely on evaluation criteria that are either overly coarse or directly defined by LLMs (or both), leading to scores that can be biased relative to human experts and are hard to verify or interpret. To address these issues, we introduce Deep Research Bench II, a new benchmark for evaluating DRS-generated reports. It contains 132 grounded research tasks across 22 domains; for each task, a system must produce a long-form research report that is evaluated by a set of 9430 fine-grained binary rubrics in total, covering three dimensions: information recall, analysis, and presentation. All rubrics are derived from carefully selected expert-written investigative articles and are constructed through a four-stage LLM+human pipeline that combines automatic extraction with over 400 human-hours of expert review, ensuring that the criteria are atomic, verifiable, and aligned with human expert judgment. We evaluate several state-of-the-art deep-research systems on Deep Research Bench II and find that even the strongest models satisfy fewer than 50% of the rubrics, revealing a substantial gap between current DRSs and human experts.


翻译:深度研究系统旨在帮助用户进行网络搜索、信息综合并交付全面的调查报告。然而,如何严格评估这些系统仍待深入探索。现有的深度研究基准常陷入两种失效模式:一些未能充分测试系统分析证据和撰写连贯报告的能力;另一些则依赖过于粗略或直接由大语言模型定义的评估标准(或两者兼有),导致评分相对于人类专家可能存在偏差且难以验证或解释。为解决这些问题,我们提出了Deep Research Bench II,这是一个用于评估深度研究系统生成报告的新基准。该基准包含跨22个领域的132个有据可查的研究任务;对于每个任务,系统必须生成一份长篇研究报告,并通过总计9430个细粒度二元量规进行评估,涵盖三个维度:信息召回、分析与呈现。所有量规均源自精心挑选的专家撰写的调查性文章,并通过四阶段“大语言模型+人工”流程构建,结合了自动提取与超过400人工小时的专家评审,确保评估标准具有原子性、可验证性且与人类专家判断一致。我们在Deep Research Bench II上评估了多个前沿深度研究系统,发现即使最强的模型也仅满足不足50%的量规要求,揭示了当前深度研究系统与人类专家之间存在显著差距。

0
下载
关闭预览

相关内容

面向深度研究系统的强化学习基础:综述
专知会员服务
23+阅读 · 2025年9月22日
【NUS博士论文】深度表示学习的视频基础模型,236页pdf
专知会员服务
33+阅读 · 2023年12月26日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
88+阅读 · 2020年9月6日
南洋理工大学,深度学习推荐系统综述
专知会员服务
177+阅读 · 2019年10月14日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员