Dr. Bench: A Multidimensional Evaluation for Deep Research Agents, from Answers to Reports - 专知论文

会员服务 ·

0

深度研究 · 报告 · 演进 · 基准 · 构建 ·

Dr. Bench: A Multidimensional Evaluation for Deep Research Agents, from Answers to Reports

翻译：Dr. Bench：面向深度研究智能体的多维评估框架——从答案到报告

Yang Yao,Yixu Wang,Yuxuan Zhang,Yi Lu,Tianle Gu,Lingyu Li,Dingyi Zhao,Keming Wu,Haozhe Wang,Ping Nie,Yan Teng,Yingchun Wang

As an embodiment of intelligence evolution toward interconnected architectures, Deep Research Agents (DRAs) systematically exhibit the capabilities in task decomposition, cross-source retrieval, multi-stage reasoning, information integration, and structured output, which markedly enhance performance on complex and open-ended tasks. However, existing benchmarks remain deficient in evaluation dimensions, response format, and scoring mechanisms, limiting their effectiveness in assessing such agents. This paper introduces Dr. Bench, a multidimensional evaluation framework tailored to DRAs and long-form report-style responses. The benchmark comprises 214 expert-curated challenging tasks across 10 broad domains, each accompanied by manually constructed reference bundles to support composite evaluation. This framework incorporates metrics for semantic quality, topical focus, and retrieval trustworthiness, enabling a comprehensive evaluation of long reports generated by DRAs. Extensive experimentation confirms the superior performance of mainstream DRAs over web-search-tool-augmented reasoning models, yet reveals considerable scope for further improvement. This study provides a robust foundation for capability assessment, architectural refinement, and paradigm advancement of DRAs.

翻译：作为智能向互联架构演进的具体体现，深度研究智能体（DRAs）系统性地展现出任务分解、跨源检索、多阶段推理、信息整合与结构化输出的能力，显著提升了在复杂开放任务上的性能。然而，现有基准在评估维度、响应格式与评分机制方面仍存在不足，限制了对此类智能体评估的有效性。本文提出Dr. Bench，一个专为DRAs及长篇幅报告式响应设计的多维评估框架。该基准包含10个广泛领域的214项专家构建的挑战性任务，每项任务均配有手工构建的参考资源包以支持复合评估。该框架整合了语义质量、主题聚焦度与检索可信度等多维度指标，能够对DRAs生成的长篇报告进行全面评估。大量实验证实主流DRAs的性能优于基于网络搜索工具增强的推理模型，但也揭示了其仍有巨大的改进空间。本研究为DRAs的能力评估、架构优化与范式演进提供了坚实基础。

0

相关内容

深度研究

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

38+阅读 · 2月2日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

67+阅读 · 1月6日

面向大模型多智能体系统的多维评估方法

面向大模型多智能体系统的多维评估方法

专知会员服务

34+阅读 · 2025年4月15日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

45+阅读 · 2025年3月20日

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

专知会员服务

32+阅读 · 2024年11月17日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

76+阅读 · 2024年7月17日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知会员服务

104+阅读 · 2023年4月7日

多智能体深度强化学习：综述

专知会员服务

170+阅读 · 2021年8月3日

多Agent深度强化学习综述(中文版)，21页pdf

专知会员服务

118+阅读 · 2021年1月1日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

【DeepMind】多智能体学习231页PPT总结

【DeepMind】多智能体学习231页PPT总结

深度强化学习实验室

16+阅读 · 2020年6月23日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

DeepMind高级研究员：重新理解GAN，最新算法、技巧及应用（59页PPT）

DeepMind高级研究员：重新理解GAN，最新算法、技巧及应用（59页PPT）

新智元

16+阅读 · 2018年2月5日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于示能性视角的信息系统有效使用研究：维度、影响因素和形成机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Arxiv

0+阅读 · 2月5日

DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference

Arxiv

0+阅读 · 2月4日

Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

Arxiv

0+阅读 · 2月3日

Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

Arxiv

0+阅读 · 2月2日

Beyond Retrieval: A Modular Benchmark for Academic Deep Research Agents

Arxiv

0+阅读 · 1月30日

Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

Arxiv

0+阅读 · 1月22日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 1月16日

DR-Arena: an Automated Evaluation Framework for Deep Research Agents

Arxiv

0+阅读 · 1月15日

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

Arxiv

0+阅读 · 1月14日

DeepResearch Bench II: Diagnosing Deep Research Agents via Rubrics from Expert Report

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

7+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

7+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

5+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

5+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

9+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

8+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

4+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

4+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

8+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

7+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

12+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

6+阅读 · 4月20日

相关VIP内容

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

38+阅读 · 2月2日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

67+阅读 · 1月6日

面向大模型多智能体系统的多维评估方法

面向大模型多智能体系统的多维评估方法

专知会员服务

34+阅读 · 2025年4月15日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

45+阅读 · 2025年3月20日

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

专知会员服务

32+阅读 · 2024年11月17日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

76+阅读 · 2024年7月17日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知会员服务

104+阅读 · 2023年4月7日

多智能体深度强化学习：综述

专知会员服务

170+阅读 · 2021年8月3日

多Agent深度强化学习综述(中文版)，21页pdf

专知会员服务

118+阅读 · 2021年1月1日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

【DeepMind】多智能体学习231页PPT总结

【DeepMind】多智能体学习231页PPT总结

深度强化学习实验室

16+阅读 · 2020年6月23日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

DeepMind高级研究员：重新理解GAN，最新算法、技巧及应用（59页PPT）

DeepMind高级研究员：重新理解GAN，最新算法、技巧及应用（59页PPT）

新智元

16+阅读 · 2018年2月5日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Arxiv

0+阅读 · 2月5日

DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference

Arxiv

0+阅读 · 2月4日

Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

Arxiv

0+阅读 · 2月3日

Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

Arxiv

0+阅读 · 2月2日

Beyond Retrieval: A Modular Benchmark for Academic Deep Research Agents

Arxiv

0+阅读 · 1月30日

Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

Arxiv

0+阅读 · 1月22日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 1月16日

DR-Arena: an Automated Evaluation Framework for Deep Research Agents

Arxiv

0+阅读 · 1月15日

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

Arxiv

0+阅读 · 1月14日

DeepResearch Bench II: Diagnosing Deep Research Agents via Rubrics from Expert Report

Arxiv

0+阅读 · 1月13日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于示能性视角的信息系统有效使用研究：维度、影响因素和形成机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员