The explosive growth in academic literature necessitates automated deep research (DR) agents, yet their evaluation remains a significant challenge. First, existing benchmarks often focus narrowly on retrieval while neglecting high-level planning and reasoning. Second, existing benchmarks favor general domains over the scientific domains that are the core application for DR agents. To address these gaps, we introduce Dr.Mi-Bench, a Modular-integrated benchmark for scientific DR agents. Grounded in academic literature, our benchmark uses a human-annotated dataset of 200 instances across 10 scientific domains, including both research and review papers. Besides, we also propose a Modular-integrated Evaluation Paradigm for DR Agents (Dr.Mi-Eval), a novel modular-integrated evaluation paradigm, which leverages the rich structure of academic papers to assess the core competencies of planning, retrieval, and reasoning through two complementary modes: an end-to-end evaluation for DR agents and an isolated evaluation for foundational LLMs as potential backbones. Experimental results reveal a fragmented performance landscape: agents exhibit specialized strengths but share critical weaknesses, most notably in performing the multi-source retrieval required for review-style tasks and performing consistently across diverse scientific fields. Moreover, improving high-level planning capability is the crucial factor for unlocking the reasoning potential of foundational LLMs as backbones. By exposing these actionable failure modes, Dr.Mi-Bench provides a diagnostic tool to guide the development of more reliable academic research assistants.


翻译:学术文献的爆炸式增长催生了自动化深度研究(DR)智能体,但其评估仍面临重大挑战。首先,现有基准通常仅聚焦于检索任务,而忽视了高层规划与推理能力。其次,现有基准多偏向通用领域,而非作为DR智能体核心应用场景的科学领域。为弥补这些不足,我们提出了Dr.Mi-Bench——一个面向科学领域DR智能体的模块化集成基准。该基准基于学术文献构建,采用包含10个科学领域(涵盖研究型与综述型论文)共200条实例的人工标注数据集。此外,我们同时提出了模块化集成评估范式(Dr.Mi-Eval),该创新范式利用学术论文的丰富结构,通过两种互补模式评估智能体的规划、检索与推理核心能力:面向DR智能体的端到端评估,以及面向作为潜在基座的基础大语言模型(LLMs)的隔离评估。实验结果表明当前性能呈现碎片化格局:智能体展现出专项优势,但普遍存在关键缺陷,尤其在执行综述型任务所需的多源检索时,以及在不同科学领域间保持稳定表现方面。此外,提升高层规划能力是释放基础LLMs作为基座模型推理潜力的关键因素。通过揭示这些可操作的失败模式,Dr.Mi-Bench为开发更可靠的学术研究助手提供了诊断性工具。

0
下载
关闭预览

相关内容

DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2025年2月11日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员