改进与评估开源深度研究智能体 (Improving and Evaluating Open Deep Research Agents) - 专知论文

会员服务 ·

0

系统 · 基准 · 深度研究 · 基准测试 · 智能体 ·

Improving and Evaluating Open Deep Research Agents

翻译：改进与评估开源深度研究智能体

Doaa Allabadi,Kyle Bradbury,Jordan M. Malof

from arxiv, 8 pages, 2 figures, 2 tables

We focus here on Deep Research Agents (DRAs), which are systems that can take a natural language prompt from a user, and then autonomously search for, and utilize, internet-based content to address the prompt. Recent DRAs have demonstrated impressive capabilities on public benchmarks however, recent research largely involves proprietary closed-source systems. At the time of this work, we only found one open-source DRA, termed Open Deep Research (ODR). In this work we adapt the challenging recent BrowseComp benchmark to compare ODR to existing proprietary systems. We propose BrowseComp-Small (BC-Small), comprising a subset of BrowseComp, as a more computationally-tractable DRA benchmark for academic labs. We benchmark ODR and two other proprietary systems on BC-Small: one system from Anthropic and one system from Google. We find that all three systems achieve 0% accuracy on the test set of 60 questions. We introduce three strategic improvements to ODR, resulting in the ODR+ model, which achieves a state-of-the-art 10% success rate on BC-Small among both closed-source and open-source systems. We report ablation studies indicating that all three of our improvements contributed to the success of ODR+.

翻译：本文聚焦于深度研究智能体（DRAs），这类系统能够接收用户的自然语言提示，并自主搜索和利用基于互联网的内容来应对该提示。近期的DRAs在公共基准测试中展现出令人印象深刻的能力，然而当前研究主要涉及专有的闭源系统。在本研究开展时，我们仅发现一个开源DRA，称为开源深度研究（ODR）。本工作中，我们调整了近期具有挑战性的BrowseComp基准，用以比较ODR与现有专有系统。我们提出BrowseComp精简版（BC-Small），作为BrowseComp的一个子集，为学术实验室提供计算上更易处理的DRA基准。我们在BC-Small上对ODR及另外两个专有系统进行了基准测试：一个来自Anthropic，另一个来自Google。研究发现，所有三个系统在包含60个问题的测试集上均取得0%的准确率。我们针对ODR引入了三项策略性改进，由此产生了ODR+模型，该模型在BC-Small上实现了10%的成功率，在闭源与开源系统中均达到最先进水平。我们报告的消融研究表明，所有三项改进均对ODR+的成功有所贡献。

0

相关内容

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

57+阅读 · 1月6日

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

专知会员服务

26+阅读 · 1月2日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

27+阅读 · 2025年12月31日

AI智能体基础设施

AI智能体基础设施

专知会员服务

39+阅读 · 2025年7月12日

95页《深度研究DeepResearch的综合综述：系统、方法与应用》

95页《深度研究DeepResearch的综合综述：系统、方法与应用》

专知会员服务

37+阅读 · 2025年6月19日

《面向科学发现的智能体人工智能：进展、挑战与未来方向综述》

《面向科学发现的智能体人工智能：进展、挑战与未来方向综述》

专知会员服务

57+阅读 · 2025年3月14日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

76+阅读 · 2024年7月17日

如何构建你的个人智能体？清华等最新《个人语言模型智能体》综述，详述其能力、效率和安全性的洞察与综述

如何构建你的个人智能体？清华等最新《个人语言模型智能体》综述，详述其能力、效率和安全性的洞察与综述

专知会员服务

73+阅读 · 2024年1月13日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

202+阅读 · 2024年1月9日

《多智能体交互的深度强化学习》爱丁堡大学10余为作者2022最新论文

《多智能体交互的深度强化学习》爱丁堡大学10余为作者2022最新论文

专知会员服务

52+阅读 · 2022年11月22日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

机器之心

22+阅读 · 2018年2月27日

DeepMind高级研究员：重新理解GAN，最新算法、技巧及应用（59页PPT）

DeepMind高级研究员：重新理解GAN，最新算法、技巧及应用（59页PPT）

新智元

16+阅读 · 2018年2月5日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

使用深度学习构建先进推荐系统：近期33篇重要研究概述

使用深度学习构建先进推荐系统：近期33篇重要研究概述

机器之心

21+阅读 · 2017年12月23日

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

AI研习社

11+阅读 · 2017年12月16日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向多源遥感图像的深度学习技术与系统研究

国家自然科学基金

17+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Arxiv

0+阅读 · 2月5日

Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

Arxiv

0+阅读 · 2月3日

Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

Arxiv

0+阅读 · 2月2日

Beyond Retrieval: A Modular Benchmark for Academic Deep Research Agents

Arxiv

0+阅读 · 1月30日

Dr. Bench: A Multidimensional Evaluation for Deep Research Agents, from Answers to Reports

Arxiv

0+阅读 · 1月29日

TrustResearcher: Automating Knowledge-Grounded and Transparent Research Ideation with Multi-Agent Collaboration

Arxiv

0+阅读 · 1月25日

Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

Arxiv

0+阅读 · 1月22日

DR-Arena: an Automated Evaluation Framework for Deep Research Agents

Arxiv

0+阅读 · 1月15日

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

Arxiv

0+阅读 · 1月14日

FinDeepForecast: A Live Multi-Agent System for Benchmarking Deep Research Agents in Financial Forecasting

Arxiv

0+阅读 · 1月8日

VIP会员

文章信息

相关主题

相关VIP内容

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

57+阅读 · 1月6日

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

专知会员服务

26+阅读 · 1月2日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

27+阅读 · 2025年12月31日

AI智能体基础设施

AI智能体基础设施

专知会员服务

39+阅读 · 2025年7月12日

95页《深度研究DeepResearch的综合综述：系统、方法与应用》

95页《深度研究DeepResearch的综合综述：系统、方法与应用》

专知会员服务

37+阅读 · 2025年6月19日

《面向科学发现的智能体人工智能：进展、挑战与未来方向综述》

《面向科学发现的智能体人工智能：进展、挑战与未来方向综述》

专知会员服务

57+阅读 · 2025年3月14日

多智能体深度强化学习研究进展

多智能体深度强化学习研究进展

专知会员服务

76+阅读 · 2024年7月17日

如何构建你的个人智能体？清华等最新《个人语言模型智能体》综述，详述其能力、效率和安全性的洞察与综述

如何构建你的个人智能体？清华等最新《个人语言模型智能体》综述，详述其能力、效率和安全性的洞察与综述

专知会员服务

73+阅读 · 2024年1月13日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

202+阅读 · 2024年1月9日

《多智能体交互的深度强化学习》爱丁堡大学10余为作者2022最新论文

《多智能体交互的深度强化学习》爱丁堡大学10余为作者2022最新论文

专知会员服务

52+阅读 · 2022年11月22日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

机器之心

22+阅读 · 2018年2月27日

DeepMind高级研究员：重新理解GAN，最新算法、技巧及应用（59页PPT）

DeepMind高级研究员：重新理解GAN，最新算法、技巧及应用（59页PPT）

新智元

16+阅读 · 2018年2月5日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

使用深度学习构建先进推荐系统：近期33篇重要研究概述

使用深度学习构建先进推荐系统：近期33篇重要研究概述

机器之心

21+阅读 · 2017年12月23日

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

AI研习社

11+阅读 · 2017年12月16日

相关论文

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Arxiv

0+阅读 · 2月5日

Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

Arxiv

0+阅读 · 2月3日

Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

Arxiv

0+阅读 · 2月2日

Beyond Retrieval: A Modular Benchmark for Academic Deep Research Agents

Arxiv

0+阅读 · 1月30日

Dr. Bench: A Multidimensional Evaluation for Deep Research Agents, from Answers to Reports

Arxiv

0+阅读 · 1月29日

TrustResearcher: Automating Knowledge-Grounded and Transparent Research Ideation with Multi-Agent Collaboration

Arxiv

0+阅读 · 1月25日

Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

Arxiv

0+阅读 · 1月22日

DR-Arena: an Automated Evaluation Framework for Deep Research Agents

Arxiv

0+阅读 · 1月15日

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

Arxiv

0+阅读 · 1月14日

FinDeepForecast: A Live Multi-Agent System for Benchmarking Deep Research Agents in Financial Forecasting

Arxiv

0+阅读 · 1月8日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向多源遥感图像的深度学习技术与系统研究

国家自然科学基金

17+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员