DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation - 专知论文

会员服务 ·

0

构建 · 深度研究 · 自动化 · 搜索 · 智能体 ·

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

翻译：DeepResearchEval：面向深度研究任务构建与智能体评估的自动化框架

Yibo Wang,Lei Wang,Yue Deng,Keming Wu,Yao Xiao,Huanjin Yao,Liwei Kang,Hai Ye,Yongcheng Jing,Lidong Bing

from arxiv, Source code: https://github.com/Infinity-AILab/DeepResearchEval

Deep research systems are widely used for multi-step web research, analysis, and cross-source synthesis, yet their evaluation remains challenging. Existing benchmarks often require annotation-intensive task construction, rely on static evaluation dimensions, or fail to reliably verify facts when citations are missing. To bridge these gaps, we introduce DeepResearchEval, an automated framework for deep research task construction and agentic evaluation. For task construction, we propose a persona-driven pipeline generating realistic, complex research tasks anchored in diverse user profiles, applying a two-stage filter Task Qualification and Search Necessity to retain only tasks requiring multi-source evidence integration and external retrieval. For evaluation, we propose an agentic pipeline with two components: an Adaptive Point-wise Quality Evaluation that dynamically derives task-specific evaluation dimensions, criteria, and weights conditioned on each generated task, and an Active Fact-Checking that autonomously extracts and verifies report statements via web search, even when citations are missing.

翻译：深度研究系统被广泛用于多步骤的网络研究、分析与跨来源综合，但其评估仍具挑战性。现有基准通常需要大量标注的任务构建，依赖于静态的评估维度，或在引用缺失时无法可靠地验证事实。为弥补这些差距，我们提出了DeepResearchEval，一个用于深度研究任务构建与智能体评估的自动化框架。在任务构建方面，我们提出了一个角色驱动的流水线，生成基于多样化用户画像的真实、复杂的研究任务，并应用一个两阶段过滤器——任务资格性与搜索必要性——以仅保留需要多源证据整合与外部检索的任务。在评估方面，我们提出了一个包含两个组件的智能体流水线：一个自适应逐点质量评估，它根据每个生成的任务动态推导出任务特定的评估维度、标准与权重；以及一个主动事实核查，它通过网页搜索自主提取并验证报告中的陈述，即使在引用缺失时也能进行。

0

相关内容

面向深度研究系统的强化学习基础：综述

面向深度研究系统的强化学习基础：综述

专知会员服务

23+阅读 · 2025年9月22日

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

95页《深度研究DeepResearch的综合综述：系统、方法与应用》

95页《深度研究DeepResearch的综合综述：系统、方法与应用》

专知会员服务

37+阅读 · 2025年6月19日

DeepSeek+DeepResearch 让科研像聊天一样简单，85页ppt

DeepSeek+DeepResearch 让科研像聊天一样简单，85页ppt

专知会员服务

48+阅读 · 2025年3月16日

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

专知会员服务

79+阅读 · 2025年2月14日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

专知会员服务

20+阅读 · 2022年2月25日

深度学习与应用框架

专知会员服务

125+阅读 · 2021年6月19日

最新《深度持续学习》综述论文，32页pdf

最新《深度持续学习》综述论文，32页pdf

专知会员服务

88+阅读 · 2020年9月6日

南洋理工大学，深度学习推荐系统综述

南洋理工大学，深度学习推荐系统综述

专知会员服务

177+阅读 · 2019年10月14日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

【DeepMind深度学习课程】神经网络基础，104页ppt，Neural Networks Foundations

【DeepMind深度学习课程】神经网络基础，104页ppt，Neural Networks Foundations

专知

13+阅读 · 2020年6月24日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

【深度学习】大牛的《深度学习》笔记，Deep Learning速成教程

【深度学习】大牛的《深度学习》笔记，Deep Learning速成教程

产业智能官

12+阅读 · 2018年4月6日

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

AI研习社

11+阅读 · 2017年12月16日

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

专知

28+阅读 · 2017年12月6日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习模型的海上溢油监测及油膜相对厚度估计研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向多源遥感图像的深度学习技术与系统研究

国家自然科学基金

17+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

Arxiv

0+阅读 · 2月11日

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Arxiv

0+阅读 · 2月5日

DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference

Arxiv

0+阅读 · 2月4日

Beyond Retrieval: A Modular Benchmark for Academic Deep Research Agents

Arxiv

0+阅读 · 1月30日

Dr. Bench: A Multidimensional Evaluation for Deep Research Agents, from Answers to Reports

Arxiv

0+阅读 · 1月29日

DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference

Arxiv

0+阅读 · 1月26日

Deep Research with Open-Domain Evaluation and Multi-Stage Guardrails for Safety

Arxiv

0+阅读 · 1月24日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 1月16日

DR-Arena: an Automated Evaluation Framework for Deep Research Agents

Arxiv

0+阅读 · 1月15日

DeepResearch Bench II: Diagnosing Deep Research Agents via Rubrics from Expert Report

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

7+阅读 · 今天12:11

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

4+阅读 · 今天12:07

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

6+阅读 · 今天10:06

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

3+阅读 · 今天9:11

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

10+阅读 · 今天8:18

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

9+阅读 · 今天8:03

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

6+阅读 · 今天7:39

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

6+阅读 · 今天6:58

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

5+阅读 · 今天6:54

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

9+阅读 · 今天6:48

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

5+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

7+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

5+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

7+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

6+阅读 · 今天6:09

相关VIP内容

面向深度研究系统的强化学习基础：综述

面向深度研究系统的强化学习基础：综述

专知会员服务

23+阅读 · 2025年9月22日

迈向深度基础模型：基于视觉的深度估计最新趋势

迈向深度基础模型：基于视觉的深度估计最新趋势

专知会员服务

23+阅读 · 2025年7月16日

95页《深度研究DeepResearch的综合综述：系统、方法与应用》

95页《深度研究DeepResearch的综合综述：系统、方法与应用》

专知会员服务

37+阅读 · 2025年6月19日

DeepSeek+DeepResearch 让科研像聊天一样简单，85页ppt

DeepSeek+DeepResearch 让科研像聊天一样简单，85页ppt

专知会员服务

48+阅读 · 2025年3月16日

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

专知会员服务

79+阅读 · 2025年2月14日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

【深度推荐系统：基础与进展】密歇根州立大学、香港理工大学、百度专家联合推出教程，Deep Recommender System: Fundamentals and Advances

专知会员服务

20+阅读 · 2022年2月25日

深度学习与应用框架

专知会员服务

125+阅读 · 2021年6月19日

最新《深度持续学习》综述论文，32页pdf

最新《深度持续学习》综述论文，32页pdf

专知会员服务

88+阅读 · 2020年9月6日

南洋理工大学，深度学习推荐系统综述

南洋理工大学，深度学习推荐系统综述

专知会员服务

177+阅读 · 2019年10月14日

热门VIP内容

开通专知VIP会员享更多权益服务

《强化学习数学基础》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

2026“人工智能+”行业发展蓝皮书（附下载）

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

相关资讯

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

【DeepMind深度学习课程】神经网络基础，104页ppt，Neural Networks Foundations

【DeepMind深度学习课程】神经网络基础，104页ppt，Neural Networks Foundations

专知

13+阅读 · 2020年6月24日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

深度学习在CTR预估中的应用 | CTR深度模型大盘点

深度学习在CTR预估中的应用 | CTR深度模型大盘点

PaperWeekly

15+阅读 · 2018年4月11日

【深度学习】大牛的《深度学习》笔记，Deep Learning速成教程

【深度学习】大牛的《深度学习》笔记，Deep Learning速成教程

产业智能官

12+阅读 · 2018年4月6日

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

Java 工程师转型 AI 的秘密法宝——深度学习框架 Deeplearning4j | 回顾

AI研习社

11+阅读 · 2017年12月16日

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

【下载】最新TensorFlow深度学习教程指引《Learning TensorFlow，构建深度学习系统指引》

专知

28+阅读 · 2017年12月6日

相关论文

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

Arxiv

0+阅读 · 2月11日

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Arxiv

0+阅读 · 2月5日

DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference

Arxiv

0+阅读 · 2月4日

Beyond Retrieval: A Modular Benchmark for Academic Deep Research Agents

Arxiv

0+阅读 · 1月30日

Dr. Bench: A Multidimensional Evaluation for Deep Research Agents, from Answers to Reports

Arxiv

0+阅读 · 1月29日

DEEPMED: Building a Medical DeepResearch Agent via Multi-hop Med-Search Data and Turn-Controlled Agentic Training & Inference

Arxiv

0+阅读 · 1月26日

Deep Research with Open-Domain Evaluation and Multi-Stage Guardrails for Safety

Arxiv

0+阅读 · 1月24日

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Arxiv

0+阅读 · 1月16日

DR-Arena: an Automated Evaluation Framework for Deep Research Agents

Arxiv

0+阅读 · 1月15日

DeepResearch Bench II: Diagnosing Deep Research Agents via Rubrics from Expert Report

Arxiv

0+阅读 · 1月13日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习模型的海上溢油监测及油膜相对厚度估计研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向多源遥感图像的深度学习技术与系统研究

国家自然科学基金

17+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员