Deep research systems are widely used for multi-step web research, analysis, and cross-source synthesis, yet their evaluation remains challenging. Existing benchmarks often require annotation-intensive task construction, rely on static evaluation dimensions, or fail to reliably verify facts when citations are missing. To bridge these gaps, we introduce DeepResearchEval, an automated framework for deep research task construction and agentic evaluation. For task construction, we propose a persona-driven pipeline generating realistic, complex research tasks anchored in diverse user profiles, applying a two-stage filter Task Qualification and Search Necessity to retain only tasks requiring multi-source evidence integration and external retrieval. For evaluation, we propose an agentic pipeline with two components: an Adaptive Point-wise Quality Evaluation that dynamically derives task-specific evaluation dimensions, criteria, and weights conditioned on each generated task, and an Active Fact-Checking that autonomously extracts and verifies report statements via web search, even when citations are missing.


翻译:深度研究系统被广泛用于多步骤的网络研究、分析与跨来源综合,但其评估仍具挑战性。现有基准通常需要大量标注的任务构建,依赖于静态的评估维度,或在引用缺失时无法可靠地验证事实。为弥补这些差距,我们提出了DeepResearchEval,一个用于深度研究任务构建与智能体评估的自动化框架。在任务构建方面,我们提出了一个角色驱动的流水线,生成基于多样化用户画像的真实、复杂的研究任务,并应用一个两阶段过滤器——任务资格性与搜索必要性——以仅保留需要多源证据整合与外部检索的任务。在评估方面,我们提出了一个包含两个组件的智能体流水线:一个自适应逐点质量评估,它根据每个生成的任务动态推导出任务特定的评估维度、标准与权重;以及一个主动事实核查,它通过网页搜索自主提取并验证报告中的陈述,即使在引用缺失时也能进行。

0
下载
关闭预览

相关内容

面向深度研究系统的强化学习基础:综述
专知会员服务
23+阅读 · 2025年9月22日
迈向深度基础模型:基于视觉的深度估计最新趋势
专知会员服务
23+阅读 · 2025年7月16日
DeepSeek+DeepResearch 让科研像聊天一样简单,85页ppt
专知会员服务
48+阅读 · 2025年3月16日
专知会员服务
125+阅读 · 2021年6月19日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
88+阅读 · 2020年9月6日
南洋理工大学,深度学习推荐系统综述
专知会员服务
177+阅读 · 2019年10月14日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员