Deep research agents have emerged as LLM-based systems designed to perform multi-step information seeking and reasoning over large, open-domain sources to answer complex questions by synthesizing information from multiple information sources. Given the complexity of the task and despite various recent efforts, evaluation of deep research agents remains fundamentally challenging. This paper identifies a list of requirements and optional properties for evaluating deep research agents. We observe that existing benchmarks do not satisfy all identified requirements. Inspired by prior research on TREC Total Recall Tracks, we introduce the task of Total Recall Question Answering and develop a framework for deep research agents evaluation that satisfies the identified criteria. Our framework constructs single-answer, total recall queries with precise evaluation and relevance judgments derived from a structured knowledge base paired with a text corpus, enabling large-scale data construction. Using this framework, we build TRQA, a deep research benchmark constructed from Wikidata-Wikipedia as a real-world source and a synthetically generated e-commerce knowledge base and corpus to mitigate the effects of data contamination. We benchmark the collection with representative retriever and deep research models and establish baseline retrieval and end-to-end results for future comparative evaluation.


翻译:深度研究智能体作为基于大语言模型的系统崭露头角,旨在通过大规模开放域资料执行多步信息检索与推理,综合多源信息回答复杂问题。鉴于该任务的复杂性,尽管近期已有诸多尝试,深度研究智能体的评估仍面临根本性挑战。本文明确了评估深度研究智能体所需的一系列必备属性与可选特性。我们观察到现有基准测试未能满足所有已识别需求。受TREC全面回顾任务系列研究启发,我们提出全面回顾问答任务,并构建了满足既定标准的深度研究智能体评估框架。该框架通过从结构化知识库与文本语料库的配对中生成单答案全面回顾查询,实现精确评估与相关性判断,支持大规模数据构建。基于该框架,我们构建了TRQA——一个以维基数据-维基百科为真实世界数据源、辅以合成生成的电子商务知识库与语料库的深度研究基准,以降低数据污染影响。我们选取代表性检索模型与深度研究模型对基准进行评估,建立基线检索与端到端结果,供后续对比研究参考。

0
下载
关闭预览

相关内容

AgentOps综述:智能体系统运维框架
专知会员服务
18+阅读 · 6月4日
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
AI 智能体系统:体系架构、应用场景及评估范式
面向深度研究系统的强化学习基础:综述
专知会员服务
23+阅读 · 2025年9月22日
大语言模型智能体的评估与基准:综述
专知会员服务
50+阅读 · 2025年7月31日
面向大模型多智能体系统的多维评估方法
专知会员服务
35+阅读 · 2025年4月15日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
【DeepMind】多智能体学习231页PPT总结
深度强化学习实验室
16+阅读 · 2020年6月23日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
24+阅读 · 2024年2月23日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
AgentOps综述:智能体系统运维框架
专知会员服务
18+阅读 · 6月4日
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
AI 智能体系统:体系架构、应用场景及评估范式
面向深度研究系统的强化学习基础:综述
专知会员服务
23+阅读 · 2025年9月22日
大语言模型智能体的评估与基准:综述
专知会员服务
50+阅读 · 2025年7月31日
面向大模型多智能体系统的多维评估方法
专知会员服务
35+阅读 · 2025年4月15日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员