Recent advances in large language models have enabled deep research systems that generate expert-level reports through multi-step reasoning and evidence-based synthesis. However, evaluating such reports remains challenging: report quality is multifaceted, making it difficult to determine what to assess and by what criteria; LLM-based judges may miss errors that require domain expertise to identify; and because deep research relies on retrieved evidence, report-wide claim verification is also necessary. To address these issues, we propose DEER, a benchmark for evaluating expert-level deep research reports. DEER systematizes evaluation criteria with an expert-developed taxonomy (7 dimensions, 25 subdimensions) operationalized as 101 fine-grained rubric items. We also provide task-specific Expert Evaluation Guidance to support LLM-based judging. Alongside rubric-based assessment, we propose a claim verification architecture that verifies both cited and uncited claims and quantifies evidence quality. Experiments show that while current deep research systems can produce structurally plausible reports that cite external evidence, there is room for improvement in fulfilling expert-level user requests and achieving logical completeness. Beyond simple performance comparisons, DEER makes system strengths and limitations interpretable and provides diagnostic signals for improvement.


翻译:近年来,大型语言模型的进展使得能够通过多步推理和基于证据的合成来生成专家级报告的深度研究系统成为可能。然而,评估此类报告仍然具有挑战性:报告质量是多方面的,难以确定评估什么以及依据何种标准;基于LLM的评判者可能会遗漏需要领域专业知识才能识别的错误;并且由于深度研究依赖于检索到的证据,因此对整个报告中的主张进行验证也是必要的。为解决这些问题,我们提出了DEER,一个用于评估专家级深度研究报告的基准。DEER通过一个由专家开发的分类体系(7个维度,25个子维度)系统化了评估标准,并将其具体化为101个细粒度的评分细则条目。我们还提供了特定任务的专家评估指南,以支持基于LLM的评判。除了基于评分细则的评估,我们提出了一种主张验证架构,用于验证报告中引用和未引用的主张,并对证据质量进行量化。实验表明,尽管当前的深度研究系统能够生成结构合理且引用外部证据的报告,但在满足专家级用户请求和实现逻辑完整性方面仍有改进空间。DEER超越了简单的性能比较,使得系统的优势和局限变得可解释,并为改进提供了诊断信号。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
Deep Research(深度研究):系统性综述
专知会员服务
50+阅读 · 2025年12月3日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2025年2月11日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
28+阅读 · 2018年12月4日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员