With the rapid advancement of agent-based methods in recent years, Agentic RAG has undoubtedly become an important research direction. Multi-hop reasoning, which requires models to engage in deliberate thinking and multi-step interaction, serves as a critical testbed for assessing such capabilities. However, existing benchmarks typically provide only final questions and answers, while lacking the intermediate hop-level questions that gradually connect atomic questions to the final multi-hop query. This limitation prevents researchers from analyzing at which step an agent fails and restricts more fine-grained evaluation of model capabilities. Moreover, most current benchmarks are manually constructed, which is both time-consuming and labor-intensive, while also limiting scalability and generalization. To address these challenges, we introduce AgenticRAGTracer, the first Agentic RAG benchmark that is primarily constructed automatically by large language models and designed to support step-by-step validation. Our benchmark spans multiple domains, contains 1,305 data points, and has no overlap with existing mainstream benchmarks. Extensive experiments demonstrate that even the best large language models perform poorly on our dataset. For instance, GPT-5 attains merely 22.6\% EM accuracy on the hardest portion of our dataset. Hop-aware diagnosis reveals that failures are primarily driven by distorted reasoning chains -- either collapsing prematurely or wandering into over-extension. This highlights a critical inability to allocate steps consistent with the task's logical structure, providing a diagnostic dimension missing in traditional evaluations. We believe our work will facilitate research in Agentic RAG and inspire further meaningful progress in this area. Our code and data are available at https://github.com/YqjMartin/AgenticRAGTracer.


翻译:近年来,随着基于智能体方法的快速发展,智能体化RAG无疑已成为重要的研究方向。多跳推理要求模型进行审慎思考与多步交互,是评估此类能力的关键测试平台。然而,现有基准通常仅提供最终问题与答案,缺乏将原子问题逐步连接至最终多跳查询的中间跳级问题。这一局限使研究者无法分析智能体在哪个步骤失败,并限制了对模型能力进行更细粒度评估的可能性。此外,当前多数基准依赖人工构建,耗时耗力且可扩展性与泛化能力受限。为应对这些挑战,我们提出了AgenticRAGTracer——首个主要由大语言模型自动构建、支持逐步验证的智能体化RAG基准。我们的基准涵盖多领域,包含1,305个数据点,且与现有主流基准无重叠。大量实验表明,即使最优的大语言模型在我们的数据集上表现亦不理想。例如,GPT-5在我们数据集最困难部分仅获得22.6%的精确匹配准确率。跳数感知诊断揭示,失败主要由扭曲的推理链驱动——要么过早坍缩,要么陷入过度延伸。这凸显出现有模型在分配符合任务逻辑结构的推理步骤方面存在关键缺陷,提供了传统评估缺失的诊断维度。我们相信本工作将推动智能体化RAG领域的研究,并激发该领域更有意义的进展。代码与数据公开于:https://github.com/YqjMartin/AgenticRAGTracer。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
AgentOps综述:分类、挑战与未来方向
专知会员服务
38+阅读 · 2025年8月6日
Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
NeurIPS 2021 | ConE: 针对知识图谱多跳推理的锥嵌入模型
专知会员服务
26+阅读 · 2021年12月5日
专知会员服务
90+阅读 · 2021年6月13日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
论文浅尝 | 常识用于回答生成式多跳问题
开放知识图谱
16+阅读 · 2018年11月24日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
《作战研究是实现战场人工智能潜力的关键》
专知会员服务
14+阅读 · 今天6:08
《军事训练与行动期间新鲜膳食营养保障》380页
专知会员服务
2+阅读 · 今天5:40
伊朗战争时间线:关键节点与袭击事件
专知会员服务
6+阅读 · 今天5:34
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
12+阅读 · 4月7日
无人机与僵局:俄乌战争难以突破
专知会员服务
5+阅读 · 4月7日
相关基金
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员