RAGXplain: From Explainable Evaluation to Actionable Guidance of RAG Pipelines - 专知论文

会员服务 ·

0

操作 · 语言模型 · 可解释性 · 系统 · 外部知识 ·

RAGXplain: From Explainable Evaluation to Actionable Guidance of RAG Pipelines

翻译：标题：RAGXplain：从可解释性评估到RAG管道的可操作指导

Dvir Cohen,Tamir Houri,Lin Burg,Gilad Barkan

Retrieval-Augmented Generation (RAG) systems couple large language models with external knowledge, yet most evaluation methods report aggregate scores that reveal whether a pipeline underperforms but not where or why. We introduce RAGXplain, an evaluation framework that translates performance metrics into actionable guidance. RAGXplain structures evaluation around a 'Metric Diamond' connecting user input, retrieved context, generated answer, and (when available) ground truth via six diagnostic dimensions. It uses LLM reasoning to produce natural-language failure-mode explanations and prioritized interventions. Across five QA benchmarks, applying RAGXplain's recommendations in a single human-guided pass consistently improves RAG pipeline performance across multiple metrics. We release RAGXplain as open source to support reproducibility and community adoption.

翻译：摘要：检索增强生成（RAG）系统将大型语言模型与外部知识相结合，然而大多数评估方法仅报告聚合得分，这能揭示管道表现不佳的事实，却无法指明原因或位置。我们提出RAGXplain——一个将性能指标转化为可操作指导的评估框架。RAGXplain围绕“度量菱形”构建评估体系，通过六个诊断维度连接用户输入、检索上下文、生成答案以及（可用时）真实数据。该框架利用大语言模型推理生成自然语言形式的故障模式解释，并提供优先级的干预建议。在五个问答基准测试中，单次人工指导下应用RAGXplain的建议，可在多项指标上持续提升RAG管道性能。我们以开源形式发布RAGXplain，以支持可复现性和社区应用。

0

相关内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

35+阅读 · 2025年7月17日

检索增强生成(RAG)与推理的协同作用：一项系统综述

检索增强生成(RAG)与推理的协同作用：一项系统综述

专知会员服务

34+阅读 · 2025年4月27日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

【新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道

【新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道

专知会员服务

63+阅读 · 2024年12月15日

检索增强生成系统中的可信度：综述

检索增强生成系统中的可信度：综述

专知会员服务

44+阅读 · 2024年9月18日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

专知会员服务

101+阅读 · 2024年5月13日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

清华张敏教授: 个性化推荐的可解释性、鲁棒性和公平性( 附报告下载)

清华张敏教授: 个性化推荐的可解释性、鲁棒性和公平性( 附报告下载)

专知

13+阅读 · 2019年2月24日

论文浅尝 | 推荐系统的可解释性浅谈

论文浅尝 | 推荐系统的可解释性浅谈

开放知识图谱

15+阅读 · 2018年11月27日

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

论智

13+阅读 · 2018年10月28日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

LibRec 精选：推荐的可解释性[综述]

LibRec 精选：推荐的可解释性[综述]

LibRec智能推荐

10+阅读 · 2018年5月4日

基于LDA的主题模型实践（一）

基于LDA的主题模型实践（一）

机器学习深度学习实战原创交流

20+阅读 · 2015年9月9日

单分子拉曼散射过程非线性与相干性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向复杂管路网络流固耦合的阻抗分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Grassmann流形的粒子滤波多目标跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

在线检测工件表面质量的“透明窗”方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Phase-type分布的多状态系统可靠性模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂交互型网络系统的DEA效率评价与资源配置研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

Evaluating Multi-Hop Reasoning in RAG Systems: A Comparison of LLM-Based Retriever Evaluation Strategies

Arxiv

0+阅读 · 4月20日

Is Agentic RAG worth it? An experimental comparison of RAG approaches

Arxiv

0+阅读 · 4月20日

Rag Performance Prediction for Question Answering

Arxiv

0+阅读 · 4月15日

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

Arxiv

0+阅读 · 4月14日

Trans-RAG: Query-Centric Vector Transformation for Secure Cross-Organizational Retrieval

Arxiv

0+阅读 · 4月10日

Rag Performance Prediction for Question Answering

Arxiv

0+阅读 · 4月9日

Insider Knowledge: How Much Can RAG Systems Gain from Evaluation Secrets?

Arxiv

0+阅读 · 3月27日

Adaptive Chunking: Optimizing Chunking-Method Selection for RAG

Arxiv

0+阅读 · 3月26日

Who Benefits from RAG? The Role of Exposure, Utility and Attribution Bias

Arxiv

0+阅读 · 3月25日

RubricRAG: Towards Interpretable and Reliable LLM Evaluation via Domain Knowledge Retrieval for Rubric Generation

Arxiv

0+阅读 · 3月21日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

3+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

5+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

4+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

4+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

35+阅读 · 2025年7月17日

检索增强生成(RAG)与推理的协同作用：一项系统综述

检索增强生成(RAG)与推理的协同作用：一项系统综述

专知会员服务

34+阅读 · 2025年4月27日

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

【新书】解锁数据与生成型AI和RAG的结合：通过RAG将内部数据与大型语言模型集成，提升生成型AI系统的能力

专知会员服务

49+阅读 · 2024年12月17日

【新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道

【新书】基于RAG的生成式AI：使用LlamaIndex、Deep Lake和Pinecone构建自定义的检索增强生成管道

专知会员服务

63+阅读 · 2024年12月15日

检索增强生成系统中的可信度：综述

检索增强生成系统中的可信度：综述

专知会员服务

44+阅读 · 2024年9月18日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述

专知会员服务

101+阅读 · 2024年5月13日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

清华张敏教授: 个性化推荐的可解释性、鲁棒性和公平性( 附报告下载)

清华张敏教授: 个性化推荐的可解释性、鲁棒性和公平性( 附报告下载)

专知

13+阅读 · 2019年2月24日

论文浅尝 | 推荐系统的可解释性浅谈

论文浅尝 | 推荐系统的可解释性浅谈

开放知识图谱

15+阅读 · 2018年11月27日

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

论智

13+阅读 · 2018年10月28日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

LibRec 精选：推荐的可解释性[综述]

LibRec 精选：推荐的可解释性[综述]

LibRec智能推荐

10+阅读 · 2018年5月4日

基于LDA的主题模型实践（一）

基于LDA的主题模型实践（一）

机器学习深度学习实战原创交流

20+阅读 · 2015年9月9日

相关论文

Evaluating Multi-Hop Reasoning in RAG Systems: A Comparison of LLM-Based Retriever Evaluation Strategies

Arxiv

0+阅读 · 4月20日

Is Agentic RAG worth it? An experimental comparison of RAG approaches

Arxiv

0+阅读 · 4月20日

Rag Performance Prediction for Question Answering

Arxiv

0+阅读 · 4月15日

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

Arxiv

0+阅读 · 4月14日

Trans-RAG: Query-Centric Vector Transformation for Secure Cross-Organizational Retrieval

Arxiv

0+阅读 · 4月10日

Rag Performance Prediction for Question Answering

Arxiv

0+阅读 · 4月9日

Insider Knowledge: How Much Can RAG Systems Gain from Evaluation Secrets?

Arxiv

0+阅读 · 3月27日

Adaptive Chunking: Optimizing Chunking-Method Selection for RAG

Arxiv

0+阅读 · 3月26日

Who Benefits from RAG? The Role of Exposure, Utility and Attribution Bias

Arxiv

0+阅读 · 3月25日

RubricRAG: Towards Interpretable and Reliable LLM Evaluation via Domain Knowledge Retrieval for Rubric Generation

Arxiv

0+阅读 · 3月21日

相关基金

单分子拉曼散射过程非线性与相干性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向复杂管路网络流固耦合的阻抗分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Grassmann流形的粒子滤波多目标跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

在线检测工件表面质量的“透明窗”方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于Phase-type分布的多状态系统可靠性模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂交互型网络系统的DEA效率评价与资源配置研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员