Retrieval-Augmented Generation (RAG) systems rely critically on the retriever module to surface relevant context for large language models. Although numerous retrievers have recently been proposed, each built on different ranking principles such as lexical matching, dense embeddings, or graph citations, there remains a lack of systematic understanding of how these mechanisms differ and overlap. Existing benchmarks primarily compare entire RAG pipelines or introduce new datasets, providing little guidance on selecting or combining retrievers themselves. Those that do compare retrievers directly use a limited set of evaluation tools which fail to capture complementary and overlapping strengths. This work presents MIGRASCOPE, a Mutual Information based RAG Retriever Analysis Scope. We revisit state-of-the-art retrievers and introduce principled metrics grounded in information and statistical estimation theory to quantify retrieval quality, redundancy, synergy, and marginal contribution. We further show that if chosen carefully, an ensemble of retrievers outperforms any single retriever. We leverage the developed tools over major RAG corpora to provide unique insights on contribution levels of the state-of-the-art retrievers. Our findings provide a fresh perspective on the structure of modern retrieval techniques and actionable guidance for designing robust and efficient RAG systems.


翻译:检索增强生成(RAG)系统关键依赖于检索器模块为大型语言模型提供相关上下文。尽管近期提出了众多基于不同排序原理(如词法匹配、稠密嵌入或图引用)的检索器,但对于这些机制如何相互区别与重叠仍缺乏系统性理解。现有基准主要比较完整的RAG流程或引入新数据集,对检索器本身的选择与组合指导有限。直接比较检索器的研究使用的评估工具集较为局限,未能捕捉其互补性与重叠优势。本研究提出MIGRASCOPE——一种基于互信息的RAG检索器分析框架。我们重新审视前沿检索器,并引入基于信息论与统计估计理论的原则性度量指标,以量化检索质量、冗余度、协同效应及边际贡献。进一步证明若经审慎选择,检索器集成策略能超越任何单一检索器。通过在主流RAG语料库上运用所开发工具,我们为前沿检索器的贡献度提供了独特见解。研究结果为现代检索技术的结构提供了新视角,并为设计鲁棒高效的RAG系统提供了可操作的指导。

0
下载
关闭预览

相关内容

检索增强生成(RAG)技术,261页slides
专知会员服务
42+阅读 · 2025年10月16日
【新书】Essential GraphRAG: 知识图谱增强的RAG
专知会员服务
33+阅读 · 2025年7月17日
检索增强生成(RAG)与推理的协同作用:一项系统综述
专知会员服务
16+阅读 · 2025年4月27日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
30+阅读 · 2025年2月12日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述
专知会员服务
101+阅读 · 2024年5月13日
NLG ≠ 机器写作 | 专家专栏
量子位
13+阅读 · 2018年9月10日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关VIP内容
检索增强生成(RAG)技术,261页slides
专知会员服务
42+阅读 · 2025年10月16日
【新书】Essential GraphRAG: 知识图谱增强的RAG
专知会员服务
33+阅读 · 2025年7月17日
检索增强生成(RAG)与推理的协同作用:一项系统综述
专知会员服务
16+阅读 · 2025年4月27日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
30+阅读 · 2025年2月12日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述
专知会员服务
101+阅读 · 2024年5月13日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员