Retrieval-Augmented Generation (RAG) has become a common approach for improving the factuality of Large Language Models (LLMs), yet its reliability remains highly sensitive to how external evidence is retrieved and used. Semantically equivalent queries with different syntactic forms may lead to different retrieval results, while irrelevant or misleading documents can further induce hallucinated answers. Existing multi-path reasoning methods improve robustness by sampling multiple candidate answers and applying voting- or confidence-based selection, but they still face two limitations: diversity is often injected through uncontrollable decoding randomness, and answer evaluation is usually confined to a single query-induced evidence view. To address these limitations, we propose a Cross-Query Consistency Hypothesis: correct answers tend to maintain high confidence across semantically equivalent but syntactically diverse queries, whereas noise-induced hallucinations exhibit unstable confidence under such query variations. Based on this hypothesis, we introduce CQC-RAG, a framework that co-designs query-level diversity injection with cross-query consistency evaluation. CQC-RAG rewrites the original question into diverse but meaning-preserving queries, reranks a shared document pool to construct query-conditioned reasoning contexts, applies an evidence-grounded protocol to extract answer-evidence pairs and selects answers according to their confidence stability across these contexts. This design enables self-evaluation without external supervision and does not rely on expanded retrieval coverage. Experiments on four open-domain question answering benchmarks show that CQC-RAG outperforms the strongest previous multi-query baseline by +4.76 pp EM on TriviaQA and +9.12 pp EM on MuSiQue, validating the effectiveness of cross-query consistency for filtering noise-induced hallucinations.


翻译:检索增强生成(RAG)已成为提升大语言模型(LLM)事实性的常用方法,但其可靠性仍高度依赖于外部证据的检索与利用方式。语义等价但句法形式不同的查询可能导致不同的检索结果,而无关或误导性文档更可能诱发生成幻觉。现有基于多路径推理的方法通过采样多个候选答案并应用投票或置信度选择来增强鲁棒性,但存在两个局限:多样性通常通过不可控的解码随机性注入,且答案评估往往局限于单一查询所引出的证据视角。为解决这些问题,我们提出交叉查询一致性假设:正确答案在不同句法形式但语义等价的查询下通常保持高置信度,而噪声诱发的幻觉在这类查询变化下则表现出不稳定的置信度。基于该假设,我们提出CQC-RAG框架,协同设计查询级多样性注入与跨查询一致性评估。CQC-RAG将原始问题改写为多样化但保持语义的查询,对共享文档池进行重排序以构建查询条件推理上下文,采用基于证据的协议提取答案-证据对,并根据这些上下文中答案的置信度稳定性进行选择。该设计无需外部监督即可实现自我评估,且不依赖扩展检索覆盖范围。在四个开放域问答基准上的实验表明,CQC-RAG在TriviaQA上超越最强先前多查询基线+4.76个EM点,在MuSiQue上超越+9.12个EM点,验证了交叉查询一致性在过滤噪声诱发幻觉方面的有效性。

0
下载
关闭预览

相关内容

检索增强生成(RAG)技术,261页slides
专知会员服务
42+阅读 · 2025年10月16日
【新书】Essential GraphRAG: 知识图谱增强的RAG
专知会员服务
35+阅读 · 2025年7月17日
【新书】检索增强生成(RAG)入门指南
专知会员服务
30+阅读 · 2025年6月25日
检索增强生成(RAG)与推理的协同作用:一项系统综述
专知会员服务
16+阅读 · 2025年4月27日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
94+阅读 · 2025年1月21日
微软最新《检索增强生成(RAG)》综述
专知会员服务
57+阅读 · 2024年9月24日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
NLG ≠ 机器写作 | 专家专栏
量子位
13+阅读 · 2018年9月10日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关VIP内容
检索增强生成(RAG)技术,261页slides
专知会员服务
42+阅读 · 2025年10月16日
【新书】Essential GraphRAG: 知识图谱增强的RAG
专知会员服务
35+阅读 · 2025年7月17日
【新书】检索增强生成(RAG)入门指南
专知会员服务
30+阅读 · 2025年6月25日
检索增强生成(RAG)与推理的协同作用:一项系统综述
专知会员服务
16+阅读 · 2025年4月27日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
94+阅读 · 2025年1月21日
微软最新《检索增强生成(RAG)》综述
专知会员服务
57+阅读 · 2024年9月24日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员