Large Language Models (LLMs) enhanced with retrieval, an approach known as Retrieval-Augmented Generation (RAG), have achieved strong performance in open-domain question answering. However, RAG remains prone to hallucinations: factually incorrect outputs may arise from inaccuracies in the model's internal knowledge and the retrieved context. Existing approaches to mitigating hallucinations often conflate factuality with faithfulness to the retrieved evidence, incorrectly labeling factually correct statements as hallucinations if they are not explicitly supported by the retrieval. In this paper, we introduce FRANQ, a new method for hallucination detection in RAG outputs. FRANQ applies distinct uncertainty quantification (UQ) techniques to estimate factuality, conditioning on whether a statement is faithful to the retrieved context. To evaluate FRANQ and competing UQ methods, we construct a new long-form question answering dataset annotated for both factuality and faithfulness, combining automated labeling with manual validation of challenging cases. Extensive experiments across multiple datasets, tasks, and LLMs show that FRANQ achieves more accurate detection of factual errors in RAG-generated responses compared to existing approaches.


翻译:基于检索增强的大型语言模型(LLMs),即检索增强生成(RAG)方法,在开放域问答任务中已展现出卓越性能。然而,RAG 系统仍易产生幻觉:事实错误的输出可能源于模型内部知识的不准确以及检索上下文中的错误。现有缓解幻觉的方法常将事实性与对检索证据的忠实性混为一谈,若生成陈述未得到检索内容的明确支持,即使其事实正确也会被错误地标记为幻觉。本文提出 FRANQ,一种用于检测 RAG 输出中幻觉的新方法。FRANQ 根据生成陈述是否忠实于检索上下文,应用不同的不确定性量化(UQ)技术来分别评估其事实性。为评估 FRANQ 及现有 UQ 方法,我们构建了一个新的长形式问答数据集,该数据集针对事实性与忠实性进行了标注,并融合了自动化标注与对疑难案例的人工验证。在多个数据集、任务及 LLMs 上的大量实验表明,相较于现有方法,FRANQ 能够更准确地检测 RAG 生成响应中的事实错误。

0
下载
关闭预览

相关内容

大语言模型中的检索与结构化增强生成综述
专知会员服务
32+阅读 · 2025年9月17日
检索增强生成(RAG)与推理的协同作用:一项系统综述
专知会员服务
15+阅读 · 2025年4月27日
多模态检索增强生成的综合综述
专知会员服务
43+阅读 · 2025年2月17日
定制化大型语言模型的图检索增强生成综述
专知会员服务
37+阅读 · 2025年1月28日
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
89+阅读 · 2025年1月21日
检索增强生成系统中的可信度:综述
专知会员服务
43+阅读 · 2024年9月18日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
59+阅读 · 2024年4月18日
《利用 ChatGPT 实现高效事实核查》
专知会员服务
47+阅读 · 2023年10月25日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
综述 | 知识图谱向量化表示
开放知识图谱
33+阅读 · 2017年10月26日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
大语言模型中的检索与结构化增强生成综述
专知会员服务
32+阅读 · 2025年9月17日
检索增强生成(RAG)与推理的协同作用:一项系统综述
专知会员服务
15+阅读 · 2025年4月27日
多模态检索增强生成的综合综述
专知会员服务
43+阅读 · 2025年2月17日
定制化大型语言模型的图检索增强生成综述
专知会员服务
37+阅读 · 2025年1月28日
智能体检索增强生成:关于智能体RAG的综述
专知会员服务
89+阅读 · 2025年1月21日
检索增强生成系统中的可信度:综述
专知会员服务
43+阅读 · 2024年9月18日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
59+阅读 · 2024年4月18日
《利用 ChatGPT 实现高效事实核查》
专知会员服务
47+阅读 · 2023年10月25日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员