Detecting hallucinations in large language models is a critical open problem with significant implications for safety and reliability. While existing hallucination detection methods achieve strong performance in question-answering tasks, they remain less effective on tasks requiring reasoning. In this work, we revisit hallucination detection through the lens of out-of-distribution (OOD) detection, a well-studied problem in areas like computer vision. Treating next-token prediction in language models as a classification task allows us to apply OOD techniques, provided appropriate modifications are made to account for the structural differences in large language models. We show that OOD-based approaches yield training-free, single-sample-based detectors, achieving strong accuracy in hallucination detection for reasoning tasks. Overall, our work suggests that reframing hallucination detection as OOD detection provides a promising and scalable pathway toward language model safety.


翻译:检测大型语言模型中的幻觉是一个关键且尚未解决的开放性问题,对安全性和可靠性具有重大影响。尽管现有的幻觉检测方法在问答任务中表现出色,但在需要推理的任务上效果仍然欠佳。在本研究中,我们通过分布外检测的视角重新审视幻觉检测问题,后者是计算机视觉等领域中一个被深入研究的问题。将语言模型中的下一词预测视为分类任务,使我们能够应用OOD检测技术,前提是进行适当修改以考虑大型语言模型的结构差异。我们证明,基于OOD的方法可以产生无需训练、基于单样本的检测器,在推理任务的幻觉检测中实现高准确率。总体而言,我们的研究表明,将幻觉检测重新定义为OOD检测,为语言模型安全性提供了一条有前景且可扩展的途径。

0
下载
关闭预览

相关内容

大语言模型与视觉模型中的幻觉现象理解综述
专知会员服务
21+阅读 · 2025年10月2日
多模态幻觉的评估与检测综述
专知会员服务
18+阅读 · 2025年7月28日
视觉-语言模型在物体检测与分割中的应用:综述与评估
专知会员服务
25+阅读 · 2025年4月28日
大型视觉语言模型中幻觉现象的综述
专知会员服务
47+阅读 · 2024年10月24日
360视角:大模型幻觉问题及其解决方案的深度探索与实践
多模态大模型的幻觉问题与评估
专知会员服务
57+阅读 · 2023年7月28日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员