Hallucination detection is critical for deploying large language models (LLMs) in real-world applications. Existing hallucination detection methods achieve strong performance when the training and test data come from the same domain, but they suffer from poor cross-domain generalization. In this paper, we study an important yet overlooked problem, termed generalizable hallucination detection (GHD), which aims to train hallucination detectors on data from a single domain while ensuring robust performance across diverse related domains. In studying GHD, we simulate multi-turn dialogues following LLMs' initial response and observe an interesting phenomenon: hallucination-initiated multi-turn dialogues universally exhibit larger uncertainty fluctuations than factual ones across different domains. Based on the phenomenon, we propose a new score SpikeScore, which quantifies abrupt fluctuations in multi-turn dialogues. Through both theoretical analysis and empirical validation, we demonstrate that SpikeScore achieves strong cross-domain separability between hallucinated and non-hallucinated responses. Experiments across multiple LLMs and benchmarks demonstrate that the SpikeScore-based detection method outperforms representative baselines in cross-domain generalization and surpasses advanced generalization-oriented methods, verifying the effectiveness of our method in cross-domain hallucination detection.


翻译:幻觉检测对于在现实应用中部署大型语言模型至关重要。现有幻觉检测方法在训练和测试数据来自相同领域时表现优异,但在跨域泛化方面表现不佳。本文研究了一个重要但被忽视的问题,即泛化性幻觉检测,其目标是在单一领域数据上训练幻觉检测器,同时确保在不同相关领域中具有鲁棒性能。在研究GHD时,我们模拟了大型语言模型初始响应后的多轮对话,并观察到一个有趣现象:在不同领域中,幻觉引发的多轮对话普遍比事实性对话表现出更大的不确定性波动。基于此现象,我们提出了一种新评分方法SpikeScore,用于量化多轮对话中的突发波动。通过理论分析和实证验证,我们证明SpikeScore在幻觉与非幻觉响应之间实现了强大的跨域可分离性。在多个大型语言模型和基准测试上的实验表明,基于SpikeScore的检测方法在跨域泛化方面优于代表性基线,并超越了先进的面向泛化方法,验证了我们的方法在跨域幻觉检测中的有效性。

0
下载
关闭预览

相关内容

开放环境下的跨域物体检测综述
专知会员服务
26+阅读 · 2024年5月27日
【NeurIPS2023】多样化的时空感知用于视频域泛化
专知会员服务
21+阅读 · 2023年10月30日
专知会员服务
34+阅读 · 2021年9月16日
最新《深度学习视频异常检测》2020综述论文,21页pdf
专知会员服务
86+阅读 · 2020年9月30日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员