Object Hallucination (OH) has been acknowledged as one of the major trustworthy challenges in Large Vision-Language Models (LVLMs). Recent advancements in Large Language Models (LLMs) indicate that internal states, such as hidden states, encode the "overall truthfulness" of generated responses. However, it remains under-explored how internal states in LVLMs function and whether they could serve as "per-token" hallucination indicators, which is essential for mitigating OH. In this paper, we first conduct an in-depth exploration of LVLM internal states with OH issues and discover that (1) LVLM internal states are high-specificity per-token indicators of hallucination behaviors. Moreover, (2) different LVLMs encode universal patterns of hallucinations in common latent subspaces, indicating that there exist "generic truthful directions" shared by various LVLMs. Based on these discoveries, we propose Truthful-Guided Pre-Intervention (TruthPrInt) that first learns the truthful direction of LVLM decoding and then applies truthful-guided inference-time intervention during LVLM decoding. We further propose TruthPrInt to enhance both cross-LVLM and cross-data hallucination detection transferability by constructing and aligning hallucination latent subspaces. We evaluate TruthPrInt in extensive experimental settings, including in-domain and out-of-domain scenarios, over popular LVLMs and OH benchmarks. Experimental results indicate that TruthPrInt significantly outperforms state-of-the-art methods. Codes will be available at https://github.com/jinhaoduan/TruthPrInt.


翻译:对象幻觉(OH)已被公认为大型视觉语言模型(LVLMs)面临的主要可信挑战之一。大型语言模型(LLMs)的最新进展表明,内部状态(如隐藏状态)编码了生成响应的“整体真实性”。然而,LVLMs中的内部状态如何发挥作用,以及它们是否可以作为“逐令牌”的幻觉指示器,这一关键问题仍未得到充分探索,而这对于缓解OH至关重要。本文首先对存在OH问题的LVLM内部状态进行了深入探究,发现:(1)LVLM内部状态是幻觉行为的高特异性逐令牌指示器。此外,(2)不同的LVLMs在共同的潜在子空间中编码了幻觉的普遍模式,表明存在多种LVLM共享的“通用真实性方向”。基于这些发现,我们提出了真实性引导预干预(TruthPrInt)方法,该方法首先学习LVLM解码的真实性方向,然后在LVLM解码过程中应用真实性引导的推理时干预。我们进一步提出TruthPrInt,通过构建和对齐幻觉潜在子空间,增强跨LVLM和跨数据幻觉检测的可迁移性。我们在广泛的实验设置中评估TruthPrInt,包括领域内和领域外场景,覆盖主流LVLMs和OH基准测试。实验结果表明,TruthPrInt显著优于现有最先进方法。代码将在 https://github.com/jinhaoduan/TruthPrInt 发布。

0
下载
关闭预览

相关内容

大型视觉语言模型中幻觉现象的综述
专知会员服务
47+阅读 · 2024年10月24日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
大型语言模型幻觉的综述
专知会员服务
39+阅读 · 2024年2月15日
《大型视觉语言模型中的幻觉现象》综述
专知会员服务
57+阅读 · 2024年2月2日
大型语言模型幻觉缓解技术的全面综述
专知会员服务
72+阅读 · 2024年1月3日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员