Large Vision-Language Models (LVLMs) frequently suffer from severe hallucination issues. Existing mitigation strategies predominantly rely on isolated, single-step states to enhance visual focus or suppress strong linguistic priors. However, these static approaches neglect dynamic context changes across the generation process and struggles to correct inherited information loss. To address this limitation, we propose Adaptive Context inTegration (ACT), a training-free inference intervention method that mitigates hallucination through the adaptive integration of contextual information. Specifically, we first propose visual context exploration, which leverages spatio-temporal profiling to adaptively amplify attention heads responsible for visual exploration. To further facilitate vision-language alignment, we propose semantic context aggregation that marginalizes potential semantic queries to effectively aggregate visual evidence, thereby resolving the information loss caused by the discrete nature of token prediction. Extensive experiments across diverse LVLMs demonstrate that ACT significantly reduces hallucinations and achieves competitive results on both discriminative and generative benchmarks, acting as a robust and highly adaptable solution without compromising fundamental generation capabilities.


翻译:大型视觉语言模型(LVLMs)常面临严重的幻觉问题。现有缓解策略主要依赖孤立的单步状态来增强视觉聚焦或抑制强语言先验。然而,这些静态方法忽略了生成过程中的动态上下文变化,且难以纠正继承的信息损失。为解决这一局限性,我们提出自适应上下文集成方法(ACT),一种无需训练的推理干预方法,通过自适应整合上下文信息来减轻幻觉。具体而言,我们首先提出视觉上下文探索,利用时空特征分析自适应放大负责视觉探索的注意力头。为进一步促进视觉语言对齐,我们提出语义上下文聚合,通过边缘化潜在语义查询有效聚合视觉证据,从而解决由标记预测离散性导致的信息损失。在多种LVLM上的广泛实验表明,ACT显著减少幻觉,并在判别性和生成性基准测试中取得竞争性结果,作为鲁棒且高度可适应的解决方案,不影响基础生成能力。

0
下载
关闭预览

相关内容

大型视觉语言模型中幻觉现象的综述
专知会员服务
47+阅读 · 2024年10月24日
视频大模型中视觉上下文表示的scaling law
专知会员服务
24+阅读 · 2024年10月21日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
《大型视觉语言模型中的幻觉现象》综述
专知会员服务
57+阅读 · 2024年2月2日
【论文笔记】自注意力机制学习句子embedding
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员