Despite impressive progress in capabilities of large vision-language models (LVLMs), these systems remain vulnerable to hallucinations, i.e., outputs that are not grounded in the visual input. Prior work has attributed hallucinations in LVLMs to factors such as limitations of the vision backbone or the dominance of the language component, yet the relative importance of these factors remains unclear. To resolve this ambiguity, We propose HalluScope, a benchmark to better understand the extent to which different factors induce hallucinations. Our analysis indicates that hallucinations largely stem from excessive reliance on textual priors and background knowledge, especially information introduced through textual instructions. To mitigate hallucinations induced by textual instruction priors, we propose HalluVL-DPO, a framework for fine-tuning off-the-shelf LVLMs towards more visually grounded responses. HalluVL-DPO leverages preference optimization using a curated training dataset that we construct, guiding the model to prefer grounded responses over hallucinated ones. We demonstrate that our optimized model effectively mitigates the targeted hallucination failure mode, while preserving or improving performance on other hallucination benchmarks and visual capability evaluations. To support reproducibility and further research, we will publicly release our evaluation benchmark, preference training dataset, and code at https://pegah-kh.github.io/projects/prompts-override-vision/ .


翻译:尽管大视觉语言模型(LVLMs)在能力上取得了显著进展,但这些系统仍易受幻觉影响,即输出结果缺乏视觉输入的支撑。以往研究将LVLMs中的幻觉归因于视觉骨干网络的局限性或语言成分的主导作用等因素,但这些因素的相对重要性仍不明确。为解决这一模糊问题,我们提出了HalluScope基准,旨在更深入地理解不同因素引发幻觉的程度。我们的分析表明,幻觉主要源于对文本先验知识和背景知识的过度依赖,尤其是通过文本指令引入的信息。为减轻文本指令先验知识引发的幻觉,我们提出了HalluVL-DPO框架,用于对现成的LVLMs进行微调,使其生成更贴近视觉根据的响应。HalluVL-DPO利用我们构建的精心策划的训练数据集进行偏好优化,引导模型优先选择有根据的响应而非幻觉响应。我们证明,优化后的模型能有效缓解目标幻觉故障模式,同时在其他幻觉基准测试和视觉能力评估中保持或提升性能。为支持可复现性和进一步研究,我们将在 https://pegah-kh.github.io/projects/prompts-override-vision/ 公开发布评估基准、偏好训练数据集和代码。

0
下载
关闭预览

相关内容

【ICML2026】大型视觉语言模型在注意力中迷失
专知会员服务
10+阅读 · 5月10日
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
14+阅读 · 4月15日
大语言模型与视觉模型中的幻觉现象理解综述
专知会员服务
21+阅读 · 2025年10月2日
视觉语言大模型的幻觉综述:成因、评估与治理
专知会员服务
19+阅读 · 2025年6月21日
大型视觉语言模型中幻觉现象的综述
专知会员服务
47+阅读 · 2024年10月24日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
大型语言模型幻觉的综述
专知会员服务
39+阅读 · 2024年2月15日
《大型视觉语言模型中的幻觉现象》综述
专知会员服务
57+阅读 · 2024年2月2日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
自注意力机制在计算机视觉中的应用
GAN生成式对抗网络
19+阅读 · 2018年12月20日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
2+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
3+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
【ICML2026】大型视觉语言模型在注意力中迷失
专知会员服务
10+阅读 · 5月10日
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
14+阅读 · 4月15日
大语言模型与视觉模型中的幻觉现象理解综述
专知会员服务
21+阅读 · 2025年10月2日
视觉语言大模型的幻觉综述:成因、评估与治理
专知会员服务
19+阅读 · 2025年6月21日
大型视觉语言模型中幻觉现象的综述
专知会员服务
47+阅读 · 2024年10月24日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
大型语言模型幻觉的综述
专知会员服务
39+阅读 · 2024年2月15日
《大型视觉语言模型中的幻觉现象》综述
专知会员服务
57+阅读 · 2024年2月2日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员