Large Multimodal Models (LMMs) have demonstrated impressive capabilities in video reasoning via Chain-of-Thought (CoT). However, the robustness of their reasoning chains remains questionable. In this paper, we identify a critical failure mode termed textual inertia, where once a textual hallucination occurs in the thinking process, models tend to blindly adhere to the erroneous text while neglecting conflicting visual evidence. To systematically investigate this, we propose the LogicGraph Perturbation Protocol that structurally injects perturbations into the reasoning chains of diverse LMMs spanning both native reasoning architectures and prompt-driven paradigms to evaluate their self-reflection capabilities. The results reveal that models successfully self-correct in less than 10% of cases and predominantly succumb to blind textual error propagation. To mitigate this, we introduce Active Visual-Context Refinement, a training-free inference paradigm which orchestrates an active visual re-grounding mechanism to enforce fine-grained verification coupled with an adaptive context refinement strategy to summarize and denoise the reasoning history. Experiments demonstrate that our approach significantly stifles hallucination propagation and enhances reasoning robustness.


翻译:大型多模态模型(LMMs)通过思维链(CoT)在视频推理任务中展现出卓越的能力。然而,其推理链的鲁棒性仍存疑问。本文识别出一种关键失效模式,称为文本惯性:一旦思维过程中出现文本幻觉,模型倾向于盲目遵循错误文本,而忽视与之冲突的视觉证据。为系统研究此问题,我们提出逻辑图扰动协议,该协议将结构化扰动注入到涵盖原生推理架构与提示驱动范式的多种LMM推理链中,以评估其自我反思能力。实验结果表明,模型仅在不足10%的情况下成功实现自我修正,且主要受困于盲目的文本错误传播。为缓解此问题,我们提出主动视觉上下文精炼——一种免训练的推理范式,其通过协调主动视觉重定位机制以执行细粒度验证,并结合自适应上下文精炼策略对推理历史进行总结与去噪。实验证明,该方法能显著抑制幻觉传播并提升推理鲁棒性。

0
下载
关闭预览

相关内容

【ACL2024】语言模型对齐的不确定性感知学习
专知会员服务
25+阅读 · 2024年6月10日
【AAAI2023】MHCCL:多变量时间序列的掩蔽层次聚类对比学习
【NeurIPS 2021】实例依赖的偏标记学习
专知会员服务
11+阅读 · 2021年11月28日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络
开放知识图谱
21+阅读 · 2020年4月24日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【ACL2024】语言模型对齐的不确定性感知学习
专知会员服务
25+阅读 · 2024年6月10日
【AAAI2023】MHCCL:多变量时间序列的掩蔽层次聚类对比学习
【NeurIPS 2021】实例依赖的偏标记学习
专知会员服务
11+阅读 · 2021年11月28日
相关资讯
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
论文浅尝 | ICLR2020 - 基于组合的多关系图卷积网络
开放知识图谱
21+阅读 · 2020年4月24日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员