Chain-of-Thought reasoning is widely used to improve the interpretability of multimodal large language models (MLLMs), yet the faithfulness of the generated reasoning traces remains unclear. Prior work has mainly focused on perceptual hallucinations, leaving reasoning level unfaithfulness underexplored. To isolate faithfulness from linguistic priors, we introduce SPD-Faith Bench, a diagnostic benchmark based on fine-grained image difference reasoning that enforces explicit visual comparison. Evaluations on state-of-the-art MLLMs reveal two systematic failure modes, perceptual blindness and perception-reasoning dissociation. We trace these failures to decaying visual attention and representation shifts in the residual stream. Guided by this analysis, we propose SAGE, a train-free visual evidence-calibrated framework that improves visual routing and aligns reasoning with perception. Our results highlight the importance of explicitly evaluating faithfulness beyond response correctness. Our benchmark and codes are available at https://github.com/Johanson-colab/SPD-Faith-Bench.


翻译:思维链推理被广泛用于提升多模态大语言模型的可解释性,然而所生成推理轨迹的忠实性仍不明确。先前的研究主要关注感知幻觉,而对推理层面的不忠实性探索不足。为了将忠实性与语言先验分离,我们提出了SPD-Faith Bench,这是一个基于细粒度图像差异推理的诊断性基准,强制模型进行显式的视觉比较。对前沿多模态大语言模型的评估揭示了两种系统性失效模式:感知盲区与感知-推理解离。我们将这些失效归因于残差流中视觉注意力的衰减与表征偏移。基于此分析,我们提出了SAGE,一种无需训练的视觉证据校准框架,旨在改善视觉路由并使推理与感知对齐。我们的结果凸显了超越回答正确性、显式评估忠实性的重要性。我们的基准与代码可在 https://github.com/Johanson-colab/SPD-Faith-Bench 获取。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
多模态推理的基础、方法与未来前沿
专知会员服务
27+阅读 · 2025年7月6日
多模态思维链推理:全面综述
专知会员服务
60+阅读 · 2025年3月23日
超越思维链:大型语言模型的X链范式综述
专知会员服务
52+阅读 · 2024年4月28日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员