Visual thinking should not only sound right; it should show its evidence. While recent vision-language models (VLMs) can produce natural-language reasoning traces, these traces often leave the supporting image regions implicit, making them hard to verify and difficult to supervise. We introduce visually grounded thinking, a reasoning process in which models interleave natural-language thoughts with explicit point or box groundings of the visual evidence used at each step. This lets the model express intermediate reasoning in language while grounding key objects in the image regions they refer to. To train this behavior, we construct a scalable synthesis pipeline that distills correct visual reasoning traces, extracts the visual objects required by the traces, grounds them with a SAM3-based agent, and derives aligned point and box supervision from the resulting masks. We further propose grounding-aware reinforcement learning, which combines answer correctness rewards with dense grounding rewards that score whether generated object references match the correct image evidence. Across two counting benchmarks and four spatial reasoning benchmarks, adding visually grounded thinking to Gemma3-4B-IT consistently improves performance over the original model and the non-grounded thinking baseline. On spatial reasoning, the visually grounded thinking 4B models match, and in some cases surpass, Gemma3-27B-IT from the same model family. Our analysis shows that point grounding is well suited to counting, while box grounding benefits most from explicit grounding rewards on spatial tasks. Overall, our results show that VLMs think better when their intermediate thoughts are tied to the image regions that make them true.


翻译:视觉推理不仅应当言之有理,更需呈现其证据。尽管当前的视觉语言模型(VLM)能够生成自然语言的推理链,但这些推理链往往将所依托的图像区域隐含其中,导致难以验证且不便监督。本文提出视觉锚定推理(visually grounded thinking)——一种推理过程,使模型能在自然语言思维中交替嵌入显式的点或框标注,以标示每一步所用到的视觉证据。这使模型既能用语言表达中间推理,又能将关键对象锚定于其指代的图像区域。为训练此行为,我们构建了可扩展的合成流程:提炼正确的视觉推理轨迹,提取轨迹所需的视觉对象,借助基于SAM3的智能体对其锚定,并从生成的掩码中导出对齐的点与框监督信号。我们进一步提出锚定感知强化学习(grounding-aware reinforcement learning),将答案正确性奖励与密集的锚定奖励相结合,后者用于评估生成的对象引用是否匹配正确的图像证据。在两个计数基准与四个空间推理基准上,为Gemma3-4B-IT模型添加视觉锚定推理,其性能持续优于原始模型及无锚定推理基线。在空间推理任务中,视觉锚定推理的4B模型已达到甚至超越同系列Gemma3-27B-IT模型的表现。分析表明,点锚定更适用于计数任务,而框锚定则在空间任务中从显式锚定奖励中获益最多。总体而言,我们的结果表明,当VLMs的中间思维与其所依凭的图像区域紧密关联时,其推理质量会显著提升。

0
下载
关闭预览

相关内容

在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
LlamaV-o1: 重新思考大语言模型中的逐步视觉推理
专知会员服务
17+阅读 · 2025年1月14日
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
65+阅读 · 2021年12月1日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
新任务&数据集:视觉常识推理(VCR)
专知
50+阅读 · 2018年12月1日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关资讯
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
新任务&数据集:视觉常识推理(VCR)
专知
50+阅读 · 2018年12月1日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员