Understanding and reasoning about the physical world requires spatial intelligence: the ability to interpret geometry, perspective, and spatial relations beyond 2D perception. While recent vision large models (VLMs) excel at visual understanding, they remain fundamentally 2D perceivers and struggle with genuine 3D reasoning. We introduce Think3D, a framework that enables VLM agents to think with 3D space. By leveraging 3D reconstruction models that recover point clouds and camera poses from images or videos, Think3D allows the agent to actively manipulate space through camera-based operations and ego/global-view switching, transforming spatial reasoning into an interactive 3D chain-of-thought process. Without additional training, Think3D significantly improves the spatial reasoning performance of advanced models such as GPT-4.1 and Gemini 2.5 Pro, yielding average gains of +7.8% on BLINK Multi-view and MindCube, and +4.7% on VSI-Bench. We further show that smaller models, which struggle with spatial exploration, benefit significantly from a reinforcement learning policy that enables the model to select informative viewpoints and operations. With RL, the benefit from tool usage increases from +0.7% to +6.8%. Our findings demonstrate that training-free, tool-augmented spatial exploration is a viable path toward more flexible and human-like 3D reasoning in multimodal agents, establishing a new dimension of multimodal intelligence. Code and weights are released at https://github.com/zhangzaibin/spagent.


翻译:理解和推理物理世界需要空间智能:即超越二维感知,解释几何、透视和空间关系的能力。尽管当前的视觉大模型在视觉理解方面表现出色,但它们本质上仍是二维感知器,在真正的三维推理方面存在困难。我们提出了Think3D,一个使视觉大模型智能体能够利用三维空间进行思考的框架。通过利用从图像或视频中恢复点云和相机姿态的三维重建模型,Think3D允许智能体通过基于相机的操作以及自我/全局视角切换来主动操控空间,从而将空间推理转化为一个交互式的三维思维链过程。无需额外训练,Think3D显著提升了如GPT-4.1和Gemini 2.5 Pro等先进模型的空间推理性能,在BLINK Multi-view和MindCube上平均提升+7.8%,在VSI-Bench上平均提升+4.7%。我们进一步发现,那些在空间探索方面存在困难的小模型,通过一个强化学习策略(使模型能够选择信息丰富的视点和操作)而显著受益。借助强化学习,工具使用带来的收益从+0.7%提升至+6.8%。我们的研究结果表明,无需训练、工具增强的空间探索是实现多模态智能体更灵活、更类人三维推理的可行路径,从而确立了多模态智能的一个新维度。代码和权重发布于 https://github.com/zhangzaibin/spagent。

0
下载
关闭预览

相关内容

多模态空间推理在大模型时代:综述与基准测试
专知会员服务
14+阅读 · 2025年10月30日
空间智能研究报告
专知会员服务
30+阅读 · 2025年5月16日
AI进入推理模型时代,一文带你读懂思维链
专知会员服务
39+阅读 · 2025年3月17日
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月13日
VIP会员
相关资讯
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员