Recent progress in spatial reasoning with Multimodal Large Language Models (MLLMs) increasingly leverages geometric priors from 3D encoders. However, most existing integration strategies remain passive: geometry is exposed as a global stream and fused in an indiscriminate manner, which often induces semantic-geometry misalignment and redundant signals. We propose GeoThinker, a framework that shifts the paradigm from passive fusion to active perception. Instead of feature mixing, GeoThinker enables the model to selectively retrieve geometric evidence conditioned on its internal reasoning demands. GeoThinker achieves this through Spatial-Grounded Fusion applied at carefully selected VLM layers, where semantic visual priors selectively query and integrate task-relevant geometry via frame-strict cross-attention, further calibrated by Importance Gating that biases per-frame attention toward task-relevant structures. Comprehensive evaluation results show that GeoThinker sets a new state-of-the-art in spatial intelligence, achieving a peak score of 72.6 on the VSI-Bench. Furthermore, GeoThinker demonstrates robust generalization and significantly improved spatial perception across complex downstream scenarios, including embodied referring and autonomous driving. Our results indicate that the ability to actively integrate spatial structures is essential for next-generation spatial intelligence. Code can be found at https://github.com/Li-Hao-yuan/GeoThinker.


翻译:近年来,利用多模态大语言模型进行空间推理的研究日益依赖于从三维编码器获取的几何先验。然而,现有的大多数集成策略仍是被动的:几何信息以全局流的形式暴露并以无差别的方式进行融合,这常常导致语义与几何的错位以及冗余信号。我们提出了GeoThinker框架,该框架将范式从被动融合转向主动感知。与特征混合不同,GeoThinker使模型能够根据其内部推理需求,有选择地检索几何证据。GeoThinker通过在其精心选定的视觉语言模型层中应用空间锚定融合来实现这一点,其中语义视觉先验通过帧严格的交叉注意力机制,有选择地查询并集成与任务相关的几何信息,并进一步通过重要性门控进行校准,该门控将每帧注意力偏向于任务相关的结构。综合评估结果表明,GeoThinker在空间智能方面达到了新的最先进水平,在VSI-Bench上取得了72.6分的峰值分数。此外,GeoThinker在复杂下游场景(包括具身指代和自动驾驶)中展现出强大的泛化能力和显著提升的空间感知能力。我们的研究结果表明,主动集成空间结构的能力对于下一代空间智能至关重要。代码可在 https://github.com/Li-Hao-yuan/GeoThinker 获取。

0
下载
关闭预览

相关内容

在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
多模态思维链推理:全面综述
专知会员服务
60+阅读 · 2025年3月23日
几何观点下的深度学习
专知会员服务
35+阅读 · 2022年12月13日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
多模态思维链推理:全面综述
专知会员服务
60+阅读 · 2025年3月23日
几何观点下的深度学习
专知会员服务
35+阅读 · 2022年12月13日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员