Thinking with Geometry: Active Geometry Integration for Spatial Reasoning - 专知论文

会员服务 ·

0

集成 · 融合 · 空间推理 · 几何信息 · 门控 ·

Thinking with Geometry: Active Geometry Integration for Spatial Reasoning

翻译：基于几何的思考：面向空间推理的主动几何集成

Haoyuan Li,Qihang Cao,Tao Tang,Kun Xiang,Zihan Guo,Jianhua Han,Hang Xu,Xiaodan Liang

Recent progress in spatial reasoning with Multimodal Large Language Models (MLLMs) increasingly leverages geometric priors from 3D encoders. However, most existing integration strategies remain passive: geometry is exposed as a global stream and fused in an indiscriminate manner, which often induces semantic-geometry misalignment and redundant signals. We propose GeoThinker, a framework that shifts the paradigm from passive fusion to active perception. Instead of feature mixing, GeoThinker enables the model to selectively retrieve geometric evidence conditioned on its internal reasoning demands. GeoThinker achieves this through Spatial-Grounded Fusion applied at carefully selected VLM layers, where semantic visual priors selectively query and integrate task-relevant geometry via frame-strict cross-attention, further calibrated by Importance Gating that biases per-frame attention toward task-relevant structures. Comprehensive evaluation results show that GeoThinker sets a new state-of-the-art in spatial intelligence, achieving a peak score of 72.6 on the VSI-Bench. Furthermore, GeoThinker demonstrates robust generalization and significantly improved spatial perception across complex downstream scenarios, including embodied referring and autonomous driving. Our results indicate that the ability to actively integrate spatial structures is essential for next-generation spatial intelligence. Code can be found at https://github.com/Li-Hao-yuan/GeoThinker.

翻译：近年来，利用多模态大语言模型进行空间推理的研究日益依赖于从3D编码器获取的几何先验。然而，现有的大多数集成策略仍是被动的：几何信息以全局流的形式暴露并以无差别的方式融合，这常常导致语义与几何的错位以及冗余信号。我们提出了GeoThinker框架，该框架将范式从被动融合转向主动感知。不同于特征混合，GeoThinker使模型能够根据其内部推理需求，有选择地检索几何证据。GeoThinker通过在精心选定的视觉语言模型层中应用空间锚定融合来实现这一目标，其中语义视觉先验通过帧严格的交叉注意力机制，有选择地查询并集成与任务相关的几何信息，并进一步通过重要性门控进行校准，该门控使每帧注意力偏向于任务相关的结构。全面的评估结果表明，GeoThinker在空间智能方面确立了新的最先进水平，在VSI-Bench上达到了72.6的峰值分数。此外，GeoThinker在复杂下游场景（包括具身指代和自动驾驶）中展现出强大的泛化能力和显著提升的空间感知能力。我们的结果表明，主动集成空间结构的能力对于下一代空间智能至关重要。代码可在 https://github.com/Li-Hao-yuan/GeoThinker 获取。

0

相关内容

【博士论文】从语言模型到宇宙结构：一种几何视角的探析

【博士论文】从语言模型到宇宙结构：一种几何视角的探析

专知会员服务

22+阅读 · 3月4日

多模态大型语言模型中的空间推理：任务、基准和方法综述

多模态大型语言模型中的空间推理：任务、基准和方法综述

专知会员服务

23+阅读 · 2025年11月21日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

25+阅读 · 2025年11月19日

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

专知会员服务

26+阅读 · 2025年5月16日

多模态思维链推理：全面综述

多模态思维链推理：全面综述

专知会员服务

61+阅读 · 2025年3月23日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

几何观点下的深度学习

几何观点下的深度学习

专知会员服务

36+阅读 · 2022年12月13日

【中科院计算所】深几何学习综述:从表征的角度，A Survey on Deep Geometry Learning: From a Representation Perspective

【中科院计算所】深几何学习综述:从表征的角度，A Survey on Deep Geometry Learning: From a Representation Perspective

专知会员服务

51+阅读 · 2020年2月22日

【报告推荐】三维及超几何处理中的几何与数据学习（Geometry and Learning from Data in 3D and Beyond - Geometric Processing ）

【报告推荐】三维及超几何处理中的几何与数据学习（Geometry and Learning from Data in 3D and Beyond - Geometric Processing ）

专知会员服务

12+阅读 · 2019年11月10日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

最新《几何深度学习》教程，100页ppt，Geometric Deep Learning

最新《几何深度学习》教程，100页ppt，Geometric Deep Learning

专知

13+阅读 · 2020年7月16日

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

开放知识图谱

14+阅读 · 2020年4月8日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

论文浅尝 | 一种用于多关系问答的可解释推理网络

论文浅尝 | 一种用于多关系问答的可解释推理网络

开放知识图谱

18+阅读 · 2019年5月21日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

产业智能官

10+阅读 · 2018年6月23日

深度丨顾险峰：深度学习的几何观点——流形分布定律

深度丨顾险峰：深度学习的几何观点——流形分布定律

德先生

17+阅读 · 2018年6月11日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

15+阅读 · 2018年3月12日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

异源主被动遥感多视立体成像几何模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

几何与随机分析及其应用交叉平台

国家自然科学基金

0+阅读 · 2014年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

函数空间、几何和Mahler测度

国家自然科学基金

0+阅读 · 2014年12月31日

一些几何发展方程中的渐近分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

分形几何中的嵌入问题

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale

Arxiv

0+阅读 · 2月17日

Spatial Chain-of-Thought: Bridging Understanding and Generation Models for Spatial Reasoning Generation

Arxiv

0+阅读 · 2月12日

Thinking with Drafting: Optical Decompression via Logical Reconstruction

Arxiv

0+阅读 · 2月12日

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

Arxiv

0+阅读 · 2月10日

GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs

Arxiv

0+阅读 · 2月10日

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

Arxiv

0+阅读 · 2月9日

GeoFocus: Blending Efficient Global-to-Local Perception for Multimodal Geometry Problem-Solving

Arxiv

0+阅读 · 2月9日

EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning

Arxiv

0+阅读 · 2月7日

Thinking with Geometry: Active Geometry Integration for Spatial Reasoning

Arxiv

0+阅读 · 2月5日

Socratic-Geo: Synthetic Data Generation and Geometric Reasoning via Multi-Agent Interaction

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

7+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

3+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

4+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

4+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

4+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

4+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

5+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

4+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

14+阅读 · 5月28日

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

专知会员服务

14+阅读 · 5月28日

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

专知会员服务

9+阅读 · 5月28日

马赛克防御与分布式指挥：伊朗的回击（中文版）

马赛克防御与分布式指挥：伊朗的回击（中文版）

专知会员服务

10+阅读 · 5月28日

《基于理论的威慑效能评估》

《基于理论的威慑效能评估》

专知会员服务

8+阅读 · 5月28日

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《移动旅级战斗队转型中的支援单元指挥控制挑战》

专知会员服务

15+阅读 · 5月27日

相关VIP内容

【博士论文】从语言模型到宇宙结构：一种几何视角的探析

【博士论文】从语言模型到宇宙结构：一种几何视角的探析

专知会员服务

22+阅读 · 3月4日

多模态大型语言模型中的空间推理：任务、基准和方法综述

多模态大型语言模型中的空间推理：任务、基准和方法综述

专知会员服务

23+阅读 · 2025年11月21日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

25+阅读 · 2025年11月19日

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

专知会员服务

26+阅读 · 2025年5月16日

多模态思维链推理：全面综述

多模态思维链推理：全面综述

专知会员服务

61+阅读 · 2025年3月23日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

几何观点下的深度学习

几何观点下的深度学习

专知会员服务

36+阅读 · 2022年12月13日

【中科院计算所】深几何学习综述:从表征的角度，A Survey on Deep Geometry Learning: From a Representation Perspective

【中科院计算所】深几何学习综述:从表征的角度，A Survey on Deep Geometry Learning: From a Representation Perspective

专知会员服务

51+阅读 · 2020年2月22日

【报告推荐】三维及超几何处理中的几何与数据学习（Geometry and Learning from Data in 3D and Beyond - Geometric Processing ）

【报告推荐】三维及超几何处理中的几何与数据学习（Geometry and Learning from Data in 3D and Beyond - Geometric Processing ）

专知会员服务

12+阅读 · 2019年11月10日

热门VIP内容

开通专知VIP会员享更多权益服务

AutoScientists：自组织智能体团队驱动长期科学实验

战略前沿人工智能的再思考（中文）

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

最新《几何深度学习》教程，100页ppt，Geometric Deep Learning

最新《几何深度学习》教程，100页ppt，Geometric Deep Learning

专知

13+阅读 · 2020年7月16日

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks

开放知识图谱

14+阅读 · 2020年4月8日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

论文浅尝 | 一种用于多关系问答的可解释推理网络

论文浅尝 | 一种用于多关系问答的可解释推理网络

开放知识图谱

18+阅读 · 2019年5月21日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

产业智能官

10+阅读 · 2018年6月23日

深度丨顾险峰：深度学习的几何观点——流形分布定律

深度丨顾险峰：深度学习的几何观点——流形分布定律

德先生

17+阅读 · 2018年6月11日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

15+阅读 · 2018年3月12日

相关论文

Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale

Arxiv

0+阅读 · 2月17日

Spatial Chain-of-Thought: Bridging Understanding and Generation Models for Spatial Reasoning Generation

Arxiv

0+阅读 · 2月12日

Thinking with Drafting: Optical Decompression via Logical Reconstruction

Arxiv

0+阅读 · 2月12日

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

Arxiv

0+阅读 · 2月10日

GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs

Arxiv

0+阅读 · 2月10日

From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models

Arxiv

0+阅读 · 2月9日

GeoFocus: Blending Efficient Global-to-Local Perception for Multimodal Geometry Problem-Solving

Arxiv

0+阅读 · 2月9日

EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning

Arxiv

0+阅读 · 2月7日

Thinking with Geometry: Active Geometry Integration for Spatial Reasoning

Arxiv

0+阅读 · 2月5日

Socratic-Geo: Synthetic Data Generation and Geometric Reasoning via Multi-Agent Interaction

Arxiv

0+阅读 · 2月3日

相关基金

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

异源主被动遥感多视立体成像几何模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图的几何处理和应用

国家自然科学基金

2+阅读 · 2015年12月31日

几何与随机分析及其应用交叉平台

国家自然科学基金

0+阅读 · 2014年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

函数空间、几何和Mahler测度

国家自然科学基金

0+阅读 · 2014年12月31日

一些几何发展方程中的渐近分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

分形几何中的嵌入问题

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员