Thinking in Structures: Evaluating Spatial Intelligence through Reasoning on Constrained Manifolds - 专知论文

会员服务 ·

0

约束 · 结构 · 流形 · 基准 · 空间智能 ·

Thinking in Structures: Evaluating Spatial Intelligence through Reasoning on Constrained Manifolds

翻译：在结构中思考：通过约束流形上的推理评估空间智能

Chen Yang,Guanxin Lin,Youquan He,Peiyao Chen,Guanghe Liu,Yufan Mo,Zhouyuan Xu,Linhao Wang,Guohui Zhang,Zihang Zhang,Shenxiang Zeng,Chen Wang,Jiansheng Fan

Spatial intelligence is crucial for vision--language models (VLMs) in the physical world, yet many benchmarks evaluate largely unconstrained scenes where models can exploit 2D shortcuts. We introduce SSI-Bench, a VQA benchmark for spatial reasoning on constrained manifolds, built from complex real-world 3D structures whose feasible configurations are tightly governed by geometric, topological, and physical constraints. SSI-Bench contains 1,000 ranking questions spanning geometric and topological reasoning and requiring a diverse repertoire of compositional spatial operations, such as mental rotation, cross-sectional inference, occlusion reasoning, and force-path reasoning. It is created via a fully human-centered pipeline: ten researchers spent over 400 hours curating images, annotating structural components, and designing questions to minimize pixel-level cues. Evaluating 31 widely used VLMs reveals a large gap to humans: the best open-source model achieves 22.2% accuracy and the strongest closed-source model reaches 33.6%, while humans score 91.6%. Encouraging models to think yields only marginal gains, and error analysis points to failures in structural grounding and constraint-consistent 3D reasoning. Project page: https://ssi-bench.github.io.

翻译：空间智能对于视觉-语言模型（VLMs）在物理世界中的运用至关重要，然而现有基准测试大多评估的是几乎无约束的场景，使得模型可以利用二维捷径。我们提出了SSI-Bench，这是一个用于约束流形上空间推理的视觉问答基准，它基于复杂的真实世界三维结构构建，其可行配置受到几何、拓扑和物理约束的严格限制。SSI-Bench包含1000个排序问题，涵盖几何与拓扑推理，并要求模型具备多样化的组合空间操作能力，例如心理旋转、截面推断、遮挡推理和力路径推理。该基准通过完全以人为中心的流程创建：十名研究人员花费超过400小时来筛选图像、标注结构组件并设计问题，以最小化像素级线索。对31个广泛使用的VLMs进行评估后，发现其与人类表现存在巨大差距：最佳开源模型的准确率为22.2%，最强的闭源模型达到33.6%，而人类得分高达91.6%。鼓励模型进行思考仅带来边际收益，错误分析则指向其在结构基础化和约束一致的三维推理方面的失败。项目页面：https://ssi-bench.github.io。

0

相关内容

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

专知会员服务

17+阅读 · 4月11日

多模态大型语言模型中的空间推理：任务、基准和方法综述

多模态大型语言模型中的空间推理：任务、基准和方法综述

专知会员服务

23+阅读 · 2025年11月21日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

26+阅读 · 2025年11月19日

【ICML2025】《引入推理于视觉：通过模型融合理解感知与推理》

【ICML2025】《引入推理于视觉：通过模型融合理解感知与推理》

专知会员服务

17+阅读 · 2025年5月12日

视觉-语言模型在物体检测与分割中的应用：综述与评估

视觉-语言模型在物体检测与分割中的应用：综述与评估

专知会员服务

25+阅读 · 2025年4月28日

大型语言模型驱动空间智能综述：具身智能体、智慧城市与地球科学的进展

大型语言模型驱动空间智能综述：具身智能体、智慧城市与地球科学的进展

专知会员服务

32+阅读 · 2025年4月19日

如何赋予大型语言模型三维能力？—大型语言模型中的空间推理综述

如何赋予大型语言模型三维能力？—大型语言模型中的空间推理综述

专知会员服务

22+阅读 · 2025年4月10日

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

专知会员服务

31+阅读 · 2024年11月19日

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

专知会员服务

54+阅读 · 2023年9月13日

【机器推理可解释性】Machine Reasoning Explainability

【机器推理可解释性】Machine Reasoning Explainability

专知会员服务

35+阅读 · 2020年9月3日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

119+阅读 · 2022年9月1日

人工智能技术在军事领域的应用思考

人工智能技术在军事领域的应用思考

专知

49+阅读 · 2022年6月11日

【混合智能】有关军事混合智能的思考

【混合智能】有关军事混合智能的思考

产业智能官

15+阅读 · 2020年5月17日

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

专知

14+阅读 · 2019年11月25日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【混合智能】人机混合智能的哲学思考

【混合智能】人机混合智能的哲学思考

产业智能官

12+阅读 · 2018年10月28日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

时空上下文感知的云服务质量预测和推荐的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构相似性的综合滤波器组优化设计理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

Evaluating VLMs' Spatial Reasoning Over Robot Motion: A Step Towards Robot Planning with Motion Preferences

Arxiv

0+阅读 · 3月13日

Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning

Arxiv

0+阅读 · 2月24日

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability

Arxiv

0+阅读 · 2月19日

Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning

Arxiv

0+阅读 · 2月18日

Spatial Chain-of-Thought: Bridging Understanding and Generation Models for Spatial Reasoning Generation

Arxiv

0+阅读 · 2月12日

Canvas-of-Thought: Grounding Reasoning via Mutable Structured States

Arxiv

0+阅读 · 2月11日

Thinking with Geometry: Active Geometry Integration for Spatial Reasoning

Arxiv

0+阅读 · 2月10日

Thinking with Geometry: Active Geometry Integration for Spatial Reasoning

Arxiv

0+阅读 · 2月5日

Think3D: Thinking with Space for Spatial Reasoning

Arxiv

0+阅读 · 2月4日

Structured Over Scale: Learning Spatial Reasoning from Educational Video

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

综述 | Memory for Large Language Models：大模型记忆机制全景

综述 | Memory for Large Language Models：大模型记忆机制全景

专知会员服务

0+阅读 · 今天14:26

博士论文 | Riemannian Deep Learning：模块、网络与几何

博士论文 | Riemannian Deep Learning：模块、网络与几何

专知会员服务

0+阅读 · 今天14:13

《越野作战环境下路径规划的多准则整数规划模型》

《越野作战环境下路径规划的多准则整数规划模型》

专知会员服务

5+阅读 · 今天8:06

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

专知会员服务

3+阅读 · 今天8:00

《防空系统对自主武器系统辩论中“有意义的人类控制”的启示》70页报告

《防空系统对自主武器系统辩论中“有意义的人类控制”的启示》70页报告

专知会员服务

3+阅读 · 今天7:53

“对标ChatGPT”：乌军研发Marichka AI系统用于战场筹划

“对标ChatGPT”：乌军研发Marichka AI系统用于战场筹划

专知会员服务

7+阅读 · 今天7:49

《同步多无人机系统中的故障与通信》

《同步多无人机系统中的故障与通信》

专知会员服务

2+阅读 · 今天6:23

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

专知会员服务

3+阅读 · 7月28日

博士论文 | 从算法到基础模型：强化学习的统一视角

博士论文 | 从算法到基础模型：强化学习的统一视角

专知会员服务

8+阅读 · 7月28日

面向国防作战的最佳自主与蜂群无人机技术

面向国防作战的最佳自主与蜂群无人机技术

专知会员服务

7+阅读 · 7月28日

《异构人类团队的协作决策过程混合建模研究》

《异构人类团队的协作决策过程混合建模研究》

专知会员服务

8+阅读 · 7月28日

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

8+阅读 · 7月28日

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

9+阅读 · 7月28日

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

6+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

11+阅读 · 7月27日

相关VIP内容

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

大视觉语言模型的高效推理：瓶颈剖析、关键技术与未来展望

专知会员服务

17+阅读 · 4月11日

多模态大型语言模型中的空间推理：任务、基准和方法综述

多模态大型语言模型中的空间推理：任务、基准和方法综述

专知会员服务

23+阅读 · 2025年11月21日

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

26+阅读 · 2025年11月19日

【ICML2025】《引入推理于视觉：通过模型融合理解感知与推理》

【ICML2025】《引入推理于视觉：通过模型融合理解感知与推理》

专知会员服务

17+阅读 · 2025年5月12日

视觉-语言模型在物体检测与分割中的应用：综述与评估

视觉-语言模型在物体检测与分割中的应用：综述与评估

专知会员服务

25+阅读 · 2025年4月28日

大型语言模型驱动空间智能综述：具身智能体、智慧城市与地球科学的进展

大型语言模型驱动空间智能综述：具身智能体、智慧城市与地球科学的进展

专知会员服务

32+阅读 · 2025年4月19日

如何赋予大型语言模型三维能力？—大型语言模型中的空间推理综述

如何赋予大型语言模型三维能力？—大型语言模型中的空间推理综述

专知会员服务

22+阅读 · 2025年4月10日

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

专知会员服务

31+阅读 · 2024年11月19日

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

【大模型最新论文】测量和改进视觉语言模型中的思维链推理

专知会员服务

54+阅读 · 2023年9月13日

【机器推理可解释性】Machine Reasoning Explainability

【机器推理可解释性】Machine Reasoning Explainability

专知会员服务

35+阅读 · 2020年9月3日

热门VIP内容

开通专知VIP会员享更多权益服务

博士论文 | Riemannian Deep Learning：模块、网络与几何

人工智能大语言模型引擎如何重塑全球冲突信息环境最新50页

综述 | Memory for Large Language Models：大模型记忆机制全景

《越野作战环境下路径规划的多准则整数规划模型》

相关资讯

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

119+阅读 · 2022年9月1日

人工智能技术在军事领域的应用思考

人工智能技术在军事领域的应用思考

专知

49+阅读 · 2022年6月11日

【混合智能】有关军事混合智能的思考

【混合智能】有关军事混合智能的思考

产业智能官

15+阅读 · 2020年5月17日

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

专知

14+阅读 · 2019年11月25日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【混合智能】人机混合智能的哲学思考

【混合智能】人机混合智能的哲学思考

产业智能官

12+阅读 · 2018年10月28日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

相关论文

Evaluating VLMs' Spatial Reasoning Over Robot Motion: A Step Towards Robot Planning with Motion Preferences

Arxiv

0+阅读 · 3月13日

Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning

Arxiv

0+阅读 · 2月24日

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability

Arxiv

0+阅读 · 2月19日

Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning

Arxiv

0+阅读 · 2月18日

Spatial Chain-of-Thought: Bridging Understanding and Generation Models for Spatial Reasoning Generation

Arxiv

0+阅读 · 2月12日

Canvas-of-Thought: Grounding Reasoning via Mutable Structured States

Arxiv

0+阅读 · 2月11日

Thinking with Geometry: Active Geometry Integration for Spatial Reasoning

Arxiv

0+阅读 · 2月10日

Thinking with Geometry: Active Geometry Integration for Spatial Reasoning

Arxiv

0+阅读 · 2月5日

Think3D: Thinking with Space for Spatial Reasoning

Arxiv

0+阅读 · 2月4日

Structured Over Scale: Learning Spatial Reasoning from Educational Video

Arxiv

0+阅读 · 1月30日

相关基金

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

时空上下文感知的云服务质量预测和推荐的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构相似性的综合滤波器组优化设计理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员