Spatial intelligence is crucial for vision--language models (VLMs) in the physical world, yet many benchmarks evaluate largely unconstrained scenes where models can exploit 2D shortcuts. We introduce SSI-Bench, a VQA benchmark for spatial reasoning on constrained manifolds, built from complex real-world 3D structures whose feasible configurations are tightly governed by geometric, topological, and physical constraints. SSI-Bench contains 1,000 ranking questions spanning geometric and topological reasoning and requiring a diverse repertoire of compositional spatial operations, such as mental rotation, cross-sectional inference, occlusion reasoning, and force-path reasoning. It is created via a fully human-centered pipeline: ten researchers spent over 400 hours curating images, annotating structural components, and designing questions to minimize pixel-level cues. Evaluating 31 widely used VLMs reveals a large gap to humans: the best open-source model achieves 22.2% accuracy and the strongest closed-source model reaches 33.6%, while humans score 91.6%. Encouraging models to think yields only marginal gains, and error analysis points to failures in structural grounding and constraint-consistent 3D reasoning. Project page: https://ssi-bench.github.io.


翻译:空间智能对于视觉-语言模型(VLMs)在物理世界中的运用至关重要,然而现有基准测试大多评估的是几乎无约束的场景,使得模型可以利用二维捷径。我们提出了SSI-Bench,这是一个用于约束流形上空间推理的视觉问答基准,它基于复杂的真实世界三维结构构建,其可行配置受到几何、拓扑和物理约束的严格限制。SSI-Bench包含1000个排序问题,涵盖几何与拓扑推理,并要求模型具备多样化的组合空间操作能力,例如心理旋转、截面推断、遮挡推理和力路径推理。该基准通过完全以人为中心的流程创建:十名研究人员花费超过400小时来筛选图像、标注结构组件并设计问题,以最小化像素级线索。对31个广泛使用的VLMs进行评估后,发现其与人类表现存在巨大差距:最佳开源模型的准确率为22.2%,最强的闭源模型达到33.6%,而人类得分高达91.6%。鼓励模型进行思考仅带来边际收益,错误分析则指向其在结构基础化和约束一致的三维推理方面的失败。项目页面:https://ssi-bench.github.io。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
24+阅读 · 2025年11月19日
视觉-语言模型在物体检测与分割中的应用:综述与评估
专知会员服务
25+阅读 · 2025年4月28日
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
35+阅读 · 2020年9月3日
人工智能技术在军事领域的应用思考
专知
45+阅读 · 2022年6月11日
【混合智能】有关军事混合智能的思考
产业智能官
14+阅读 · 2020年5月17日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员