Spatial reasoning is a fundamental aspect of human cognition, yet it remains a major challenge for contemporary vision-language models (VLMs). Prior work largely relied on synthetic or LLM-generated environments with limited task designs and puzzle-like setups, failing to capture the real-world complexity, visual noise, and diverse spatial relationships that VLMs encounter. To address this, we introduce SpatiaLab, a comprehensive benchmark for evaluating VLMs' spatial reasoning in realistic, unconstrained contexts. SpatiaLab comprises 1,400 visual question-answer pairs across six major categories: Relative Positioning, Depth & Occlusion, Orientation, Size & Scale, Spatial Navigation, and 3D Geometry, each with five subcategories, yielding 30 distinct task types. Each subcategory contains at least 25 questions, and each main category includes at least 200 questions, supporting both multiple-choice and open-ended evaluation. Experiments across diverse state-of-the-art VLMs, including open- and closed-source models, reasoning-focused, and specialized spatial reasoning models, reveal a substantial gap in spatial reasoning capabilities compared with humans. In the multiple-choice setup, InternVL3.5-72B achieves 54.93% accuracy versus 87.57% for humans. In the open-ended setting, all models show a performance drop of around 10-25%, with GPT-5-mini scoring highest at 40.93% versus 64.93% for humans. These results highlight key limitations in handling complex spatial relationships, depth perception, navigation, and 3D geometry. By providing a diverse, real-world evaluation framework, SpatiaLab exposes critical challenges and opportunities for advancing VLMs' spatial reasoning, offering a benchmark to guide future research toward robust, human-aligned spatial understanding. SpatiaLab is available at: https://spatialab-reasoning.github.io/.


翻译:空间推理是人类认知的基本方面,但仍是当代视觉-语言模型面临的主要挑战。先前工作主要依赖合成或大语言模型生成的环境,其任务设计有限且多为谜题式设置,未能捕捉视觉-语言模型在现实世界中遇到的复杂性、视觉噪声和多样化的空间关系。为解决此问题,我们提出了SpatiaLab——一个用于在真实、无约束场景中评估视觉-语言模型空间推理能力的综合基准。SpatiaLab包含1,400个视觉问答对,涵盖六大类别:相对定位、深度与遮挡、方向、尺寸与尺度、空间导航和三维几何,每个大类下设五个子类,共形成30种不同的任务类型。每个子类至少包含25个问题,每个主类至少包含200个问题,支持多项选择和开放式两种评估方式。通过对多种先进视觉-语言模型(包括开源与闭源模型、专注推理的模型以及专门的空间推理模型)的实验,发现其空间推理能力与人类存在显著差距。在多项选择设置中,InternVL3.5-72B的准确率为54.93%,而人类为87.57%。在开放式设置中,所有模型的性能下降约10-25%,GPT-5-mini以40.93%的准确率位列最高,人类则为64.93%。这些结果凸显了模型在处理复杂空间关系、深度感知、导航和三维几何方面的关键局限。通过提供多样化的真实世界评估框架,SpatiaLab揭示了推进视觉-语言模型空间推理能力的关键挑战与机遇,为未来研究实现稳健且与人类对齐的空间理解提供了基准。SpatiaLab可通过以下网址访问:https://spatialab-reasoning.github.io/。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
33+阅读 · 1月21日
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
LlamaV-o1: 重新思考大语言模型中的逐步视觉推理
专知会员服务
9+阅读 · 2025年1月14日
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
65+阅读 · 2021年12月1日
专知会员服务
32+阅读 · 2021年3月17日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
大语言模型的智能体化推理
专知会员服务
33+阅读 · 1月21日
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
LlamaV-o1: 重新思考大语言模型中的逐步视觉推理
专知会员服务
9+阅读 · 2025年1月14日
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
【博士论文】视觉语言交互中的视觉推理研究
专知会员服务
65+阅读 · 2021年12月1日
专知会员服务
32+阅读 · 2021年3月17日
相关资讯
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员