Recent advancements in Spatial Intelligence (SI) have predominantly relied on Vision-Language Models (VLMs), yet a critical question remains: does spatial understanding originate from visual encoders or the fundamental reasoning backbone? Inspired by this question, we introduce SiT-Bench, a novel benchmark designed to evaluate the SI performance of Large Language Models (LLMs) without pixel-level input, comprises over 3,800 expert-annotated items across five primary categories and 17 subtasks, ranging from egocentric navigation and perspective transformation to fine-grained robotic manipulation. By converting single/multi-view scenes into high-fidelity, coordinate-aware textual descriptions, we challenge LLMs to perform symbolic textual reasoning rather than visual pattern matching. Evaluation results of state-of-the-art (SOTA) LLMs reveals that while models achieve proficiency in localized semantic tasks, a significant "spatial gap" remains in global consistency. Notably, we find that explicit spatial reasoning significantly boosts performance, suggesting that LLMs possess latent world-modeling potential. Our proposed dataset SiT-Bench serves as a foundational resource to foster the development of spatially-grounded LLM backbones for future VLMs and embodied agents. Our code and benchmark will be released at https://github.com/binisalegend/SiT-Bench .


翻译:空间智能(SI)的最新进展主要依赖于视觉语言模型(VLMs),但一个关键问题仍未解决:空间理解究竟源于视觉编码器还是基础推理架构?受此问题启发,我们提出了SiT-Bench——一个旨在评估大型语言模型(LLMs)在无像素输入条件下空间智能表现的新型基准测试。该基准包含超过3,800项专家标注的测试项,涵盖五大主类别和17个子任务,范围从自我中心导航、视角转换到精细机器人操作。通过将单视图/多视图场景转换为高保真、坐标感知的文本描述,我们要求LLMs进行符号化文本推理而非视觉模式匹配。对前沿LLMs的评估结果表明:虽然模型在局部语义任务中表现熟练,但在全局一致性方面仍存在显著的"空间鸿沟"。值得注意的是,显式空间推理能显著提升模型性能,这表明LLMs具有潜在的世界建模能力。我们提出的SiT-Bench数据集将作为基础资源,推动未来VLMs与具身智能体所需的空间基础LLM架构的发展。代码与基准测试数据将在https://github.com/binisalegend/SiT-Bench 发布。

0
下载
关闭预览

相关内容

AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员