Recent advancements in Spatial Intelligence (SI) have predominantly relied on Vision-Language Models (VLMs), yet a critical question remains: does spatial understanding originate from visual encoders or the fundamental reasoning backbone? Inspired by this question, we introduce SiT-Bench, a novel benchmark designed to evaluate the SI performance of Large Language Models (LLMs) without pixel-level input, comprises over 3,800 expert-annotated items across five primary categories and 17 subtasks, ranging from egocentric navigation and perspective transformation to fine-grained robotic manipulation. By converting single/multi-view scenes into high-fidelity, coordinate-aware textual descriptions, we challenge LLMs to perform symbolic textual reasoning rather than visual pattern matching. Evaluation results of state-of-the-art (SOTA) LLMs reveals that while models achieve proficiency in localized semantic tasks, a significant "spatial gap" remains in global consistency. Notably, we find that explicit spatial reasoning significantly boosts performance, suggesting that LLMs possess latent world-modeling potential. Our proposed dataset SiT-Bench serves as a foundational resource to foster the development of spatially-grounded LLM backbones for future VLMs and embodied agents. Our code and benchmark will be released at https://github.com/binisalegend/SiT-Bench .


翻译:空间智能(SI)的最新进展主要依赖于视觉语言模型(VLMs),但一个关键问题仍未解决:空间理解究竟源于视觉编码器还是基础推理架构?受此问题启发,我们提出了SiT-Bench——一个旨在评估大型语言模型(LLMs)在无像素输入条件下空间智能表现的新型基准测试。该基准包含超过3,800项专家标注的测试项,涵盖五大主类别和17个子任务,范围从自我中心导航、视角转换到精细机器人操作。通过将单视图/多视图场景转换为高保真、坐标感知的文本描述,我们要求LLMs进行符号化文本推理而非视觉模式匹配。对前沿LLMs的评估结果表明:虽然模型在局部语义任务中表现熟练,但在全局一致性方面仍存在显著的"空间鸿沟"。值得注意的是,显式空间推理能显著提升模型性能,这表明LLMs具有潜在的世界建模能力。我们提出的SiT-Bench数据集将作为基础资源,推动未来VLMs与具身智能体所需的空间基础LLM架构的发展。代码与基准测试数据将在https://github.com/binisalegend/SiT-Bench 发布。

0
下载
关闭预览

相关内容

大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
可解释人工智能中的大语言模型:全面综述
专知会员服务
53+阅读 · 2025年4月2日
【斯坦福博士论文】大语言模型的AI辅助评估
专知会员服务
31+阅读 · 2025年3月30日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
基于大型语言模型的软件工程智能体综述
专知会员服务
58+阅读 · 2024年9月6日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
实践 | 如何使用深度学习为照片自动生成文本描述?
七月在线实验室
10+阅读 · 2018年5月21日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
可解释人工智能中的大语言模型:全面综述
专知会员服务
53+阅读 · 2025年4月2日
【斯坦福博士论文】大语言模型的AI辅助评估
专知会员服务
31+阅读 · 2025年3月30日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
基于大型语言模型的软件工程智能体综述
专知会员服务
58+阅读 · 2024年9月6日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员