Spatial understanding is a fundamental cornerstone of human-level intelligence. Nonetheless, current research predominantly focuses on domain-specific data production, leaving a critical void: the absence of a principled, open-source engine capable of fully unleashing the potential of high-quality spatial data. To bridge this gap, we elucidate the design principles of a robust data generation system and introduce OpenSpatial -- an open-source data engine engineered for high quality, extensive scalability, broad task diversity, and optimized efficiency. OpenSpatial adopts 3D bounding boxes as the fundamental primitive to construct a comprehensive data hierarchy across five foundational tasks: Spatial Measurement (SM), Spatial Relationship (SR), Camera Perception (CP), Multi-view Consistency (MC), and Scene-Aware Reasoning (SAR). Leveraging this scalable infrastructure, we curate OpenSpatial-3M, a large-scale dataset comprising 3 million high-fidelity samples. Extensive evaluations demonstrate that versatile models trained on our dataset achieve state-of-the-art performance across a wide spectrum of spatial reasoning benchmarks. Notably, the best-performing model exhibits a substantial average improvement of 19 percent, relatively. Furthermore, we provide a systematic analysis of how data attributes influence spatial perception. By open-sourcing both the engine and the 3M-scale dataset, we provide a robust foundation to accelerate future research in spatial intelligence.


翻译:空间理解是人类级智能的基本基石。然而,当前研究主要集中于特定领域的数据生产,导致一个关键空白:缺少能够充分释放高质量空间数据潜力的规范化开源引擎。为填补这一空白,我们阐明了稳健数据生成系统的设计原则,并推出OpenSpatial——一个面向高质量、大规模可扩展性、广泛任务多样性和优化效率的开源数据引擎。OpenSpatial采用3D边界框作为基本基元,构建了涵盖五项基础任务的全面数据层级:空间测量(SM)、空间关系(SR)、相机感知(CP)、多视角一致性(MC)以及场景感知推理(SAR)。借助这一可扩展的基础架构,我们整理了OpenSpatial-3M——一个包含300万个高保真样本的大规模数据集。广泛评估表明,基于该数据集训练的多功能模型在多种空间推理基准上取得了最先进的性能。值得注意的是,性能最优模型平均相对提升达19%。此外,我们系统分析了数据属性如何影响空间感知。通过开源引擎与300万规模数据集,我们为加速未来空间智能研究提供了坚实基础。

0
下载
关闭预览

相关内容

AI原生数据库发展趋势白皮书
专知会员服务
18+阅读 · 5月16日
空间智能研究报告
专知会员服务
31+阅读 · 2025年5月16日
空间数据智能:概念、技术与挑战
专知会员服务
93+阅读 · 2022年2月3日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
资源 | 清华大学开源OpenKE:知识表示学习平台
机器之心
10+阅读 · 2017年11月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
AI原生数据库发展趋势白皮书
专知会员服务
18+阅读 · 5月16日
空间智能研究报告
专知会员服务
31+阅读 · 2025年5月16日
空间数据智能:概念、技术与挑战
专知会员服务
93+阅读 · 2022年2月3日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员