Despite remarkable progress, multimodal foundation models still exhibit surprising deficiencies in spatial intelligence. In this work, we explore scaling up multimodal foundation models to cultivate spatial intelligence within the SenseNova-SI family, built upon established multimodal foundations including visual understanding models (i.e., Qwen3-VL and InternVL3) and unified understanding and generation models (i.e., Bagel). We take a principled approach to constructing high-performing and robust spatial intelligence by systematically curating SenseNova-SI-8M: eight million diverse data samples under a rigorous taxonomy of spatial capabilities. SenseNova-SI demonstrates unprecedented performance across a broad range of spatial intelligence benchmarks: 68.7% on VSI-Bench, 43.3% on MMSI, 85.6% on MindCube, 54.6% on ViewSpatial, and 50.1% on SITE, while maintaining strong general multimodal understanding (e.g., 84.9% on MMBench-En). More importantly, we analyze the impact of data scaling, discuss early signs of emergent generalization capabilities enabled by diverse data training, analyze the risk of overfitting and language shortcuts, present a preliminary study on spatial chain-of-thought reasoning, and validate the potential downstream application. SenseNova-SI is an ongoing project, and this report will be updated continuously. All newly trained multimodal foundation models are publicly released to facilitate further research in this direction.


翻译:尽管取得了显著进展,多模态基础模型在空间智能方面仍表现出令人惊讶的不足。在本工作中,我们探索通过扩展多模态基础模型来培养SenseNova-SI系列中的空间智能,该系列建立在成熟的多模态基础之上,包括视觉理解模型(即Qwen3-VL和InternVL3)以及统一的理解与生成模型(即Bagel)。我们采用一种原则性的方法来构建高性能且鲁棒的空间智能,即通过系统性地构建SenseNova-SI-8M:一个在严格的空间能力分类体系下包含八百万个多样化数据样本的数据集。SenseNova-SI在一系列广泛的空间智能基准测试中展现了前所未有的性能:在VSI-Bench上达到68.7%,在MMSI上达到43.3%,在MindCube上达到85.6%,在ViewSpatial上达到54.6%,在SITE上达到50.1%,同时保持了强大的通用多模态理解能力(例如,在MMBench-En上达到84.9%)。更重要的是,我们分析了数据扩展的影响,讨论了通过多样化数据训练所带来的涌现泛化能力的早期迹象,分析了过拟合和语言捷径的风险,提出了关于空间思维链推理的初步研究,并验证了潜在的下游应用。SenseNova-SI是一个持续进行的项目,本报告将持续更新。所有新训练的多模态基础模型均已公开发布,以促进该方向的进一步研究。

0
下载
关闭预览

相关内容

多模态空间推理在大模型时代:综述与基准测试
专知会员服务
14+阅读 · 2025年10月30日
《遥感基础模型研究综述:从视觉到多模态的演进》
专知会员服务
18+阅读 · 2025年3月31日
通用多模态人工智能:架构、挑战和机遇综述
专知会员服务
52+阅读 · 2024年6月29日
多模态深度学习
专知会员服务
136+阅读 · 2023年1月15日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员