Exploring Spatial Intelligence from a Generative Perspective - 专知论文

会员服务 ·

0

多模 · 模态 · 空间智能 · 基准 · 基准测试 ·

Exploring Spatial Intelligence from a Generative Perspective

翻译：从生成视角探索空间智能

Muzhi Zhu,Shunyao Jiang,Huanyi Zheng,Zekai Luo,Hao Zhong,Anzhou Li,Kaijun Wang,Jintao Rong,Yang Liu,Hao Chen,Tao Lin,Chunhua Shen

from arxiv, Accepted by CVPR 2026. Project page: https://aim-uofa.github.io/GSI-Bench/

Spatial intelligence is essential for multimodal large language models, yet current benchmarks largely assess it only from an understanding perspective. We ask whether modern generative or unified multimodal models also possess generative spatial intelligence (GSI), the ability to respect and manipulate 3D spatial constraints during image generation, and whether such capability can be measured or improved. We introduce GSI-Bench, the first benchmark designed to quantify GSI through spatially grounded image editing. It consists of two complementary components: GSI-Real, a high-quality real-world dataset built via a 3D-prior-guided generation and filtering pipeline, and GSI-Syn, a large-scale synthetic benchmark with controllable spatial operations and fully automated labeling. Together with a unified evaluation protocol, GSI-Bench enables scalable, model-agnostic assessment of spatial compliance and editing fidelity. Experiments show that fine-tuning unified multimodal models on GSI-Syn yields substantial gains on both synthetic and real tasks and, strikingly, also improves downstream spatial understanding. This provides the first clear evidence that generative training can tangibly strengthen spatial reasoning, establishing a new pathway for advancing spatial intelligence in multimodal models.

翻译：空间智能对于多模态大语言模型至关重要，然而当前基准测试主要仅从理解角度评估该能力。我们探究现代生成式或统一多模态模型是否也具备生成式空间智能（GSI），即在图像生成过程中遵守并操控三维空间约束的能力，以及这种能力是否可被测量或提升。我们提出了GSI-Bench，这是首个通过空间接地图像编辑来量化GSI的基准测试。它包含两个互补组成部分：GSI-Real，一个基于三维先验引导生成与过滤流程构建的高质量真实世界数据集；以及GSI-Syn，一个具有可控空间操作与全自动标注的大规模合成基准测试。结合统一评估协议，GSI-Bench能够实现可扩展的、与模型无关的空间合规性与编辑保真度评估。实验表明，在GSI-Syn上微调统一多模态模型可在合成与真实任务上取得显著提升，且引人注目的是，这也改进了下游空间理解能力。这首次提供了明确证据，证明生成式训练能够切实增强空间推理能力，为推进多模态模型中的空间智能开辟了新途径。

0

相关内容

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

专知会员服务

43+阅读 · 2025年12月16日

美智库《获取生成式人工智能以提升美国防部影响力活动效能》最新报告

美智库《获取生成式人工智能以提升美国防部影响力活动效能》最新报告

专知会员服务

24+阅读 · 2025年7月23日

空间智能研究报告

空间智能研究报告

专知会员服务

31+阅读 · 2025年5月16日

大型语言模型驱动空间智能综述：具身智能体、智慧城市与地球科学的进展

大型语言模型驱动空间智能综述：具身智能体、智慧城市与地球科学的进展

专知会员服务

32+阅读 · 2025年4月19日

视觉中的生成物理人工智能：综述

视觉中的生成物理人工智能：综述

专知会员服务

36+阅读 · 2025年1月26日

生成式人工智能在可视化中的应用：现状与未来方向

生成式人工智能在可视化中的应用：现状与未来方向

专知会员服务

42+阅读 · 2024年6月8日

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

专知会员服务

39+阅读 · 2024年4月19日

从Google Gemini到OpenAI Q*：生成式人工智能（AI）研究领域的综述

从Google Gemini到OpenAI Q*：生成式人工智能（AI）研究领域的综述

专知会员服务

66+阅读 · 2023年12月23日

生成式AI如何用于交通？清华最新《生成式智能交通》综述，详述生成式AI在交通感知、交通预测、交通仿真和交通决策制定的作用

生成式AI如何用于交通？清华最新《生成式智能交通》综述，详述生成式AI在交通感知、交通预测、交通仿真和交通决策制定的作用

专知会员服务

58+阅读 · 2023年12月17日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

27+阅读 · 2019年9月9日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

城市“建成环境——空间行为”的多尺度影响关系与机理研究

国家自然科学基金

13+阅读 · 2017年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多域认知的空天信息网络智能拓扑构建机制基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Arxiv

0+阅读 · 4月30日

3D Generation for Embodied AI and Robotic Simulation: A Survey

Arxiv

0+阅读 · 4月29日

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

Arxiv

0+阅读 · 4月8日

SASAV: Self-Directed Agent for Scientific Analysis and Visualization

Arxiv

0+阅读 · 4月3日

Generative AI User Experience: Developing Human--AI Epistemic Partnership

Arxiv

0+阅读 · 3月25日

Navigational Thinking as an Emerging Paradigm of Computer Science in the Age of Generative AI

Arxiv

0+阅读 · 3月23日

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Arxiv

0+阅读 · 3月19日

Generative AI for Advanced UAV Networking

Arxiv

12+阅读 · 2024年4月16日

A Survey of Generative AI for Intelligent Transportation Systems

Arxiv

20+阅读 · 2023年12月13日

Generative Agents: Interactive Simulacra of Human Behavior

Arxiv

16+阅读 · 2023年8月6日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

3+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

3+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

3+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

3+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

专知会员服务

43+阅读 · 2025年12月16日

美智库《获取生成式人工智能以提升美国防部影响力活动效能》最新报告

美智库《获取生成式人工智能以提升美国防部影响力活动效能》最新报告

专知会员服务

24+阅读 · 2025年7月23日

空间智能研究报告

空间智能研究报告

专知会员服务

31+阅读 · 2025年5月16日

大型语言模型驱动空间智能综述：具身智能体、智慧城市与地球科学的进展

大型语言模型驱动空间智能综述：具身智能体、智慧城市与地球科学的进展

专知会员服务

32+阅读 · 2025年4月19日

视觉中的生成物理人工智能：综述

视觉中的生成物理人工智能：综述

专知会员服务

36+阅读 · 2025年1月26日

生成式人工智能在可视化中的应用：现状与未来方向

生成式人工智能在可视化中的应用：现状与未来方向

专知会员服务

42+阅读 · 2024年6月8日

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

可解释生成人工智能 (GenXAI)：综述、概念化与研究议程

专知会员服务

39+阅读 · 2024年4月19日

从Google Gemini到OpenAI Q*：生成式人工智能（AI）研究领域的综述

从Google Gemini到OpenAI Q*：生成式人工智能（AI）研究领域的综述

专知会员服务

66+阅读 · 2023年12月23日

生成式AI如何用于交通？清华最新《生成式智能交通》综述，详述生成式AI在交通感知、交通预测、交通仿真和交通决策制定的作用

生成式AI如何用于交通？清华最新《生成式智能交通》综述，详述生成式AI在交通感知、交通预测、交通仿真和交通决策制定的作用

专知会员服务

58+阅读 · 2023年12月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

27+阅读 · 2019年9月9日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Arxiv

0+阅读 · 4月30日

3D Generation for Embodied AI and Robotic Simulation: A Survey

Arxiv

0+阅读 · 4月29日

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

Arxiv

0+阅读 · 4月8日

SASAV: Self-Directed Agent for Scientific Analysis and Visualization

Arxiv

0+阅读 · 4月3日

Generative AI User Experience: Developing Human--AI Epistemic Partnership

Arxiv

0+阅读 · 3月25日

Navigational Thinking as an Emerging Paradigm of Computer Science in the Age of Generative AI

Arxiv

0+阅读 · 3月23日

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Arxiv

0+阅读 · 3月19日

Generative AI for Advanced UAV Networking

Arxiv

12+阅读 · 2024年4月16日

A Survey of Generative AI for Intelligent Transportation Systems

Arxiv

20+阅读 · 2023年12月13日

Generative Agents: Interactive Simulacra of Human Behavior

Arxiv

16+阅读 · 2023年8月6日

相关基金

城市“建成环境——空间行为”的多尺度影响关系与机理研究

国家自然科学基金

13+阅读 · 2017年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多域认知的空天信息网络智能拓扑构建机制基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于视频图像处理的神经导航空间配准方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向地图综合的多尺度空间聚类理论与方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于关系语义的空间场景信息理解

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员