Understanding and replicating the real world is a critical challenge in Artificial General Intelligence (AGI) research. To achieve this, many existing approaches, such as world models, aim to capture the fundamental principles governing the physical world, enabling more accurate simulations and meaningful interactions. However, current methods often treat different modalities, including 2D (images), videos, 3D, and 4D representations, as independent domains, overlooking their interdependencies. Additionally, these methods typically focus on isolated dimensions of reality without systematically integrating their connections. In this survey, we present a unified survey for multimodal generative models that investigate the progression of data dimensionality in real-world simulation. Specifically, this survey starts from 2D generation (appearance), then moves to video (appearance+dynamics) and 3D generation (appearance+geometry), and finally culminates in 4D generation that integrate all dimensions. To the best of our knowledge, this is the first attempt to systematically unify the study of 2D, video, 3D and 4D generation within a single framework. To guide future research, we provide a comprehensive review of datasets, evaluation metrics and future directions, and fostering insights for newcomers. This survey serves as a bridge to advance the study of multimodal generative models and real-world simulation within a unified framework.


翻译:理解并复现现实世界是通用人工智能研究中的关键挑战。为实现这一目标,诸多现有方法(如世界模型)旨在捕捉支配物理世界的基本原理,从而实现更精确的模拟与有意义的交互。然而,当前方法通常将不同模态——包括二维(图像)、视频、三维及四维表征——视为独立领域,忽视了其相互依赖性。此外,这些方法往往聚焦于现实世界的孤立维度,未能系统性地整合其内在关联。本综述提出了一种面向多模态生成模型的统一综述框架,旨在探究现实世界模拟中数据维度的演进路径。具体而言,本综述从二维生成(外观)出发,继而延伸至视频生成(外观+动态)与三维生成(外观+几何),最终汇聚于整合所有维度的四维生成。据我们所知,这是在单一框架内系统性地统一二维、视频、三维及四维生成研究的首次尝试。为引导未来研究,我们全面梳理了相关数据集、评估指标与发展方向,并为新进研究者提供了启发性见解。本综述可作为在统一框架下推进多模态生成模型与真实世界模拟研究的桥梁。

0
下载
关闭预览

相关内容

具身智能中的心理世界建模:深度综述
专知会员服务
28+阅读 · 1月10日
三维与四维世界建模综述
专知会员服务
29+阅读 · 2025年9月12日
从二维到三维认知:通用世界模型简要综述
专知会员服务
29+阅读 · 2025年6月26日
模拟真实世界:多模态生成模型的统一综述
专知会员服务
34+阅读 · 2025年3月7日
自动驾驶的世界模型综述
专知会员服务
42+阅读 · 2025年1月22日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
76+阅读 · 2024年11月26日
多模态大模型时代的全球首篇《具身智能》综述
专知会员服务
76+阅读 · 2024年7月26日
Sora是世界模拟器吗? 世界模型及其以后的综述
专知会员服务
40+阅读 · 2024年5月9日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
基于虚拟现实环境的深度学习模型构建
MOOC
24+阅读 · 2019年9月28日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
具身智能中的心理世界建模:深度综述
专知会员服务
28+阅读 · 1月10日
三维与四维世界建模综述
专知会员服务
29+阅读 · 2025年9月12日
从二维到三维认知:通用世界模型简要综述
专知会员服务
29+阅读 · 2025年6月26日
模拟真实世界:多模态生成模型的统一综述
专知会员服务
34+阅读 · 2025年3月7日
自动驾驶的世界模型综述
专知会员服务
42+阅读 · 2025年1月22日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
76+阅读 · 2024年11月26日
多模态大模型时代的全球首篇《具身智能》综述
专知会员服务
76+阅读 · 2024年7月26日
Sora是世界模拟器吗? 世界模型及其以后的综述
专知会员服务
40+阅读 · 2024年5月9日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员