We propose X-WAM, a Unified 4D World Model that unifies real-time robotic action execution and high-fidelity 4D world synthesis (video + 3D reconstruction) in a single framework, addressing the critical limitations of prior unified world models (e.g., UWM) that only model 2D pixel-space and fail to balance action efficiency and world modeling quality. To leverage the strong visual priors of pretrained video diffusion models, X-WAM imagines the future world by predicting multi-view RGB-D videos, and obtains spatial information efficiently through a lightweight structural adaptation: replicating the final few blocks of the pretrained Diffusion Transformer into a dedicated depth prediction branch for the reconstruction of future spatial information. Moreover, we propose Asynchronous Noise Sampling (ANS) to jointly optimize generation quality and action decoding efficiency. ANS applies a specialized asynchronous denoising schedule during inference, which rapidly decodes actions with fewer steps to enable efficient real-time execution, while dedicating the full sequence of steps to generate high-fidelity video. Rather than entirely decoupling the timesteps during training, ANS samples from their joint distribution to align with the inference distribution. Pretrained on over 5,800 hours of robotic data, X-WAM achieves 79.2% and 90.7% average success rate on RoboCasa and RoboTwin 2.0 benchmarks, while producing high-fidelity 4D reconstruction and generation surpassing existing methods in both visual and geometric metrics.


翻译:我们提出X-WAM,一种统一4D世界模型,将实时机器人动作执行与高保真4D世界合成(视频+3D重建)统一于单一框架中,解决了先前统一世界模型(如UWM)仅建模2D像素空间、且无法平衡动作效率与世界建模质量的关键局限性。为利用预训练视频扩散模型强大的视觉先验,X-WAM通过预测多视角RGB-D视频来想象未来世界,并通过轻量级结构适配高效获取空间信息:将预训练扩散变换器的最后几个模块复制到专用深度预测分支中,用于重建未来空间信息。此外,我们提出异步噪声采样(ANS)以联合优化生成质量与动作解码效率。ANS在推理过程中采用专门的异步去噪调度,以较少步骤快速解码动作从而实现高效实时执行,同时将完整步骤序列用于生成高保真视频。ANS并非在训练时完全解耦时间步长,而是从其联合分布中采样以与推理分布对齐。在超过5800小时机器人数据上预训练的X-WAM,在RoboCasa和RoboTwin 2.0基准测试中分别达到79.2%和90.7%的平均成功率,同时产生的高保真4D重建与生成在视觉和几何指标上均超越现有方法。

0
下载
关闭预览

相关内容

世界动作模型: 具身AI的下一个前沿
专知会员服务
22+阅读 · 5月13日
【CMU博士论文】迈向基于基础先验的 4D 感知研究
【NVDIA】世界动作模型是零样本策略
专知会员服务
13+阅读 · 2月21日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
26+阅读 · 2025年10月22日
三维与四维世界建模综述
专知会员服务
31+阅读 · 2025年9月12日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
21+阅读 · 2025年8月29日
【CVPR2025】具有显式3D建模的世界一致性视频扩散
专知会员服务
11+阅读 · 2025年2月27日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
【泡泡一分钟】基于紧凑模型表示的三维重建(3dv-12)
泡泡机器人SLAM
10+阅读 · 2017年12月7日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
世界动作模型: 具身AI的下一个前沿
专知会员服务
22+阅读 · 5月13日
【CMU博士论文】迈向基于基础先验的 4D 感知研究
【NVDIA】世界动作模型是零样本策略
专知会员服务
13+阅读 · 2月21日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
26+阅读 · 2025年10月22日
三维与四维世界建模综述
专知会员服务
31+阅读 · 2025年9月12日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
21+阅读 · 2025年8月29日
【CVPR2025】具有显式3D建模的世界一致性视频扩散
专知会员服务
11+阅读 · 2025年2月27日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员