World models are essential for autonomous robotic planning. However, the substantial computational overhead of existing dense Transformerbased models significantly hinders real-time deployment. To address this efficiency-performance bottleneck, we introduce DDP-WM, a novel world model centered on the principle of Disentangled Dynamics Prediction (DDP). We hypothesize that latent state evolution in observed scenes is heterogeneous and can be decomposed into sparse primary dynamics driven by physical interactions and secondary context-driven background updates. DDP-WM realizes this decomposition through an architecture that integrates efficient historical processing with dynamic localization to isolate primary dynamics. By employing a crossattention mechanism for background updates, the framework optimizes resource allocation and provides a smooth optimization landscape for planners. Extensive experiments demonstrate that DDP-WM achieves significant efficiency and performance across diverse tasks, including navigation, precise tabletop manipulation, and complex deformable or multi-body interactions. Specifically, on the challenging Push-T task, DDP-WM achieves an approximately 9 times inference speedup and improves the MPC success rate from 90% to98% compared to state-of-the-art dense models. The results establish a promising path for developing efficient, high-fidelity world models. Codes will be available at https://github.com/HCPLabSYSU/DDP-WM.


翻译:世界模型对于自主机器人规划至关重要。然而,现有基于密集Transformer的模型存在巨大的计算开销,严重阻碍了实时部署。为解决这一效率与性能瓶颈,我们提出了DDP-WM,这是一种以解耦动态预测(DDP)原理为核心的新型世界模型。我们假设观测场景中的潜在状态演化是异质的,可以分解为由物理交互驱动的稀疏主要动态和由上下文驱动的次要背景更新。DDP-WM通过一种将高效历史处理与动态定位相结合的架构来实现这种分解,从而隔离主要动态。该框架通过采用交叉注意力机制进行背景更新,优化了资源分配,并为规划器提供了平滑的优化空间。大量实验表明,DDP-WM在多种任务中实现了显著的效率和性能提升,包括导航、精确桌面操作以及复杂的可变形或多体交互。具体而言,在具有挑战性的Push-T任务上,与最先进的密集模型相比,DDP-WM实现了约9倍的推理加速,并将MPC成功率从90%提升至98%。这些结果为开发高效、高保真的世界模型指明了一条前景广阔的路径。代码将在 https://github.com/HCPLabSYSU/DDP-WM 发布。

0
下载
关闭预览

相关内容

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
34+阅读 · 2025年4月3日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
76+阅读 · 2024年11月26日
非Transformer不可?最新《状态空间模型(SSM)》综述
专知会员服务
75+阅读 · 2024年4月16日
深度预测学习:模型与应用
专知会员服务
49+阅读 · 2022年12月5日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
概率图模型体系:HMM、MEMM、CRF
机器学习研究会
30+阅读 · 2018年2月10日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员