World models have recently re-emerged as a central paradigm for embodied intelligence, robotics, autonomous driving, and model-based reinforcement learning. However, current world model research is often dominated by three partially separated routes: 2D video-generative models that emphasize visual future synthesis, 3D scene-centric models that emphasize spatial reconstruction, and JEPA-like latent models that emphasize abstract predictive representations. While each route has made important progress, they still struggle to provide physically reliable, action-controllable, and long-horizon stable predictions for embodied decision making. In this paper, we argue that the bottleneck of world models is no longer only whether they can generate realistic futures, but whether those futures are physically meaningful and useful for action. We propose \emph{Hamiltonian World Models} as a physically grounded perspective on world modeling. The key idea is to encode observations into a structured latent phase space, evolve the latent state through Hamiltonian-inspired dynamics with control, dissipation, and residual terms, decode the predicted trajectory into future observations, and use the resulting rollouts for planning. We discuss how Hamiltonian structure may improve interpretability, data efficiency, and long-horizon stability, while also noting practical challenges in real-world robotic scenes involving friction, contact, non-conservative forces, and deformable objects.


翻译:世界模型最近重新成为具身智能、机器人学、自动驾驶和基于模型的强化学习的核心范式。然而,当前世界模型研究常被三条部分独立的路径主导:强调视觉未来合成的二维视频生成模型、强调空间重建的三维场景中心模型,以及强调抽象预测表征的JEPA类潜在空间模型。虽然每条路径都取得了重要进展,但它们仍难以为具身决策提供物理可靠、动作可控且长时稳定的预测。本文认为,世界模型的瓶颈已不再仅仅是能否生成逼真的未来,而在于这些未来是否具有物理意义且对动作有用。我们提出"哈密顿世界模型"这一物理基础化的世界建模视角。核心思想是:将观测编码为结构化潜在相空间,通过带控制、耗散和残差项的哈密顿启发动力学演化潜在状态,将预测轨迹解码为未来观测,并利用生成的轨迹进行规划。我们讨论了哈密顿结构如何提升可解释性、数据效率和长时稳定性,同时指出涉及摩擦、接触、非保守力及可变形物体的真实机器人场景中存在的实际挑战。

0
下载
关闭预览

相关内容

《图世界模型:概念、分类体系与未来方向》
专知会员服务
21+阅读 · 5月1日
具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
三维与四维世界建模综述
专知会员服务
31+阅读 · 2025年9月12日
从二维到三维认知:通用世界模型简要综述
专知会员服务
31+阅读 · 2025年6月26日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
36+阅读 · 2025年4月3日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
78+阅读 · 2024年11月26日
斯坦福CS236-深度生成模型2019-全套课程资料分享
深度学习与NLP
20+阅读 · 2019年8月20日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
2+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
21+阅读 · 5月1日
具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
三维与四维世界建模综述
专知会员服务
31+阅读 · 2025年9月12日
从二维到三维认知:通用世界模型简要综述
专知会员服务
31+阅读 · 2025年6月26日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
36+阅读 · 2025年4月3日
理解世界还是预测未来?世界模型的综合综述
专知会员服务
78+阅读 · 2024年11月26日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员