Physically Native World Models: A Hamiltonian Perspective on Generative World Modeling - 专知论文

会员服务 ·

0

世界模型 · 潜在 · 世界建模 · 基元 · 路径 ·

Physically Native World Models: A Hamiltonian Perspective on Generative World Modeling

翻译：《物理基元世界模型：生成式世界建模的哈密顿视角》

Sen Cui,Jingheng Ma

World models have recently re-emerged as a central paradigm for embodied intelligence, robotics, autonomous driving, and model-based reinforcement learning. However, current world model research is often dominated by three partially separated routes: 2D video-generative models that emphasize visual future synthesis, 3D scene-centric models that emphasize spatial reconstruction, and JEPA-like latent models that emphasize abstract predictive representations. While each route has made important progress, they still struggle to provide physically reliable, action-controllable, and long-horizon stable predictions for embodied decision making. In this paper, we argue that the bottleneck of world models is no longer only whether they can generate realistic futures, but whether those futures are physically meaningful and useful for action. We propose \emph{Hamiltonian World Models} as a physically grounded perspective on world modeling. The key idea is to encode observations into a structured latent phase space, evolve the latent state through Hamiltonian-inspired dynamics with control, dissipation, and residual terms, decode the predicted trajectory into future observations, and use the resulting rollouts for planning. We discuss how Hamiltonian structure may improve interpretability, data efficiency, and long-horizon stability, while also noting practical challenges in real-world robotic scenes involving friction, contact, non-conservative forces, and deformable objects.

翻译：世界模型最近重新成为具身智能、机器人学、自动驾驶和基于模型的强化学习的核心范式。然而，当前世界模型研究常被三条部分独立的路径主导：强调视觉未来合成的二维视频生成模型、强调空间重建的三维场景中心模型，以及强调抽象预测表征的JEPA类潜在空间模型。虽然每条路径都取得了重要进展，但它们仍难以为具身决策提供物理可靠、动作可控且长时稳定的预测。本文认为，世界模型的瓶颈已不再仅仅是能否生成逼真的未来，而在于这些未来是否具有物理意义且对动作有用。我们提出"哈密顿世界模型"这一物理基础化的世界建模视角。核心思想是：将观测编码为结构化潜在相空间，通过带控制、耗散和残差项的哈密顿启发动力学演化潜在状态，将预测轨迹解码为未来观测，并利用生成的轨迹进行规划。我们讨论了哈密顿结构如何提升可解释性、数据效率和长时稳定性，同时指出涉及摩擦、接触、非保守力及可变形物体的真实机器人场景中存在的实际挑战。

0

相关内容

世界模型

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

专知会员服务

18+阅读 · 6月10日

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

29+阅读 · 6月2日

《图世界模型：概念、分类体系与未来方向》

《图世界模型：概念、分类体系与未来方向》

专知会员服务

21+阅读 · 5月1日

具身智能中的心理世界建模：深度综述

具身智能中的心理世界建模：深度综述

专知会员服务

39+阅读 · 1月10日

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

专知会员服务

43+阅读 · 2025年12月16日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

31+阅读 · 2025年9月12日

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

31+阅读 · 2025年6月26日

【MIT博士论文】通过神经物理构建世界模型

【MIT博士论文】通过神经物理构建世界模型

专知会员服务

36+阅读 · 2025年4月3日

理解世界还是预测未来？世界模型的综合综述

理解世界还是预测未来？世界模型的综合综述

专知会员服务

78+阅读 · 2024年11月26日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

64+阅读 · 2023年2月5日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

【2022新书】机器学习的实用模拟与合成，428页pdf

【2022新书】机器学习的实用模拟与合成，428页pdf

专知

18+阅读 · 2022年8月10日

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

专知

30+阅读 · 2022年4月23日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

专知

96+阅读 · 2019年9月30日

斯坦福CS236-深度生成模型2019-全套课程资料分享

斯坦福CS236-深度生成模型2019-全套课程资料分享

深度学习与NLP

20+阅读 · 2019年8月20日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于信息密度的广义不确定直觉模糊集成算子及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

Physically Native World Models: A Hamiltonian Perspective on Generative World Modeling

Arxiv

0+阅读 · 5月26日

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Arxiv

0+阅读 · 4月30日

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Arxiv

0+阅读 · 4月24日

A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

Arxiv

0+阅读 · 4月6日

Hierarchical Planning with Latent World Models

Arxiv

0+阅读 · 4月3日

Toward Physically Consistent Driving Video World Models under Challenging Trajectories

Arxiv

0+阅读 · 3月25日

WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

Arxiv

0+阅读 · 3月24日

ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Arxiv

0+阅读 · 3月24日

ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

Arxiv

0+阅读 · 3月23日

EgoForge: Goal-Directed Egocentric World Simulator

Arxiv

0+阅读 · 3月20日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

4+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

6+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

专知会员服务

18+阅读 · 6月10日

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

29+阅读 · 6月2日

《图世界模型：概念、分类体系与未来方向》

《图世界模型：概念、分类体系与未来方向》

专知会员服务

21+阅读 · 5月1日

具身智能中的心理世界建模：深度综述

具身智能中的心理世界建模：深度综述

专知会员服务

39+阅读 · 1月10日

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

【斯坦福博士论文】面向地理空间数据的多模态与多尺度建模：时空生成式人工智能

专知会员服务

43+阅读 · 2025年12月16日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

31+阅读 · 2025年9月12日

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

31+阅读 · 2025年6月26日

【MIT博士论文】通过神经物理构建世界模型

【MIT博士论文】通过神经物理构建世界模型

专知会员服务

36+阅读 · 2025年4月3日

理解世界还是预测未来？世界模型的综合综述

理解世界还是预测未来？世界模型的综合综述

专知会员服务

78+阅读 · 2024年11月26日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

64+阅读 · 2023年2月5日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

【2022新书】机器学习的实用模拟与合成，428页pdf

【2022新书】机器学习的实用模拟与合成，428页pdf

专知

18+阅读 · 2022年8月10日

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

专知

30+阅读 · 2022年4月23日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

GAN新书《生成式深度学习》Generative Deep Learning，附379页全文PDF

专知

96+阅读 · 2019年9月30日

斯坦福CS236-深度生成模型2019-全套课程资料分享

斯坦福CS236-深度生成模型2019-全套课程资料分享

深度学习与NLP

20+阅读 · 2019年8月20日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

相关论文

Physically Native World Models: A Hamiltonian Perspective on Generative World Modeling

Arxiv

0+阅读 · 5月26日

Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling

Arxiv

0+阅读 · 4月30日

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Arxiv

0+阅读 · 4月24日

A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

Arxiv

0+阅读 · 4月6日

Hierarchical Planning with Latent World Models

Arxiv

0+阅读 · 4月3日

Toward Physically Consistent Driving Video World Models under Challenging Trajectories

Arxiv

0+阅读 · 3月25日

WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

Arxiv

0+阅读 · 3月24日

ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Arxiv

0+阅读 · 3月24日

ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

Arxiv

0+阅读 · 3月23日

EgoForge: Goal-Directed Egocentric World Simulator

Arxiv

0+阅读 · 3月20日

相关基金

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于信息密度的广义不确定直觉模糊集成算子及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员