ContactGaussian-WM：从视频中学习基于物理的世界模型 (ContactGaussian-WM: Learning Physics-Grounded World Model from Videos) - 专知论文

会员服务 ·

0

视频 · 基于物理 · 世界模型 · 稀疏 · 交互 ·

ContactGaussian-WM: Learning Physics-Grounded World Model from Videos

翻译：ContactGaussian-WM：从视频中学习基于物理的世界模型

Meizhong Wang,Wanxin Jin,Kun Cao,Lihua Xie,Yiguang Hong

Developing world models that understand complex physical interactions is essential for advancing robotic planning and simulation.However, existing methods often struggle to accurately model the environment under conditions of data scarcity and complex contact-rich dynamic motion.To address these challenges, we propose ContactGaussian-WM, a differentiable physics-grounded rigid-body world model capable of learning intricate physical laws directly from sparse and contact-rich video sequences.Our framework consists of two core components: (1) a unified Gaussian representation for both visual appearance and collision geometry, and (2) an end-to-end differentiable learning framework that differentiates through a closed-form physics engine to infer physical properties from sparse visual observations.Extensive simulations and real-world evaluations demonstrate that ContactGaussian-WM outperforms state-of-the-art methods in learning complex scenarios, exhibiting robust generalization capabilities.Furthermore, we showcase the practical utility of our framework in downstream applications, including data synthesis and real-time MPC.

翻译：开发能够理解复杂物理交互的世界模型对于推进机器人规划与仿真至关重要。然而，现有方法在数据稀缺和接触丰富的复杂动态运动条件下，往往难以准确建模环境。为应对这些挑战，我们提出了ContactGaussian-WM，一种可微分的、基于物理的刚体世界模型，能够直接从稀疏且接触丰富的视频序列中学习复杂的物理规律。我们的框架包含两个核心组件：(1) 用于视觉外观与碰撞几何的统一高斯表示，以及 (2) 一个端到端的可微分学习框架，该框架通过一个闭式物理引擎进行微分，以从稀疏视觉观测中推断物理属性。大量的仿真与真实世界评估表明，ContactGaussian-WM在学习复杂场景方面优于现有最先进方法，并展现出强大的泛化能力。此外，我们展示了该框架在下游应用中的实际效用，包括数据合成与实时模型预测控制。

0

相关内容

视频

具身智能中的心理世界建模：深度综述

具身智能中的心理世界建模：深度综述

专知会员服务

28+阅读 · 1月10日

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

专知会员服务

29+阅读 · 2025年10月9日

【新书】基于物理的模拟

【新书】基于物理的模拟

专知会员服务

22+阅读 · 2025年7月25日

具身智能学习综述：基于物理模拟器与世界模型的方法

具身智能学习综述：基于物理模拟器与世界模型的方法

专知会员服务

32+阅读 · 2025年7月2日

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

29+阅读 · 2025年6月26日

【MIT博士论文】通过神经物理构建世界模型

【MIT博士论文】通过神经物理构建世界模型

专知会员服务

34+阅读 · 2025年4月3日

【NVDIA】Cosmos世界基础模型平台用于物理人工智能

【NVDIA】Cosmos世界基础模型平台用于物理人工智能

专知会员服务

27+阅读 · 2025年1月13日

【斯坦福博士论文】从互联网视频中学习感知物理世界

【斯坦福博士论文】从互联网视频中学习感知物理世界

专知会员服务

23+阅读 · 2024年12月30日

世界模型：安全性视角

世界模型：安全性视角

专知会员服务

40+阅读 · 2024年11月17日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

63+阅读 · 2023年2月5日

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

懂一点物理的人工智能

懂一点物理的人工智能

PaperWeekly

14+阅读 · 2019年12月5日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

机器之心

23+阅读 · 2019年4月13日

亚马逊首席科学家MXNet作者李沐开讲: 伯克利2019深度学习课程，不可错过

亚马逊首席科学家MXNet作者李沐开讲: 伯克利2019深度学习课程，不可错过

专知

12+阅读 · 2018年12月23日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

深度学习与物理学的大碰撞思考（附slides下载）

深度学习与物理学的大碰撞思考（附slides下载）

专知

14+阅读 · 2017年11月30日

基于多元互信息和快速稀疏多核学习的高光谱遥感影像地物分类

国家自然科学基金

0+阅读 · 2015年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

基于混合多址的物与物通信资源分配技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于螺旋理论的空间近距离相对运动建模方法与姿轨耦合控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

一种面向非共格性界面的分级式多尺度力学模型及应用

国家自然科学基金

0+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

VisPhyWorld: Probing Physical Reasoning via Code-Driven Video Reconstruction

Arxiv

0+阅读 · 2月19日

Order from Chaos: Physical World Understanding from Glitchy Gameplay Videos

Arxiv

0+阅读 · 2月11日

World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy

Arxiv

0+阅读 · 2月6日

Coupled Local and Global World Models for Efficient First Order RL

Arxiv

0+阅读 · 2月5日

Visuo-Tactile World Models

Arxiv

0+阅读 · 2月5日

PokeNet: Learning Kinematic Models of Articulated Objects from Human Observations

Arxiv

0+阅读 · 2月2日

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

Arxiv

0+阅读 · 2月2日

UniDWM: Towards a Unified Driving World Model via Multifaceted Representation Learning

Arxiv

0+阅读 · 2月2日

Rethinking Video Generation Model for the Embodied World

Arxiv

0+阅读 · 1月21日

Learning Latent Action World Models In The Wild

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

相关VIP内容

具身智能中的心理世界建模：深度综述

具身智能中的心理世界建模：深度综述

专知会员服务

28+阅读 · 1月10日

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

专知会员服务

29+阅读 · 2025年10月9日

【新书】基于物理的模拟

【新书】基于物理的模拟

专知会员服务

22+阅读 · 2025年7月25日

具身智能学习综述：基于物理模拟器与世界模型的方法

具身智能学习综述：基于物理模拟器与世界模型的方法

专知会员服务

32+阅读 · 2025年7月2日

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

29+阅读 · 2025年6月26日

【MIT博士论文】通过神经物理构建世界模型

【MIT博士论文】通过神经物理构建世界模型

专知会员服务

34+阅读 · 2025年4月3日

【NVDIA】Cosmos世界基础模型平台用于物理人工智能

【NVDIA】Cosmos世界基础模型平台用于物理人工智能

专知会员服务

27+阅读 · 2025年1月13日

【斯坦福博士论文】从互联网视频中学习感知物理世界

【斯坦福博士论文】从互联网视频中学习感知物理世界

专知会员服务

23+阅读 · 2024年12月30日

世界模型：安全性视角

世界模型：安全性视角

专知会员服务

40+阅读 · 2024年11月17日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

63+阅读 · 2023年2月5日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

懂一点物理的人工智能

懂一点物理的人工智能

PaperWeekly

14+阅读 · 2019年12月5日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

机器之心

23+阅读 · 2019年4月13日

亚马逊首席科学家MXNet作者李沐开讲: 伯克利2019深度学习课程，不可错过

亚马逊首席科学家MXNet作者李沐开讲: 伯克利2019深度学习课程，不可错过

专知

12+阅读 · 2018年12月23日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

深度学习与物理学的大碰撞思考（附slides下载）

深度学习与物理学的大碰撞思考（附slides下载）

专知

14+阅读 · 2017年11月30日

相关论文

VisPhyWorld: Probing Physical Reasoning via Code-Driven Video Reconstruction

Arxiv

0+阅读 · 2月19日

Order from Chaos: Physical World Understanding from Glitchy Gameplay Videos

Arxiv

0+阅读 · 2月11日

World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy

Arxiv

0+阅读 · 2月6日

Coupled Local and Global World Models for Efficient First Order RL

Arxiv

0+阅读 · 2月5日

Visuo-Tactile World Models

Arxiv

0+阅读 · 2月5日

PokeNet: Learning Kinematic Models of Articulated Objects from Human Observations

Arxiv

0+阅读 · 2月2日

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

Arxiv

0+阅读 · 2月2日

UniDWM: Towards a Unified Driving World Model via Multifaceted Representation Learning

Arxiv

0+阅读 · 2月2日

Rethinking Video Generation Model for the Embodied World

Arxiv

0+阅读 · 1月21日

Learning Latent Action World Models In The Wild

Arxiv

0+阅读 · 1月20日

相关基金

基于多元互信息和快速稀疏多核学习的高光谱遥感影像地物分类

国家自然科学基金

0+阅读 · 2015年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

基于混合多址的物与物通信资源分配技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于螺旋理论的空间近距离相对运动建模方法与姿轨耦合控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

一种面向非共格性界面的分级式多尺度力学模型及应用

国家自然科学基金

0+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员