Mask World Model: Predicting What Matters for Robust Robot Policy Learning - 专知论文

会员服务 ·

0

鲁棒 · 视频 · 策略学习 · 世界模型 · 泛化 ·

Mask World Model: Predicting What Matters for Robust Robot Policy Learning

翻译：掩模世界模型：预测关键因素以实现鲁棒机器人策略学习

Yunfan Lou,Xiaowei Chi,Xiaojie Zhang,Zezhong Qian,Chengxuan Li,Rongyu Zhang,Yaoxu Lyu,Guoyu Song,Chuyao Fu,Haoxuan Xu,Pengwei Wang,Shanghang Zhang

from arxiv, 16 pages,5 figures

World models derived from large-scale video generative pre-training have emerged as a promising paradigm for generalist robot policy learning. However, standard approaches often focus on high-fidelity RGB video prediction, this can result in overfitting to irrelevant factors, such as dynamic backgrounds and illumination changes. These distractions reduce the model's ability to generalize, ultimately leading to unreliable and fragile control policies. To address this, we introduce the Mask World Model (MWM), which leverages video diffusion architectures to predict the evolution of semantic masks instead of pixels. This shift imposes a geometric information bottleneck, forcing the model to capture essential physical dynamics and contact relations while filtering out visual noise. We seamlessly integrate this mask dynamics backbone with a diffusion-based policy head to enable robust end-to-end control. Extensive evaluations demonstrate the superiority of MWM on the LIBERO and RLBench simulation benchmarks, significantly outperforming the state-of-the-art RGB-based world models. Furthermore, real-world experiments and robustness evaluation (via random token pruning) reveal that MWM exhibits superior generalization capabilities and robust resilience to texture information loss.

翻译：基于大规模视频生成式预训练的世界模型已成为通用型机器人策略学习的理想范式。然而，标准方法通常聚焦于高保真度RGB视频预测，这可能导致模型对动态背景、光照变化等无关因素产生过拟合。这些干扰因素削弱了模型的泛化能力，最终导致不可靠且脆弱的控制策略。为此，我们提出掩模世界模型（MWM），该模型利用视频扩散架构预测语义掩模的动态演化而非像素级信息。这一转变引入了几何信息瓶颈机制，迫使模型在过滤视觉噪声的同时捕捉核心物理动力学与接触关系。我们通过将这一掩模动力学主干网络与基于扩散的策略模块无缝集成，实现了鲁棒的端到端控制。大量实验证明，MWM在LIBERO与RLBench仿真基准测试中显著超越基于RGB的最先进世界模型。此外，真实场景实验与鲁棒性评估（通过随机令牌剪枝）表明，MWM展现出卓越的泛化能力以及对纹理信息丢失的强鲁棒性。

0

相关内容

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

9+阅读 · 6月3日

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

28+阅读 · 6月2日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

20+阅读 · 5月4日

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

专知会员服务

22+阅读 · 1月18日

走向通用人工智能之路，世界模型为何不可或缺？

走向通用人工智能之路，世界模型为何不可或缺？

专知会员服务

19+阅读 · 2025年7月1日

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

专知会员服务

59+阅读 · 2023年7月10日

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

专知会员服务

47+阅读 · 2023年4月2日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

专知会员服务

69+阅读 · 2021年8月19日

【开放书】预测模型:探索、解释和调试，以人为本的可解释机器学习，Predictive Models: Explore, Explain, and Debug，Human-Centered Interpretable Machine Learning

【开放书】预测模型:探索、解释和调试，以人为本的可解释机器学习，Predictive Models: Explore, Explain, and Debug，Human-Centered Interpretable Machine Learning

专知会员服务

37+阅读 · 2019年12月26日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

一文读懂机器学习模型的选择与取舍

一文读懂机器学习模型的选择与取舍

DBAplus社群

13+阅读 · 2019年8月25日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

用机器学习来预测股价（代码+文档）——2018年iNTUtion决赛大作！

用机器学习来预测股价（代码+文档）——2018年iNTUtion决赛大作！

量化投资与机器学习

25+阅读 · 2018年11月20日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

一文读懂机器学习概率图模型（附示例&学习资源）

一文读懂机器学习概率图模型（附示例&学习资源）

数据派THU

47+阅读 · 2017年12月10日

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于连续时间PWA模型的混杂系统预测控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

Arxiv

0+阅读 · 5月1日

Hi-WM: Human-in-the-World-Model for Scalable Robot Post-Training

Arxiv

0+阅读 · 4月23日

Learning Physics from Pretrained Video Models: A Multimodal Continuous and Sequential World Interaction Models for Robotic Manipulation

Arxiv

0+阅读 · 4月23日

Mask World Model: Predicting What Matters for Robust Robot Policy Learning

Arxiv

0+阅读 · 4月22日

Constrained Decoding for Safe Robot Navigation Foundation Models

Arxiv

0+阅读 · 4月16日

WM-DAgger: Enabling Efficient Data Aggregation for Imitation Learning with World Models

Arxiv

0+阅读 · 4月13日

ViPRA: Video Prediction for Robot Actions

Arxiv

0+阅读 · 3月30日

Persistent Robot World Models: Stabilizing Multi-Step Rollouts via Reinforcement Learning

Arxiv

0+阅读 · 3月26日

Toward Physically Consistent Driving Video World Models under Challenging Trajectories

Arxiv

0+阅读 · 3月25日

ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Arxiv

0+阅读 · 3月24日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 18分钟前

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 20分钟前

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

11+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

相关VIP内容

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

9+阅读 · 6月3日

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

28+阅读 · 6月2日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

20+阅读 · 5月4日

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

【伯克利博士论文】物理世界中可泛化且可扩展的机器人学习

专知会员服务

22+阅读 · 1月18日

走向通用人工智能之路，世界模型为何不可或缺？

走向通用人工智能之路，世界模型为何不可或缺？

专知会员服务

19+阅读 · 2025年7月1日

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

专知会员服务

59+阅读 · 2023年7月10日

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

【MIT博士论文】机器学习模型鲁棒性的探索、改进与验证，208页pdf

专知会员服务

47+阅读 · 2023年4月2日

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

Jakub Tomczak- 《深度生成建模》讲座报告与视频，84页ppt，Deep Generative Modeling is a key to unlocking AI potential

专知会员服务

61+阅读 · 2022年3月11日

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

专知会员服务

69+阅读 · 2021年8月19日

【开放书】预测模型:探索、解释和调试，以人为本的可解释机器学习，Predictive Models: Explore, Explain, and Debug，Human-Centered Interpretable Machine Learning

【开放书】预测模型:探索、解释和调试，以人为本的可解释机器学习，Predictive Models: Explore, Explain, and Debug，Human-Centered Interpretable Machine Learning

专知会员服务

37+阅读 · 2019年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

相关资讯

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

一文读懂机器学习模型的选择与取舍

一文读懂机器学习模型的选择与取舍

DBAplus社群

13+阅读 · 2019年8月25日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

用机器学习来预测股价（代码+文档）——2018年iNTUtion决赛大作！

用机器学习来预测股价（代码+文档）——2018年iNTUtion决赛大作！

量化投资与机器学习

25+阅读 · 2018年11月20日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

一文读懂机器学习概率图模型（附示例&学习资源）

一文读懂机器学习概率图模型（附示例&学习资源）

数据派THU

47+阅读 · 2017年12月10日

相关论文

Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

Arxiv

0+阅读 · 5月1日

Hi-WM: Human-in-the-World-Model for Scalable Robot Post-Training

Arxiv

0+阅读 · 4月23日

Learning Physics from Pretrained Video Models: A Multimodal Continuous and Sequential World Interaction Models for Robotic Manipulation

Arxiv

0+阅读 · 4月23日

Mask World Model: Predicting What Matters for Robust Robot Policy Learning

Arxiv

0+阅读 · 4月22日

Constrained Decoding for Safe Robot Navigation Foundation Models

Arxiv

0+阅读 · 4月16日

WM-DAgger: Enabling Efficient Data Aggregation for Imitation Learning with World Models

Arxiv

0+阅读 · 4月13日

ViPRA: Video Prediction for Robot Actions

Arxiv

0+阅读 · 3月30日

Persistent Robot World Models: Stabilizing Multi-Step Rollouts via Reinforcement Learning

Arxiv

0+阅读 · 3月26日

Toward Physically Consistent Driving Video World Models under Challenging Trajectories

Arxiv

0+阅读 · 3月25日

ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Arxiv

0+阅读 · 3月24日

相关基金

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于连续时间PWA模型的混杂系统预测控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员