掩码生成策略：机器人控制新框架 (Masked Generative Policy for Robotic Control) - 专知论文

会员服务 ·

0

掩码 · 机器人控制 · 新型 · 并行 · 置信度 ·

Masked Generative Policy for Robotic Control

翻译：掩码生成策略：机器人控制新框架

Lipeng Zhuang,Shiyu Fan,Florent P. Audonnet,Yingdong Ru,Edmond S. L. Ho,Gerardo Aragon Camarasa,Paul Henderson

We present Masked Generative Policy (MGP), a novel framework for visuomotor imitation learning. We represent actions as discrete tokens, and train a conditional masked transformer that generates tokens in parallel and then rapidly refines only low-confidence tokens. We further propose two new sampling paradigms: MGP-Short, which performs parallel masked generation with score-based refinement for Markovian tasks, and MGP-Long, which predicts full trajectories in a single pass and dynamically refines low-confidence action tokens based on new observations. With globally coherent prediction and robust adaptive execution capabilities, MGP-Long enables reliable control on complex and non-Markovian tasks that prior methods struggle with. Extensive evaluations on 150 robotic manipulation tasks spanning the Meta-World and LIBERO benchmarks show that MGP achieves both rapid inference and superior success rates compared to state-of-the-art diffusion and autoregressive policies. Specifically, MGP increases the average success rate by 9% across 150 tasks while cutting per-sequence inference time by up to 35x. It further improves the average success rate by 60% in dynamic and missing-observation environments, and solves two non-Markovian scenarios where other state-of-the-art methods fail.

翻译：本文提出掩码生成策略（MGP），一种用于视觉运动模仿学习的新型框架。我们将动作表示为离散标记，并训练一个条件掩码Transformer模型，该模型并行生成标记，随后仅对低置信度标记进行快速优化。我们进一步提出两种新型采样范式：MGP-Short采用基于得分的优化机制进行并行掩码生成，适用于马尔可夫任务；MGP-Long则通过单次前向预测完整轨迹，并依据新观测动态优化低置信度动作标记。凭借全局一致性预测与鲁棒自适应执行能力，MGP-Long能够在现有方法难以处理的复杂非马尔可夫任务中实现可靠控制。在涵盖Meta-World与LIBERO基准测试的150项机器人操作任务上的广泛实验表明，相较于最先进的扩散策略与自回归策略，MGP在实现快速推理的同时获得了更高的成功率。具体而言，MGP在150项任务中将平均成功率提升9%，同时将单序列推理时间缩短达35倍。在动态与观测缺失环境中，其平均成功率进一步提升60%，并在两项其他前沿方法无法处理的非马尔可夫场景中取得突破。

0

相关内容

《战术训练虚拟士兵：一种用于自适应军事模拟的生成式人工智能框架》最新文献

《战术训练虚拟士兵：一种用于自适应军事模拟的生成式人工智能框架》最新文献

专知会员服务

25+阅读 · 2025年9月24日

生成式人工智能在机器人操作中的应用：综述

生成式人工智能在机器人操作中的应用：综述

专知会员服务

29+阅读 · 2025年3月6日

【ICLR2025】SAMREFINER：驯化“Segment Anything Model”进行通用掩码优化

【ICLR2025】SAMREFINER：驯化“Segment Anything Model”进行通用掩码优化

专知会员服务

12+阅读 · 2025年2月11日

【新书】利用生成式人工智能进行网络防御策略

【新书】利用生成式人工智能进行网络防御策略

专知会员服务

31+阅读 · 2024年10月18日

【NeurIPS 2023教程】隐扩散模型:生成式AI革命正在隐空间中发生吗?，133页ppt

【NeurIPS 2023教程】隐扩散模型:生成式AI革命正在隐空间中发生吗?，133页ppt

专知会员服务

54+阅读 · 2023年12月15日

可控文本生成怎么做？北理工等最新《基于Transformer的预训练语言模型可控文本生成》研究综述，37页pdf

可控文本生成怎么做？北理工等最新《基于Transformer的预训练语言模型可控文本生成》研究综述，37页pdf

专知会员服务

46+阅读 · 2023年9月24日

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

专知会员服务

35+阅读 · 2023年6月3日

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

专知会员服务

35+阅读 · 2022年8月3日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

【斯坦福&Facebook】生成式对抗变换器，Generative Adversarial Transformers

专知会员服务

21+阅读 · 2021年4月21日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

专知

26+阅读 · 2019年12月25日

Github 项目推荐 | PyTorch 实现的 GAN 文本生成框架

Github 项目推荐 | PyTorch 实现的 GAN 文本生成框架

AI研习社

35+阅读 · 2019年6月10日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

混合预编码器的内在关联机制与结构优化

国家自然科学基金

0+阅读 · 2017年12月31日

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

欠覆盖环境下城市多源监控视频大数据高效编码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

基于GEP的可拓策略自组织生成理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自调进度稀疏表示的人脸识别算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于新体制GNSS信号的模糊抑制捕获研究

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

Partition Generative Modeling: Masked Modeling Without Masks

Arxiv

0+阅读 · 2月17日

HybridFlow: A Two-Step Generative Policy for Robotic Manipulation

Arxiv

0+阅读 · 2月14日

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

Arxiv

0+阅读 · 2月14日

Diffusion-State Policy Optimization for Masked Diffusion Language Models

Arxiv

0+阅读 · 2月6日

Reinforcement Learning Meets Masked Generative Models: Mask-GRPO for Text-to-Image Generation

Arxiv

0+阅读 · 2月2日

Policy Contrastive Decoding for Robotic Foundation Models

Arxiv

0+阅读 · 2月2日

Unifying Masked Diffusion Models with Various Generation Orders and Beyond

Arxiv

0+阅读 · 2月2日

A Random Matrix Theory of Masked Self-Supervised Regression

Arxiv

0+阅读 · 1月30日

Diffusion-based Annealed Boltzmann Generators : benefits, pitfalls and hopes

Arxiv

0+阅读 · 1月28日

Simplifying ROS2 controllers with a modular architecture for robot-agnostic reference generation

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

机器人控制

相关VIP内容

《战术训练虚拟士兵：一种用于自适应军事模拟的生成式人工智能框架》最新文献

《战术训练虚拟士兵：一种用于自适应军事模拟的生成式人工智能框架》最新文献

专知会员服务

25+阅读 · 2025年9月24日

生成式人工智能在机器人操作中的应用：综述

生成式人工智能在机器人操作中的应用：综述

专知会员服务

29+阅读 · 2025年3月6日

【ICLR2025】SAMREFINER：驯化“Segment Anything Model”进行通用掩码优化

【ICLR2025】SAMREFINER：驯化“Segment Anything Model”进行通用掩码优化

专知会员服务

12+阅读 · 2025年2月11日

【新书】利用生成式人工智能进行网络防御策略

【新书】利用生成式人工智能进行网络防御策略

专知会员服务

31+阅读 · 2024年10月18日

【NeurIPS 2023教程】隐扩散模型:生成式AI革命正在隐空间中发生吗?，133页ppt

【NeurIPS 2023教程】隐扩散模型:生成式AI革命正在隐空间中发生吗?，133页ppt

专知会员服务

54+阅读 · 2023年12月15日

可控文本生成怎么做？北理工等最新《基于Transformer的预训练语言模型可控文本生成》研究综述，37页pdf

可控文本生成怎么做？北理工等最新《基于Transformer的预训练语言模型可控文本生成》研究综述，37页pdf

专知会员服务

46+阅读 · 2023年9月24日

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

用GPT-4实现可控文本图像生成，UC伯克利&微软提出新框架Control-GPT

专知会员服务

35+阅读 · 2023年6月3日

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

专知会员服务

35+阅读 · 2022年8月3日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

【斯坦福&Facebook】生成式对抗变换器，Generative Adversarial Transformers

专知会员服务

21+阅读 · 2021年4月21日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

专知

26+阅读 · 2019年12月25日

Github 项目推荐 | PyTorch 实现的 GAN 文本生成框架

Github 项目推荐 | PyTorch 实现的 GAN 文本生成框架

AI研习社

35+阅读 · 2019年6月10日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

相关论文

Partition Generative Modeling: Masked Modeling Without Masks

Arxiv

0+阅读 · 2月17日

HybridFlow: A Two-Step Generative Policy for Robotic Manipulation

Arxiv

0+阅读 · 2月14日

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

Arxiv

0+阅读 · 2月14日

Diffusion-State Policy Optimization for Masked Diffusion Language Models

Arxiv

0+阅读 · 2月6日

Reinforcement Learning Meets Masked Generative Models: Mask-GRPO for Text-to-Image Generation

Arxiv

0+阅读 · 2月2日

Policy Contrastive Decoding for Robotic Foundation Models

Arxiv

0+阅读 · 2月2日

Unifying Masked Diffusion Models with Various Generation Orders and Beyond

Arxiv

0+阅读 · 2月2日

A Random Matrix Theory of Masked Self-Supervised Regression

Arxiv

0+阅读 · 1月30日

Diffusion-based Annealed Boltzmann Generators : benefits, pitfalls and hopes

Arxiv

0+阅读 · 1月28日

Simplifying ROS2 controllers with a modular architecture for robot-agnostic reference generation

Arxiv

0+阅读 · 1月13日

相关基金

混合预编码器的内在关联机制与结构优化

国家自然科学基金

0+阅读 · 2017年12月31日

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

欠覆盖环境下城市多源监控视频大数据高效编码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

基于GEP的可拓策略自组织生成理论与方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自调进度稀疏表示的人脸识别算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于新体制GNSS信号的模糊抑制捕获研究

国家自然科学基金

0+阅读 · 2015年12月31日

多纹理多深度的3D视频码率控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员