Real-time robotic control demands fast action generation. However, existing generative policies based on diffusion and flow matching require multi-step sampling, fundamentally limiting deployment in time-critical scenarios. We propose Dispersive MeanFlow Policy Optimization (DMPO), a unified framework that enables true one-step generation through three key components: MeanFlow for mathematically-derived single-step inference without knowledge distillation, dispersive regularization to prevent representation collapse, and reinforcement learning (RL) fine-tuning to surpass expert demonstrations. Experiments across RoboMimic manipulation and OpenAI Gym locomotion benchmarks demonstrate competitive or superior performance compared to multi-step baselines. With our lightweight model architecture and the three key algorithmic components working in synergy, DMPO exceeds real-time control requirements (>120Hz) with 5-20x inference speedup, reaching hundreds of Hertz on high-performance GPUs. Physical deployment on a Franka-Emika-Panda robot validates real-world applicability.


翻译:实时机器人控制需要快速的动作生成。然而,现有的基于扩散和流匹配的生成策略需要多步采样,这从根本上限制了其在时间关键场景中的部署。我们提出了弥散均值流策略优化(DMPO),这是一个统一的框架,通过三个关键组件实现真正的一步生成:MeanFlow用于无需知识蒸馏、通过数学推导的单步推理,弥散正则化以防止表示崩溃,以及强化学习(RL)微调以超越专家演示。在RoboMimic操作任务和OpenAI Gym运动基准测试中的实验表明,与多步基线方法相比,DMPO具有竞争力或更优的性能。凭借我们轻量级的模型架构以及三个关键算法组件的协同工作,DMPO以5-20倍的推理加速超过了实时控制要求(>120Hz),在高性能GPU上达到数百赫兹。在Franka-Emika-Panda机器人上的物理部署验证了其实际应用价值。

0
下载
关闭预览

相关内容

144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
50+阅读 · 2025年11月21日
扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
8+阅读 · 2025年10月23日
扩散模型量化综述
专知会员服务
18+阅读 · 2025年5月11日
预训练扩散模型蒸馏综述
专知会员服务
25+阅读 · 2025年2月17日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
高效扩散模型综述
专知会员服务
34+阅读 · 2025年2月1日
【CVPR2024】平衡之道:扩散模型中的分布指导去偏差
专知会员服务
22+阅读 · 2024年3月2日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
入门 | 深度学习模型的简单优化技巧
机器之心
10+阅读 · 2018年6月10日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月7日
VIP会员
相关VIP内容
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
50+阅读 · 2025年11月21日
扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
8+阅读 · 2025年10月23日
扩散模型量化综述
专知会员服务
18+阅读 · 2025年5月11日
预训练扩散模型蒸馏综述
专知会员服务
25+阅读 · 2025年2月17日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
高效扩散模型综述
专知会员服务
34+阅读 · 2025年2月1日
【CVPR2024】平衡之道:扩散模型中的分布指导去偏差
专知会员服务
22+阅读 · 2024年3月2日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员