Building a general-purpose whole-body controller is essential for enabling diverse motion capabilities in humanoid robots across a wide range of downstream tasks, including locomotion and loco-manipulation. Different tasks rely on distinct motion reference modalities: locomotion primarily depends on coordinated robot joint trajectories, whereas manipulation requires precise end-effector trajectory tracking. Existing methods often overlook the representational mismatch between dense robot joint angles and sparse end-effector poses. To address this, we propose Multi-Modal Mimic (M3imic), a versatile multi-modal whole-body control framework that unifies heterogeneous motion reference modalities, including robot joint angles, human pose trajectories, and end-effector poses, using modality-specific encoders to map them into a shared latent space. Leveraging large-scale reinforcement learning in the simulator, we train a single policy that achieves sim-to-real transfer across multiple motion reference modalities without modality-specific retraining. Extensive simulation and real-world experiments on the Unitree G1 robot are conducted to evaluate the proposed framework. In simulation, the policy achieves a peak success rate of 98.42\% on an unseen test dataset, demonstrating its exceptional generalization capability. The code is available at https://github.com/Renforce-Dynamics/MultiModalWBC


翻译:构建通用全身控制器对于赋予人形机器人完成包括 locomotion 和 loco-manipulation 在内的广泛下游任务所需多样化运动能力至关重要。不同任务依赖于不同的运动参考模态:locomotion 主要依赖协调的机器人关节轨迹,而 manipulation 则需要精确的末端执行器轨迹跟踪。现有方法往往忽略了密集的机器人关节角度与稀疏末端执行器位姿之间的表征不匹配问题。为解决这一问题,我们提出 Multi-Modal Mimic (M3imic),这是一个通用多模态全身控制框架,它利用模态特定编码器将异构的运动参考模态(包括机器人关节角度、人体姿态轨迹和末端执行器位姿)映射到共享的隐空间中,从而实现统一。通过在仿真器中进行大规模强化学习,我们训练出单一策略,该策略无需针对特定模态重新训练即可在多种运动参考模态间实现 sim-to-real 迁移。利用 Unitree G1 机器人进行了广泛的仿真和真实世界实验以评估所提出的框架。在仿真中,该策略在未见过的测试数据集上达到了 98.42% 的峰值成功率,展现其卓越的泛化能力。代码已开源在 https://github.com/Renforce-Dynamics/MultiModalWBC

0
下载
关闭预览

相关内容

【斯坦福博士论文】移动操作机器人的学习系统构建研究
专知会员服务
14+阅读 · 2025年11月14日
基于多模态大模型的具身智能体研究进展与展望
专知会员服务
27+阅读 · 2025年7月2日
具身智能学习综述:基于物理模拟器与世界模型的方法
专知会员服务
35+阅读 · 2025年7月2日
多模态大模型时代的全球首篇《具身智能》综述
专知会员服务
77+阅读 · 2024年7月26日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
2+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
3+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员