While generative models have become effective at producing human-like motions from text, transferring these motions to humanoid robots for physical execution remains challenging. Existing pipelines are often limited by retargeting, where kinematic quality is undermined by physical infeasibility, contact-transition errors, and the high cost of real-world dynamical data. We present a unified latent-driven framework that bridges natural language and whole-body humanoid locomotion through a retarget-free, physics-optimized pipeline. Rather than treating generation and control as separate stages, our key insight is to couple them bidirectionally under physical constraints.We introduce a Physical Plausibility Optimization (PP-Opt) module as the coupling interface. In the forward direction, PP-Opt refines a teacher-student distillation policy with a plausibility-centric reward to suppress artifacts such as floating, skating, and penetration. In the backward direction, it converts reward-optimized simulation rollouts into high-quality explicit motion data, which is used to fine-tune the motion generator toward a more physically plausible latent distribution. This bidirectional design forms a self-improving cycle: the generator learns a physically grounded latent space, while the controller learns to execute latent-conditioned behaviors with dynamical integrity.Extensive experiments on the Unitree G1 humanoid show that our bidirectional optimization improves tracking accuracy and success rates. Across IsaacLab and MuJoCo, the implicit latent-driven pipeline consistently outperforms conventional explicit retargeting baselines in both precision and stability. By coupling diffusion-based motion generation with physical plausibility optimization, our framework provides a practical path toward deployable text-guided humanoid intelligence.


翻译:尽管生成模型在从文本生成类人运动方面已取得显著成效,但将这些运动迁移至人形机器人进行物理执行仍具挑战。现有流程常受限于重定向过程,其运动学质量因物理不可行性、接触转换误差以及真实世界动力学数据的高昂成本而受损。我们提出一种统一的潜在驱动框架,通过无重定向、物理优化的流水线,在自然语言与全身人形机器人运动之间架起桥梁。其核心洞见并非将生成与控制视为独立阶段,而是在物理约束下实现二者的双向耦合。我们引入物理合理性优化模块作为耦合接口。在前向过程中,该模块以合理性为核心奖励优化师生蒸馏策略,以抑制漂浮、滑动和穿透等伪影;在后向过程中,它将经奖励优化的仿真序列转换为高质量显式运动数据,用于微调运动生成器,使其潜在分布更趋物理合理。这种双向设计构建了一个自我改进的循环:生成器学习物理约束下的潜在空间,而控制器则学习以动力学完整性执行潜在条件行为。在Unitree G1人形机器人上的大量实验表明,我们的双向优化提高了跟踪精度与成功率。在IsaacLab和MuJoCo平台上,隐式潜在驱动流水线在精度和稳定性上持续优于传统显式重定向基线。通过将扩散运动生成与物理合理性优化相结合,本框架为可部署的文本驱导人形智能提供了一条实用路径。

0
下载
关闭预览

相关内容

AI大模型驱动的具身智能人形机器人技术与展望
专知会员服务
27+阅读 · 2025年5月26日
【CVPR2025】MixerMDM:可学习的人体运动扩散模型组合
专知会员服务
10+阅读 · 2025年4月3日
人形机器人深度:产业化渐行渐近,未来前景广阔
专知会员服务
39+阅读 · 2024年7月17日
使用强化学习训练机械臂完成人类任务
AI研习社
14+阅读 · 2019年3月23日
多图带你读懂 Transformers 的工作原理
AI研习社
10+阅读 · 2019年3月18日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员