Recent progress in text-conditioned human motion generation has been largely driven by diffusion models trained on large-scale human motion data. Building on this progress, recent methods attempt to transfer such models for character animation and real robot control by applying a Whole-Body Controller (WBC) that converts diffusion-generated motions into executable trajectories. While WBC trajectories become compliant with physics, they may expose substantial deviations from original motion. To address this issue, we here propose PhysMoDPO, a Direct Preference Optimization framework. Unlike prior work that relies on hand-crafted physics-aware heuristics such as foot-sliding penalties, we integrate WBC into our training pipeline and optimize diffusion model such that the output of WBC becomes compliant both with physics and original text instructions. To train PhysMoDPO we deploy physics-based and task-specific rewards and use them to assign preference to synthesized trajectories. Our extensive experiments on text-to-motion and spatial control tasks demonstrate consistent improvements of PhysMoDPO in both physical realism and task-related metrics on simulated robots. Moreover, we demonstrate that PhysMoDPO results in significant improvements when applied to zero-shot motion transfer in simulation and for real-world deployment on a G1 humanoid robot.


翻译:近年来,文本条件人体运动生成领域的进展主要得益于在大规模人体运动数据上训练的扩散模型。基于此进展,近期方法尝试通过应用全身控制器(WBC)将此类模型迁移至角色动画与真实机器人控制领域,该控制器可将扩散生成的运动转换为可执行轨迹。尽管WBC轨迹变得符合物理规律,但其可能与原始运动存在显著偏差。为解决此问题,本文提出PhysMoDPO,一种直接偏好优化框架。与先前依赖手工设计的物理感知启发式方法(如足部滑动惩罚)的工作不同,我们将WBC集成至训练流程中,并优化扩散模型,使得WBC的输出既符合物理规律,又遵循原始文本指令。为训练PhysMoDPO,我们部署了基于物理和任务特定的奖励函数,并利用它们为合成轨迹分配偏好。我们在文本到运动与空间控制任务上的大量实验表明,PhysMoDPO在仿真机器人的物理真实性与任务相关指标上均取得持续改进。此外,我们证明PhysMoDPO在仿真环境中的零样本运动迁移以及G1人形机器人的真实世界部署中均带来显著性能提升。

0
下载
关闭预览

相关内容

面向具身智能与机器人仿真的三维生成:综述
专知会员服务
14+阅读 · 4月30日
【NTU博士论文】3D人体动作生成
专知会员服务
12+阅读 · 4月24日
【CMU博士论文】交互驱动的人体动作估计与生成
专知会员服务
18+阅读 · 2025年9月17日
【CVPR2025】MixerMDM:可学习的人体运动扩散模型组合
专知会员服务
10+阅读 · 2025年4月3日
生成式人工智能在机器人操作中的应用:综述
专知会员服务
29+阅读 · 2025年3月6日
人形机器人深度:产业化渐行渐近,未来前景广阔
专知会员服务
39+阅读 · 2024年7月17日
使用强化学习训练机械臂完成人类任务
AI研习社
14+阅读 · 2019年3月23日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
基于姿态的人物视频生成【附PPT与视频资料】
人工智能前沿讲习班
32+阅读 · 2019年1月28日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
【综述】 基于大语言模型的对话用户模拟综述
《图世界模型:概念、分类体系与未来方向》
专知会员服务
14+阅读 · 5月1日
Palantir AIP平台:连接智能体与决策
专知会员服务
19+阅读 · 5月1日
Top
微信扫码咨询专知VIP会员