Motion mimicking is a foundational task in physics-based character animation. However, most existing motion mimicking methods are built upon reinforcement learning (RL) and suffer from heavy reward engineering, high variance, and slow convergence with hard explorations. Specifically, they usually take tens of hours or even days of training to mimic a simple motion sequence, resulting in poor scalability. In this work, we leverage differentiable physics simulators (DPS) and propose an efficient motion mimicking method dubbed DiffMimic. Our key insight is that DPS casts a complex policy learning task to a much simpler state matching problem. In particular, DPS learns a stable policy by analytical gradients with ground-truth physical priors hence leading to significantly faster and stabler convergence than RL-based methods. Moreover, to escape from local optima, we utilize a Demonstration Replay mechanism to enable stable gradient backpropagation in a long horizon. Extensive experiments on standard benchmarks show that DiffMimic has a better sample efficiency and time efficiency than existing methods (e.g., DeepMimic). Notably, DiffMimic allows a physically simulated character to learn Backflip after 10 minutes of training and be able to cycle it after 3 hours of training, while the existing approach may require about a day of training to cycle Backflip. More importantly, we hope DiffMimic can benefit more differentiable animation systems with techniques like differentiable clothes simulation in future research.


翻译:运动模仿是基于物理的角色动画中的基础任务。然而,现有的大多数运动模仿方法基于强化学习,存在奖励工程复杂、方差高、硬探索下收敛缓慢等问题。具体而言,它们通常需要数十小时甚至数天的训练才能模仿简单的运动序列,导致可扩展性较差。本文利用可微物理模拟器,提出了一种名为DiffMimic的高效运动模仿方法。我们的关键洞察在于:可微物理模拟器将复杂的策略学习任务简化为更简单的状态匹配问题。具体而言,可微物理模拟器通过基于真实物理先验的解析梯度学习稳定策略,因此相比强化学习方法具有显著更快的收敛速度和更高的稳定性。此外,为了逃离局部最优,我们引入了演示回放机制,使其在长时域中实现稳定的梯度反向传播。在标准基准上的大量实验表明,DiffMimic在样本效率和时间效率上均优于现有方法(如DeepMimic)。特别值得注意的是,DiffMimic使物理模拟角色仅需10分钟训练即可学习后空翻,并在3小时训练后实现该动作的循环执行,而现有方法可能需要约一天训练才能循环后空翻。更重要的是,我们期望DiffMimic能通过可微布料模拟等技术支持更多可微动画系统的发展。

0
下载
关闭预览

相关内容

JCIM丨DRlinker:深度强化学习优化片段连接设计
专知会员服务
7+阅读 · 2022年12月9日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
74+阅读 · 2020年8月2日
【动态】第四届新一代计算机动画技术研讨会成功举办
中国图象图形学学会CSIG
0+阅读 · 2022年7月25日
【泡泡一分钟】通过学习轮式里程计和IMU误差的定位
泡泡机器人SLAM
133+阅读 · 2019年9月12日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
JCIM丨DRlinker:深度强化学习优化片段连接设计
专知会员服务
7+阅读 · 2022年12月9日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
74+阅读 · 2020年8月2日
相关资讯
【动态】第四届新一代计算机动画技术研讨会成功举办
中国图象图形学学会CSIG
0+阅读 · 2022年7月25日
【泡泡一分钟】通过学习轮式里程计和IMU误差的定位
泡泡机器人SLAM
133+阅读 · 2019年9月12日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员