Reinforcement learning provides a framework for learning control policies that can reproduce diverse motions for simulated characters. However, such policies often exploit unnatural high-frequency signals that are unachievable by humans or physical robots, making them poor representations of real-world behaviors. Existing work addresses this issue by adding a reward term that penalizes a large change in actions over time. This term often requires substantial tuning efforts. We propose to use the action Jacobian penalty, which penalizes changes in action with respect to the changes in simulated state directly through auto differentiation. This effectively eliminates unrealistic high-frequency control signals without task specific tuning. While effective, the action Jacobian penalty introduces significant computational overhead when used with traditional fully connected neural network architectures. To mitigate this, we introduce a new architecture called a Linear Policy Net (LPN) that significantly reduces the computational burden for calculating the action Jacobian penalty during training. In addition, a LPN requires no parameter tuning, exhibits faster learning convergence compared to baseline methods, and can be more efficiently queried during inference time compared to a fully connected neural network. We demonstrate that a Linear Policy Net, combined with the action Jacobian penalty, is able to learn policies that generate smooth signals while solving a number of motion imitation tasks with different characteristics, including dynamic motions such as a backflip and various challenging parkour skills. Finally, we apply this approach to create policies for dynamic motions on a physical quadrupedal robot equipped with an arm.


翻译:强化学习为学习能够复现模拟角色多样化运动的控制策略提供了一个框架。然而,此类策略常常利用人类或物理机器人无法实现的不自然高频信号,使其难以代表真实世界的行为。现有工作通过添加一个惩罚动作随时间发生较大变化的奖励项来解决此问题。该奖励项通常需要大量的调优工作。我们提出使用动作雅可比惩罚,它通过自动微分直接惩罚动作相对于模拟状态变化的改变。这有效地消除了不现实的高频控制信号,而无需针对特定任务进行调优。虽然有效,但当与传统全连接神经网络架构一起使用时,动作雅可比惩罚会引入显著的计算开销。为了缓解这个问题,我们引入了一种称为线性策略网络的新架构,它显著降低了训练期间计算动作雅可比惩罚的计算负担。此外,线性策略网络不需要参数调优,与基线方法相比展现出更快的学习收敛速度,并且在推理时比全连接神经网络具有更高的查询效率。我们证明,线性策略网络结合动作雅可比惩罚,能够学习生成平滑信号的控制策略,同时解决一系列具有不同特性的运动模仿任务,包括后空翻等动态运动以及各种具有挑战性的跑酷技能。最后,我们将此方法应用于为配备机械臂的物理四足机器人创建动态运动控制策略。

0
下载
关闭预览

相关内容

面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
27+阅读 · 2024年1月2日
专知会员服务
48+阅读 · 2021年7月2日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
19+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
20+阅读 · 2020年8月11日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
VIP会员
最新内容
澳大利亚发布《国防战略(2026年)》
专知会员服务
0+阅读 · 25分钟前
【CMU博士论文】迈向基于基础先验的 4D 感知研究
专知会员服务
0+阅读 · 21分钟前
全球高超音速武器最新发展趋势
专知会员服务
0+阅读 · 50分钟前
人工智能在战场行动中的演进及伊朗案例
专知会员服务
7+阅读 · 4月18日
美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
4+阅读 · 4月18日
【博士论文】面向城市环境的可解释计算机视觉
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员