Reinforcement learning provides a framework for learning control policies that can reproduce diverse motions for simulated characters. However, such policies often exploit unnatural high-frequency signals that are unachievable by humans or physical robots, making them poor representations of real-world behaviors. Existing work addresses this issue by adding a reward term that penalizes a large change in actions over time. This term often requires substantial tuning efforts. We propose to use the action Jacobian penalty, which penalizes changes in action with respect to the changes in simulated state directly through auto differentiation. This effectively eliminates unrealistic high-frequency control signals without task specific tuning. While effective, the action Jacobian penalty introduces significant computational overhead when used with traditional fully connected neural network architectures. To mitigate this, we introduce a new architecture called a Linear Policy Net (LPN) that significantly reduces the computational burden for calculating the action Jacobian penalty during training. In addition, a LPN requires no parameter tuning, exhibits faster learning convergence compared to baseline methods, and can be more efficiently queried during inference time compared to a fully connected neural network. We demonstrate that a Linear Policy Net, combined with the action Jacobian penalty, is able to learn policies that generate smooth signals while solving a number of motion imitation tasks with different characteristics, including dynamic motions such as a backflip and various challenging parkour skills. Finally, we apply this approach to create policies for dynamic motions on a physical quadrupedal robot equipped with an arm.


翻译:强化学习为学习能够复现模拟角色多样化运动的控制策略提供了一个框架。然而,此类策略常常利用人类或物理机器人无法实现的不自然高频信号,使其难以代表真实世界的行为。现有工作通过添加一个惩罚动作随时间发生较大变化的奖励项来解决此问题。该奖励项通常需要大量的调优工作。我们提出使用动作雅可比惩罚,它通过自动微分直接惩罚动作相对于模拟状态变化的改变。这有效地消除了不现实的高频控制信号,而无需针对特定任务进行调优。虽然有效,但当与传统全连接神经网络架构一起使用时,动作雅可比惩罚会引入显著的计算开销。为了缓解这个问题,我们引入了一种称为线性策略网络的新架构,它显著降低了训练期间计算动作雅可比惩罚的计算负担。此外,线性策略网络不需要参数调优,与基线方法相比展现出更快的学习收敛速度,并且在推理时比全连接神经网络具有更高的查询效率。我们证明,线性策略网络结合动作雅可比惩罚,能够学习生成平滑信号的控制策略,同时解决一系列具有不同特性的运动模仿任务,包括后空翻等动态运动以及各种具有挑战性的跑酷技能。最后,我们将此方法应用于为配备机械臂的物理四足机器人创建动态运动控制策略。

0
下载
关闭预览

相关内容

面向强化学习的可解释性研究综述
专知会员服务
44+阅读 · 2024年7月30日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
27+阅读 · 2024年1月2日
专知会员服务
48+阅读 · 2021年7月2日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
20+阅读 · 2020年8月11日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
《基于深度强化学习的反无人机技术研究》178页
“史诗怒火”行动与“AI中心战”模式的浮现
专知会员服务
3+阅读 · 6月10日
【CVPR2026教程】扩散模型的解析理解
专知会员服务
0+阅读 · 6月10日
马赛克战:俄乌战场透析
专知会员服务
13+阅读 · 6月10日
《利用人工智能增强军事决策》
专知会员服务
4+阅读 · 6月10日
《自动机器学习在军事数据耕耘法中的应用》
专知会员服务
6+阅读 · 6月10日
为何指挥所生存能力要求范式转变
专知会员服务
5+阅读 · 6月10日
打造“新蛛网”模式与高科技动员
专知会员服务
4+阅读 · 6月10日
“蛛网”行动一周年:远程无人机战争
专知会员服务
3+阅读 · 6月10日
【剑桥博士论文】智能体-环境协同优化
专知会员服务
7+阅读 · 6月9日
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员