We explore sim-to-real transfer of deep reinforcement learning controllers for a heavy vehicle with active suspensions designed for traversing rough terrain. While related research primarily focuses on lightweight robots with electric motors and fast actuation, this study uses a forestry vehicle with a complex hydraulic driveline and slow actuation. We simulate the vehicle using multibody dynamics and apply system identification to find an appropriate set of simulation parameters. We then train policies in simulation using various techniques to mitigate the sim-to-real gap, including domain randomization, action delays, and a reward penalty to encourage smooth control. In reality, the policies trained with action delays and a penalty for erratic actions perform at nearly the same level as in simulation. In experiments on level ground, the motion trajectories closely overlap when turning to either side, as well as in a route tracking scenario. When faced with a ramp that requires active use of the suspensions, the simulated and real motions are in close alignment. This shows that the actuator model together with system identification yields a sufficiently accurate model of the actuators. We observe that policies trained without the additional action penalty exhibit fast switching or bang-bang control. These present smooth motions and high performance in simulation but transfer poorly to reality. We find that policies make marginal use of the local height map for perception, showing no indications of look-ahead planning. However, the strong transfer capabilities entail that further development concerning perception and performance can be largely confined to simulation.


翻译:我们探索了深度强化学习控制器从仿真到现实(sim-to-real)的迁移,应用于为穿越崎岖地形而设计的重型车辆主动悬架系统。相关研究主要关注采用电机驱动及快速执行机构的轻量级机器人,而本研究采用了一台具有复杂液压传动系统和慢速执行机构的林业车辆。我们使用多体动力学对车辆进行仿真,并通过系统辨识确定一组合适的仿真参数。随后在仿真中采用多种技术训练策略以缩小仿真与现实的差距,包括域随机化、动作延迟以及用于鼓励平滑控制的奖励惩罚项。实验表明,采用动作延迟和对异常动作施加惩罚项训练的策略在实际环境中表现与仿真几乎相当。在水平地面实验中,车辆转向两侧及路线跟踪场景下的运动轨迹高度重合。当面对需要主动使用悬架的斜坡时,仿真与实际运动高度一致。这表明执行器模型结合系统辨识能够为执行器提供足够精确的模型。我们观察到未添加额外动作惩罚项训练的策略会出现快速切换或"bang-bang"控制现象。这些策略在仿真中呈现平滑运动和高性能表现,但较难迁移至现实环境。分析发现,策略对局部高程图的感知利用程度有限,未表现出前瞻性规划特征。然而,其强大的迁移能力意味着后续关于感知和性能的改进工作可以主要依托仿真环境进行。

0
下载
关闭预览

相关内容

IJCAI2022《对抗序列决策》教程,164页ppt
专知会员服务
47+阅读 · 2022年7月27日
专知会员服务
21+阅读 · 2021年5月1日
【ACL2020】多模态信息抽取,365页ppt
专知会员服务
151+阅读 · 2020年7月6日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
RL解决'BipedalWalkerHardcore-v2' (SOTA)
CreateAMind
31+阅读 · 2019年7月17日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
CVE-2018-7600 - Drupal 7.x 远程代码执行exp
黑客工具箱
14+阅读 · 2018年4月17日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
Layer Normalization原理及其TensorFlow实现
深度学习每日摘要
32+阅读 · 2017年6月17日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
26+阅读 · 2020年2月21日
VIP会员
最新内容
《Palantir的科技生态系统》
专知会员服务
11+阅读 · 6月2日
《反无人机系统传感器融合》90页报告
专知会员服务
12+阅读 · 6月2日
运用人工智能与卫星通信驱散“战争迷雾”
专知会员服务
5+阅读 · 6月2日
综述 | OPSD:大语言模型的在线策略自蒸馏
专知会员服务
7+阅读 · 6月1日
帕兰蒂尔Maven:军事人工智能的新纪元
专知会员服务
11+阅读 · 6月1日
相关资讯
RL解决'BipedalWalkerHardcore-v2' (SOTA)
CreateAMind
31+阅读 · 2019年7月17日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
CVE-2018-7600 - Drupal 7.x 远程代码执行exp
黑客工具箱
14+阅读 · 2018年4月17日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
Layer Normalization原理及其TensorFlow实现
深度学习每日摘要
32+阅读 · 2017年6月17日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员