This paper proposes an exploration-efficient Deep Reinforcement Learning with Reference policy (DRLR) framework for learning robotics tasks that incorporates demonstrations. The DRLR framework is developed based on an algorithm called Imitation Bootstrapped Reinforcement Learning (IBRL). We propose to improve IBRL by modifying the action selection module. The proposed action selection module provides a calibrated Q-value, which mitigates the bootstrapping error that otherwise leads to inefficient exploration. Furthermore, to prevent the RL policy from converging to a sub-optimal policy, SAC is used as the RL policy instead of TD3. The effectiveness of our method in mitigating bootstrapping error and preventing overfitting is empirically validated by learning two robotics tasks: bucket loading and open drawer, which require extensive interactions with the environment. Simulation results also demonstrate the robustness of the DRLR framework across tasks with both low and high state-action dimensions, and varying demonstration qualities. To evaluate the developed framework on a real-world industrial robotics task, the bucket loading task is deployed on a real wheel loader. The sim2real results validate the successful deployment of the DRLR framework.


翻译:本文提出了一种融合演示的探索高效深度强化学习参考策略框架,用于学习机器人任务。该框架基于一种称为模仿引导强化学习的算法构建。我们建议通过修改动作选择模块来改进该算法。所提出的动作选择模块提供经过校准的Q值,从而减轻了原本会导致低效探索的引导误差。此外,为防止强化学习策略收敛至次优策略,我们采用SAC而非TD3作为强化学习策略。通过让机器人学习需要与环境进行大量交互的铲斗装载和抽屉开启两项任务,我们实证验证了本方法在减轻引导误差和防止过拟合方面的有效性。仿真结果还表明,该框架在状态-动作维度高低不同、演示质量各异的任务中均表现出鲁棒性。为在实际工业机器人任务中评估所开发框架,我们将铲斗装载任务部署于真实轮式装载机。仿真到现实的迁移结果验证了该框架的成功部署。

0
下载
关闭预览

相关内容

基于内在动机的深度强化学习探索方法综述
专知会员服务
40+阅读 · 2023年5月13日
基于课程学习的深度强化学习研究综述
专知会员服务
58+阅读 · 2022年11月28日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员