Combined with demonstrations, deep reinforcement learning can efficiently develop policies for manipulators. However, it takes time to collect sufficient high-quality demonstrations in practice. And human demonstrations may be unsuitable for robots. The non-Markovian process and over-reliance on demonstrations are further challenges. For example, we found that RL agents are sensitive to demonstration quality in manipulation tasks and struggle to adapt to demonstrations directly from humans. Thus it is challenging to leverage low-quality and insufficient demonstrations to assist reinforcement learning in training better policies, and sometimes, limited demonstrations even lead to worse performance. We propose a new algorithm named TD3fG (TD3 learning from a generator) to solve these problems. It forms a smooth transition from learning from experts to learning from experience. This innovation can help agents extract prior knowledge while reducing the detrimental effects of the demonstrations. Our algorithm performs well in Adroit manipulator and MuJoCo tasks with limited demonstrations.


翻译:结合演示,深度强化学习能够高效地为机械臂制定策略。然而,在实践中收集足够数量的高质量演示需要时间,且人类演示可能不适用于机器人。非马尔可夫过程和对演示的过度依赖是进一步的挑战。例如,我们发现强化学习智能体在操作任务中对演示质量敏感,且难以适应直接来自人类的演示。因此,利用低质量和不足的演示来辅助强化学习训练出更好的策略具有挑战性,有时有限的演示甚至会导致更差的性能。我们提出了一种名为TD3fG(从生成器学习的TD3算法)的新算法来解决这些问题。该算法实现了从向专家学习到从经验学习的平滑过渡。这一创新有助于智能体在减少演示负面影响的同时提取先验知识。我们的算法在有限演示下的Adroit机械臂和MuJoCo任务中表现良好。

0
下载
关闭预览

相关内容

【ICDM2022教程】多目标优化与推荐,173页ppt
专知会员服务
47+阅读 · 2022年12月24日
 【SIGGRAPH 2020】人像阴影处理,Portrait Shadow Manipulation
专知会员服务
29+阅读 · 2020年5月19日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
重磅开讲:图灵奖得主—— Joseph Sifakis
THU数据派
0+阅读 · 2022年6月13日
量化金融强化学习论文集合
专知
14+阅读 · 2019年12月18日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
VIP会员
最新内容
《通往人工通用智能之路上的均衡策略》
专知会员服务
5+阅读 · 6月3日
《Palantir的科技生态系统》
专知会员服务
15+阅读 · 6月2日
《反无人机系统传感器融合》90页报告
专知会员服务
16+阅读 · 6月2日
运用人工智能与卫星通信驱散“战争迷雾”
专知会员服务
8+阅读 · 6月2日
相关资讯
重磅开讲:图灵奖得主—— Joseph Sifakis
THU数据派
0+阅读 · 2022年6月13日
量化金融强化学习论文集合
专知
14+阅读 · 2019年12月18日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员