​强化学习具有在复杂环境下自动获取行为的潜力,但为了成功地部署它,必须解决许多实际的挑战。首先,在实际设置中,当代理尝试某个任务并失败时,环境必须以某种方式“重置”,以便代理能够再次尝试该任务。虽然在模拟中很容易,但在现实世界中可能需要相当多的人力,特别是在试验数量非常大的情况下。第二,现实世界的学习通常涉及复杂的、时间上延伸的行为,这种行为通常很难通过随机探索获得。虽然这两个问题乍一看似乎是不相关的,但在本研究中,我们将展示一个单一的方法如何允许代理在最小的监督下获得技能,同时消除重置的需要。我们这样做是通过利用这样的洞察力:为学习任务将代理“重置”为一组广泛的初始状态的需要,提供了一种学习多种“重置技能”的自然设置。我们提出了一个平衡重置目标和学习技能的通用和博弈公式,并证明了这种方法提高了无重置任务的性能,另外,我们获得的技能可以用来显著加速下游学习。

https://arxiv.org/abs/2011.05286

成为VIP会员查看完整内容
10

相关内容

【NeurIPS2020 】 数据扩充的图对比学习
专知会员服务
49+阅读 · 2020年11月9日
【Cell 2020】神经网络中的持续学习
专知会员服务
62+阅读 · 2020年11月7日
【NeurIPS2020】可靠图神经网络鲁棒聚合
专知会员服务
20+阅读 · 2020年11月6日
专知会员服务
33+阅读 · 2020年10月2日
【NeurIPS2020】图网的主邻域聚合
专知会员服务
33+阅读 · 2020年9月27日
专知会员服务
30+阅读 · 2020年9月18日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
利用神经网络进行序列到序列转换的学习
AI研习社
12+阅读 · 2019年4月26日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
【强化学习】如何开启强化学习的大门?
产业智能官
13+阅读 · 2017年9月10日
Soft Q Network
Arxiv
0+阅读 · 2020年12月14日
Arxiv
4+阅读 · 2018年9月25日
Arxiv
5+阅读 · 2018年6月5日
VIP会员
相关主题
最新内容
美军MAVEN项目全面解析:算法战架构
专知会员服务
8+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
6+阅读 · 今天8:19
最新“指挥控制”领域出版物合集(16份)
专知会员服务
13+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
19+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
4+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
5+阅读 · 4月12日
相关VIP内容
【NeurIPS2020 】 数据扩充的图对比学习
专知会员服务
49+阅读 · 2020年11月9日
【Cell 2020】神经网络中的持续学习
专知会员服务
62+阅读 · 2020年11月7日
【NeurIPS2020】可靠图神经网络鲁棒聚合
专知会员服务
20+阅读 · 2020年11月6日
专知会员服务
33+阅读 · 2020年10月2日
【NeurIPS2020】图网的主邻域聚合
专知会员服务
33+阅读 · 2020年9月27日
专知会员服务
30+阅读 · 2020年9月18日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
微信扫码咨询专知VIP会员