Incorporating prior knowledge in reinforcement learning algorithms is mainly an open question. Even when insights about the environment dynamics are available, reinforcement learning is traditionally used in a tabula rasa setting and must explore and learn everything from scratch. In this paper, we consider the problem of exploiting priors about action sequence equivalence: that is, when different sequences of actions produce the same effect. We propose a new local exploration strategy calibrated to minimize collisions and maximize new state visitations. We show that this strategy can be computed at little cost, by solving a convex optimization problem. By replacing the usual epsilon-greedy strategy in a DQN, we demonstrate its potential in several environments with various dynamic structures.


翻译:将先前的知识纳入强化学习算法中,这主要是个未决问题。即使有关于环境动态的洞察力,强化学习也传统上用于塔布拉拉马萨环境中,必须从零开始探索和学习一切。在本文中,我们考虑了利用行动序列等同的前科的问题:即当不同的行动序列产生同样的效果时。我们提出了一个新的本地探索战略,以尽量减少碰撞和最大限度地增加新的国家访问。我们表明,这一战略可以通过解决二次曲线优化问题,以低成本来计算。通过在DQN中取代通常的epsilon-greedy战略,我们以各种动态结构来展示其在若干环境中的潜力。

0
下载
关闭预览

相关内容

【DeepMind】强化学习教程,83页ppt
专知会员服务
158+阅读 · 2020年8月7日
因果图,Causal Graphs,52页ppt
专知会员服务
253+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
VIP会员
相关VIP内容
【DeepMind】强化学习教程,83页ppt
专知会员服务
158+阅读 · 2020年8月7日
因果图,Causal Graphs,52页ppt
专知会员服务
253+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Top
微信扫码咨询专知VIP会员