Biological agents learn and act intelligently in spite of a highly limited capacity to process and store information. Many real-world problems involve continuous control, which represents a difficult task for artificial intelligence agents. In this paper we explore the potential learning advantages a natural constraint on information flow might confer onto artificial agents in continuous control tasks. We focus on the model-free reinforcement learning (RL) setting and formalize our approach in terms of an information-theoretic constraint on the complexity of learned policies. We show that our approach emerges in a principled fashion from the application of rate-distortion theory. We implement a novel Capacity-Limited Actor-Critic (CLAC) algorithm and situate it within a broader family of RL algorithms such as the Soft Actor Critic (SAC) and Mutual Information Reinforcement Learning (MIRL) algorithm. Our experiments using continuous control tasks show that compared to alternative approaches, CLAC offers improvements in generalization between training and modified test environments. This is achieved in the CLAC model while displaying the high sample efficiency of similar methods.


翻译:尽管处理和储存信息的能力极为有限,生物剂仍然明智地学习和采取行动。许多现实世界问题涉及持续控制,这是人工智能剂的一项艰巨任务。我们在本文件中探讨对信息流动的自然限制可能给人工剂带来的潜在学习优势可能会在连续控制任务中赋予人工剂。我们侧重于无模型强化学习(RL)的设置和正式确定我们的方法,即对所学政策的复杂性有一个信息理论限制。我们表明,我们的方法是从应用率扭曲理论中以有原则的方式出现的。我们实施了一种新型的能力限制作用者-Critic(CLAC)算法,并将其置于一个范围更广的RL算法体系中,如Soft Actor Critic(SAC)和相互信息强化学习(MIRL)算法。我们利用连续控制任务进行的实验表明,与替代方法相比,CLAC在培训和修改测试环境之间的普遍化得到了改进。这在CLAC模型中得到了实现,同时展示了类似方法的高样本效率。

0
下载
关闭预览

相关内容

让 iOS 8 和 OS X Yosemite 无缝切换的一个新特性。 > Apple products have always been designed to work together beautifully. But now they may really surprise you. With iOS 8 and OS X Yosemite, you’ll be able to do more wonderful things than ever before.

Source: Apple - iOS 8
【CMU】最新深度学习课程, Introduction to Deep Learning
专知会员服务
38+阅读 · 2020年9月12日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
32+阅读 · 2020年4月23日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
14+阅读 · 2018年4月27日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Residual Policy Learning
Arxiv
4+阅读 · 2018年12月15日
Arxiv
4+阅读 · 2018年12月3日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
VIP会员
相关VIP内容
【CMU】最新深度学习课程, Introduction to Deep Learning
专知会员服务
38+阅读 · 2020年9月12日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
32+阅读 · 2020年4月23日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
14+阅读 · 2018年4月27日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关论文
Residual Policy Learning
Arxiv
4+阅读 · 2018年12月15日
Arxiv
4+阅读 · 2018年12月3日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
Top
微信扫码咨询专知VIP会员