Learning composable policies for environments with complex rules and tasks is a challenging problem. We introduce a hierarchical reinforcement learning framework called the Logical Options Framework (LOF) that learns policies that are satisfying, optimal, and composable. LOF efficiently learns policies that satisfy tasks by representing the task as an automaton and integrating it into learning and planning. We provide and prove conditions under which LOF will learn satisfying, optimal policies. And lastly, we show how LOF's learned policies can be composed to satisfy unseen tasks with only 10-50 retraining steps. We evaluate LOF on four tasks in discrete and continuous domains, including a 3D pick-and-place environment.


翻译:对于具有复杂规则和任务的环境,我们引入了一个名为“逻辑选择框架”的等级强化学习框架(LOF),以学习满足、最佳和可成型的政策;LOF有效地学习了能够满足任务的政策,将任务作为自动图进行,并将其纳入学习和规划;我们提供并证明LOF能够学习满意、最佳政策的条件;最后,我们展示了LOF的学习政策如何组成,以仅仅以10-50的再培训步骤来完成不可见的任务。我们评估LOF在独立和连续领域(包括3D选址环境)的四项任务。

0
下载
关闭预览

相关内容

【AAAI2021-斯坦福】身份感知的图神经网络
专知会员服务
39+阅读 · 2021年1月27日
【CIKM2020】神经逻辑推理,Neural Logic Reasoning
专知会员服务
51+阅读 · 2020年8月25日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Embedding Logical Queries on Knowledge Graphs
Arxiv
3+阅读 · 2019年2月19日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关VIP内容
【AAAI2021-斯坦福】身份感知的图神经网络
专知会员服务
39+阅读 · 2021年1月27日
【CIKM2020】神经逻辑推理,Neural Logic Reasoning
专知会员服务
51+阅读 · 2020年8月25日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
相关资讯
Top
微信扫码咨询专知VIP会员