Reinforcement Learning (RL) enables autonomous agents to learn policies from experience, but realistic problems often involve enormous state spaces, making learning and generalisation challenging. Abstraction and approximation are therefore essential. Relational Reinforcement Learning (RRL) offers a way to reason about objects and their relations, and the CARCASS framework by Martijn van Otterlo demonstrates how logical representations can model Markov Decision Processes (MDPs) in first-order domains. Originally implemented in Prolog, CARCASS leverages domain knowledge to create powerful abstractions. We explore Answer-Set Programming (ASP), which is a rich and, contrary to Prolog, fully declarative modelling language, to realise CARCASS abstractions. We evaluate our ASP-based implementation in case studies of two domains, viz. Blocks World and Minigrid. Our results indicate that CARCASS with ASP provides a promising approach to constructing abstractions for RL, especially when domain knowledge is available.


翻译:强化学习使自主智能体能够从经验中学习策略,但实际问题往往涉及巨大状态空间,导致学习与泛化面临挑战。因此抽象与近似方法至关重要。关系强化学习提供了对对象及其关系进行推理的途径,而Martijn van Otterlo提出的CARCASS框架展示了如何用逻辑表示对一阶域中的马尔可夫决策过程进行建模。该框架最初基于Prolog实现,通过利用领域知识构建强大的抽象方法。本文探索采用回答集编程(一种比Prolog更丰富的全声明式建模语言)来实现CARCASS抽象方法。我们在两个领域(积木世界与Minigrid)的案例研究中评估了基于ASP的实现方案。结果表明,基于ASP的CARCASS方法为构建强化学习抽象提供了有效途径,尤其在具备领域知识时表现突出。

0
下载
关闭预览

相关内容

【牛津大学博士论文】强化学习时间抽象和泛化,196页pdf
【布朗大学David Abel博士论文】强化学习抽象理论,297页pdf
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
20+阅读 · 2020年8月11日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
关于强化学习(附代码,练习和解答)
深度学习
38+阅读 · 2018年1月30日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
29+阅读 · 2023年2月10日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关VIP内容
【牛津大学博士论文】强化学习时间抽象和泛化,196页pdf
【布朗大学David Abel博士论文】强化学习抽象理论,297页pdf
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
20+阅读 · 2020年8月11日
强化学习开篇:Q-Learning原理详解
AINLP
37+阅读 · 2020年7月28日
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
关于强化学习(附代码,练习和解答)
深度学习
38+阅读 · 2018年1月30日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员