We consider the problem of learning the optimal policy for Markov decision processes with safety constraints. We formulate the problem in a reach-avoid setup. Our goal is to design online reinforcement learning algorithms that ensure safety constraints with arbitrarily high probability during the learning phase. To this end, we first propose an algorithm based on the optimism in the face of uncertainty (OFU) principle. Based on the first algorithm, we propose our main algorithm, which utilizes entropy regularization. We investigate the finite-sample analysis of both algorithms and derive their regret bounds. We demonstrate that the inclusion of entropy regularization improves the regret and drastically controls the episode-to-episode variability that is inherent in OFU-based safe RL algorithms.


翻译:本文研究具有安全约束的马尔可夫决策过程中的最优策略学习问题。我们将该问题表述为到达-规避框架。我们的目标是设计在线强化学习算法,确保在学习阶段以任意高概率满足安全约束。为此,我们首先提出一种基于不确定性乐观原则(OFU)的算法。基于该算法,我们进一步提出利用熵正则化的核心算法。我们对两种算法进行有限样本分析,并推导其遗憾界。研究表明,引入熵正则化能够改善遗憾界,并显著控制基于OFU的安全强化学习算法固有的幕间波动性。

0
下载
关闭预览

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
《可解释性强化学习模型》
专知会员服务
14+阅读 · 2月24日
【NeurIPS2025】熵正则化与分布强化学习的收敛定理
专知会员服务
12+阅读 · 2025年10月12日
【NeurIPS2023】强化学习中的概率推理:正确的方法
专知会员服务
28+阅读 · 2023年11月25日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
17+阅读 · 2018年10月11日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
22+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
22+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员