This work provides a state-of-the-art survey of continual safe online reinforcement learning (COSRL) methods. We discuss theoretical aspects, challenges, and open questions in building continual online safe reinforcement learning algorithms. We provide the taxonomy and the details of continual online safe reinforcement learning methods based on the type of safe learning mechanism that takes adaptation to nonstationarity into account. We categorize safety constraints formulation for online reinforcement learning algorithms, and finally, we discuss prospects for creating reliable, safe online learning algorithms. Keywords: safe RL in nonstationary environments, safe continual reinforcement learning under nonstationarity, HM-MDP, NSMDP, POMDP, safe POMDP, constraints for continual learning, safe continual reinforcement learning review, safe continual reinforcement learning survey, safe continual reinforcement learning, safe online learning under distribution shift, safe continual online adaptation, safe reinforcement learning, safe exploration, safe adaptation, constrained Markov decision processes, safe reinforcement learning, partially observable Markov decision process, safe reinforcement learning and hidden Markov decision processes, Safe Online Reinforcement Learning, safe online reinforcement learning, safe online reinforcement learning, safe meta-learning, safe meta-reinforcement learning, safe context-based reinforcement learning, formulating safety constraints for continual learning


翻译:本文对持续安全在线强化学习(COSRL)方法进行了前沿综述。我们讨论了构建持续在线安全强化学习算法的理论层面、挑战与开放性问题。基于考虑非平稳性适应的安全学习机制类型,我们提供了持续在线安全强化学习方法的分类体系与详细阐述。我们系统归类了在线强化学习算法的安全约束形式化方法,最后探讨了构建可靠、安全的在线学习算法的未来前景。关键词:非平稳环境下的安全强化学习,非平稳条件下的安全持续强化学习,HM-MDP,NSMDP,POMDP,安全POMDP,持续学习约束,安全持续强化学习综述,安全持续强化学习调研,安全持续强化学习,分布漂移下的安全在线学习,安全持续在线适应,安全强化学习,安全探索,安全适应,约束马尔可夫决策过程,安全强化学习,部分可观测马尔可夫决策过程,安全强化学习及隐马尔可夫决策过程,安全在线强化学习,安全在线强化学习,安全在线强化学习,安全元学习,安全元强化学习,安全基于上下文的强化学习,持续学习的安全约束形式化

0
下载
关闭预览

相关内容

持续强化学习研究综述
专知会员服务
41+阅读 · 2025年6月30日
【斯坦福博士论文】非平稳环境中的深度强化学习算法
专知会员服务
32+阅读 · 2024年12月9日
安全强化学习综述
专知会员服务
68+阅读 · 2023年8月23日
专知会员服务
135+阅读 · 2021年3月13日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
强化学习精品书籍
平均机器
26+阅读 · 2019年1月2日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
【干货】强化学习介绍
专知
12+阅读 · 2018年6月24日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
VIP会员
相关资讯
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
强化学习精品书籍
平均机器
26+阅读 · 2019年1月2日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
【干货】强化学习介绍
专知
12+阅读 · 2018年6月24日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员