Reinforcement learning (RL) offers a compelling data-driven paradigm for synthesizing controllers for complex systems when accurate physical models are unavailable; however, most existing control-oriented RL methods assume stationarity and, therefore, struggle in real-world non-stationary deployments where system dynamics and operating conditions can change unexpectedly. Moreover, RL controllers acting in physical environments must satisfy safety constraints throughout their learning and execution phases, rendering transient violations during adaptation unacceptable. Although continual RL and safe RL have each addressed non-stationarity and safety, respectively, their intersection remains comparatively unexplored, motivating the study of safe continual RL algorithms that can adapt over the system's lifetime while preserving safety. In this work, we systematically investigate safe continual reinforcement learning by introducing three benchmark environments that capture safety-critical continual adaptation and by evaluating representative approaches from safe RL, continual RL, and their combinations. Our empirical results reveal a fundamental tension between maintaining safety constraints and preventing catastrophic forgetting under non-stationary dynamics, with existing methods generally failing to achieve both objectives simultaneously. To address this shortcoming, we examine regularization-based strategies that partially mitigate this trade-off and characterize their benefits and limitations. Finally, we outline key open challenges and research directions toward developing safe, resilient learning-based controllers capable of sustained autonomous operation in changing environments.


翻译:强化学习(RL)为在缺乏精确物理模型时合成复杂系统控制器提供了一种有说服力的数据驱动范式;然而,现有大多数面向控制的RL方法假设环境平稳,因此在系统动力学与运行条件可能意外变化的真实世界非平稳部署中表现不佳。此外,在物理环境中运行的RL控制器必须在其学习与执行阶段满足安全约束,这使得适应过程中的瞬态违反行为不可接受。尽管持续强化学习和安全强化学习分别解决了非平稳性与安全性问题,但二者的交叉领域仍相对未被探索,这激发了可在系统生命周期内适应并同时保持安全性的安全持续强化学习算法的研究。在本工作中,我们通过引入三个捕捉安全关键持续适应性的基准环境,并评估来自安全RL、持续RL及二者组合的代表性方法,系统性地研究了安全持续强化学习。我们的实验结果表明,在非平稳动力学下,维持安全约束与防止灾难性遗忘之间存在根本性张力,现有方法通常无法同时实现这两个目标。为解决这一缺陷,我们考察了可部分缓解该权衡的正则化策略,并刻画了其优势与局限性。最后,我们概述了走向开发能在变化环境中持续自主运行的安全、弹性基于学习控制器所面临的关键开放挑战与研究方向。

0
下载
关闭预览

相关内容

持续强化学习研究综述
专知会员服务
41+阅读 · 2025年6月30日
【斯坦福博士论文】非平稳环境中的深度强化学习算法
专知会员服务
32+阅读 · 2024年12月9日
【博士论文】安全的线上和线下强化学习,142页pdf
专知会员服务
23+阅读 · 2024年6月12日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
28+阅读 · 2024年1月2日
安全强化学习综述
专知会员服务
69+阅读 · 2023年8月23日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
关于强化学习(附代码,练习和解答)
深度学习
38+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
22+阅读 · 2023年11月2日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
持续强化学习研究综述
专知会员服务
41+阅读 · 2025年6月30日
【斯坦福博士论文】非平稳环境中的深度强化学习算法
专知会员服务
32+阅读 · 2024年12月9日
【博士论文】安全的线上和线下强化学习,142页pdf
专知会员服务
23+阅读 · 2024年6月12日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
28+阅读 · 2024年1月2日
安全强化学习综述
专知会员服务
69+阅读 · 2023年8月23日
基于模型的强化学习综述
专知会员服务
149+阅读 · 2022年7月13日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员