Offline safe reinforcement learning (RL) is increasingly important for cyber-physical systems (CPS), where safety violations during training are unacceptable and only pre-collected data are available. Existing offline safe RL methods typically balance reward-safety tradeoffs through constraint relaxation or joint optimization, but they often lack structural mechanisms to prevent safety drift. We propose LexiSafe, a lexicographic offline RL framework designed to preserve safety-aligned behavior. We first develop LexiSafe-SC, a single-cost formulation for standard offline safe RL, and derive safety-violation and performance-suboptimality bounds that together yield sample-complexity guarantees. We then extend the framework to hierarchical safety requirements with LexiSafe-MC, which supports multiple safety costs and admits its own sample-complexity analysis. Empirically, LexiSafe demonstrates reduced safety violations and improved task performance compared to constrained offline baselines. By unifying lexicographic prioritization with structural bias, LexiSafe offers a practical and theoretically grounded approach for safety-critical CPS decision-making.


翻译:离线安全强化学习(RL)对于信息物理系统(CPS)日益重要,因为在训练期间发生安全违规是不可接受的,且仅有预先收集的数据可用。现有的离线安全RL方法通常通过约束松弛或联合优化来权衡奖励与安全,但它们往往缺乏防止安全漂移的结构性机制。我们提出了LexiSafe,一个旨在保持安全对齐行为的词典序离线RL框架。我们首先针对标准离线安全RL开发了单成本公式LexiSafe-SC,并推导了安全违规和性能次优性界限,二者共同提供了样本复杂度保证。随后,我们将框架扩展至具有层次化安全需求的LexiSafe-MC,它支持多重安全成本并允许进行自身的样本复杂度分析。实验表明,与受限离线基线方法相比,LexiSafe展现出更少的安全违规和更好的任务性能。通过将词典序优先级与结构性偏差相统一,LexiSafe为安全关键型CPS决策提供了一种实用且理论依据充分的方法。

0
下载
关闭预览

相关内容

【博士论文】安全的线上和线下强化学习,142页pdf
专知会员服务
23+阅读 · 2024年6月12日
安全强化学习综述
专知会员服务
68+阅读 · 2023年8月23日
【Texas 大学】强化学习领域的课程学习:一个框架和综述
专知会员服务
73+阅读 · 2020年3月22日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月27日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员