Ensuring the safe exploration of reinforcement learning (RL) agents is critical for deployment in real-world systems. Yet existing approaches struggle to strike the right balance: methods that tightly enforce safety often cripple task performance, while those that prioritize reward leave safety constraints frequently violated, producing diffuse cost landscapes that flatten gradients and stall policy improvement. We introduce the Uncertain Safety Critic (USC), a novel approach that integrates uncertainty-aware modulation and refinement into critic training. By concentrating conservatism in uncertain and costly regions while preserving sharp gradients in safe areas, USC enables policies to achieve effective reward-safety trade-offs. Extensive experiments show that USC reduces safety violations by approximately 40% while maintaining competitive or higher rewards, and reduces the error between predicted and true cost gradients by approximately 83%, breaking the prevailing trade-off between safety and performance and paving the way for scalable safe RL.


翻译:确保强化学习(RL)智能体的安全探索对于在现实世界系统中的部署至关重要。然而,现有方法难以取得恰当的平衡:严格强制执行安全性的方法通常会严重损害任务性能,而优先考虑奖励的方法则常常违反安全约束,产生扩散的成本景观,从而平滑梯度并阻碍策略改进。我们引入了不确定性安全批评者(USC),这是一种新颖的方法,将不确定性感知调制和精细化集成到批评者训练中。通过将保守性集中在不确定和高成本区域,同时在安全区域保持锐利梯度,USC使策略能够实现有效的奖励-安全性权衡。大量实验表明,USC将安全违规减少了约40%,同时保持竞争性或更高的奖励,并将预测成本梯度与真实成本梯度之间的误差减少了约83%,打破了安全与性能之间普遍存在的权衡,为可扩展的安全RL铺平了道路。

0
下载
关闭预览

相关内容

深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
【ICML2024】悲观遇上风险:风险敏感的离线强化学习
专知会员服务
25+阅读 · 2024年7月11日
【博士论文】安全的线上和线下强化学习,142页pdf
专知会员服务
23+阅读 · 2024年6月12日
安全强化学习综述
专知会员服务
68+阅读 · 2023年8月23日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月27日
VIP会员
相关VIP内容
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
【ICML2024】悲观遇上风险:风险敏感的离线强化学习
专知会员服务
25+阅读 · 2024年7月11日
【博士论文】安全的线上和线下强化学习,142页pdf
专知会员服务
23+阅读 · 2024年6月12日
安全强化学习综述
专知会员服务
68+阅读 · 2023年8月23日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员