Predictive safety filters (PSFs) leverage model predictive control to enforce constraint satisfaction during deep reinforcement learning (RL) exploration, yet their reliance on first-principles models or Gaussian processes limits scalability and broader applicability. Meanwhile, model-based RL (MBRL) methods routinely employ probabilistic ensemble (PE) neural networks to capture complex, high-dimensional dynamics from data with minimal prior knowledge. However, existing attempts to integrate PEs into PSFs lack rigorous uncertainty quantification. We introduce the Uncertainty-Aware Predictive Safety Filter (UPSi), a PSF that provides rigorous safety predictions using PE dynamics models by formulating future outcomes as reachable sets. UPSi introduces an explicit certainty constraint that prevents model exploitation and integrates seamlessly into common MBRL frameworks. We evaluate UPSi within Dyna-style MBRL on standard safe RL benchmarks and report substantial improvements in exploration safety over prior neural network PSFs while maintaining performance on par with standard MBRL. UPSi bridges the gap between the scalability and generality of modern MBRL and the safety guarantees of predictive safety filters.


翻译:预测安全滤波器(PSF)利用模型预测控制在深度强化学习探索过程中强制执行约束满足,但这类方法依赖第一性原理模型或高斯过程,限制了其可扩展性和更广泛适用性。与此同时,基于模型的强化学习(MBRL)方法通常采用概率集成神经网络,从数据中捕捉复杂高维动力学,且所需先验知识极少。然而,现有将概率集成模型整合到预测安全滤波器的尝试缺乏严格的量化不确定性分析。我们提出不确定性感知预测安全滤波器(UPSi),这是一种利用概率集成动力学模型通过将未来结果构建为可达集来提供严格安全预测的预测安全滤波器。UPSi引入显式的确定性约束,可防止模型过度利用,并无缝集成到常见MBRL框架中。我们在标准安全强化学习基准上对Dyna式MBRL中的UPSi进行评估,结果显示相较于先前的神经网络预测安全滤波器,该方法在探索安全性上取得显著提升,同时维持与标准MBRL相当的性能。UPSi弥合了现代MBRL的可扩展性与普适性同预测安全滤波器安全性保证之间的差距。

0
下载
关闭预览

相关内容

【斯坦福博士论文】概率机器学习中的不确定性原理
专知会员服务
27+阅读 · 2025年8月4日
《图神经网络不确定性》最新综述
专知会员服务
28+阅读 · 2024年3月13日
【NeurIPS2022】可解释机器学习的安全性:一种最大偏差方法
对抗机器学习在网络入侵检测领域的应用
专知会员服务
35+阅读 · 2022年1月4日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
网络安全态势感知
计算机与网络安全
26+阅读 · 2018年10月14日
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
10+阅读 · 2024年3月11日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
4+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员