Shielding is a prominent model-based technique to ensure safety of autonomous agents. Classical shielding aims to ensure that nothing bad ever happens and comes with strong guarantees about safety and maximal permissiveness. However, shielding systems for probabilistic safety, where something bad is allowed to happen with an acceptable probability, has proven to be more intricate. This paper presents a formal framework that conservatively extends classical shields to probabilistic safety. In this framework, we (i) demonstrate the impossibility of preserving the strong guarantees on safety and permissiveness, (ii) provide natural shields with weaker guarantees, and (iii) introduce offline and online shield constructions ensuring strong safety guarantees. The empirical evaluation highlights the practical advantages of the new shields, as well as their computational feasibility.


翻译:防护是一种基于模型的先进技术,用于确保自主智能体的安全性。经典防护机制旨在保证绝对不发生危险事件,并提供关于安全性和最大许可性的强约束保证。然而,针对概率安全性的防护系统(允许以可接受概率发生危险事件)的实现已被证明更为复杂。本文提出一个形式化框架,将经典防护机制保守地扩展到概率安全性领域。在该框架中,我们(i)论证了无法同时保留安全性与许可性的强约束保证,(ii)提出具有较弱保证的自然防护机制,以及(iii)引入能确保强安全性保证的离线和在线防护构建方法。实验评估凸显了新防护机制的实际优势及其计算可行性。

0
下载
关闭预览

相关内容

本话题关于日常用语「概率」,用于讨论生活中的运气、机会,及赌博、彩票、游戏中的「技巧」。关于抽象数学概念「概率」的讨论,请转 概率(数学)话题。
《美陆军最新条令:兵力防护》
专知会员服务
19+阅读 · 6月4日
《用于军事杀伤链的概率模型》
专知会员服务
59+阅读 · 1月31日
机密计算保障人工智能系统安全研究报告
专知会员服务
19+阅读 · 2025年1月20日
《大型语言模型保护措施》综述
专知会员服务
29+阅读 · 2024年6月6日
《综述:基于博弈论和机器学习的防御性欺骗方法》
专知会员服务
51+阅读 · 2022年10月2日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
介绍WAF以及过滤机制
黑白之道
22+阅读 · 2019年2月5日
区块链隐私保护研究综述——祝烈煌详解
计算机研究与发展
23+阅读 · 2018年11月28日
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月15日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
《美陆军最新条令:兵力防护》
专知会员服务
19+阅读 · 6月4日
《用于军事杀伤链的概率模型》
专知会员服务
59+阅读 · 1月31日
机密计算保障人工智能系统安全研究报告
专知会员服务
19+阅读 · 2025年1月20日
《大型语言模型保护措施》综述
专知会员服务
29+阅读 · 2024年6月6日
《综述:基于博弈论和机器学习的防御性欺骗方法》
专知会员服务
51+阅读 · 2022年10月2日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员