Shields to Guarantee Probabilistic Safety in MDPs - 专知论文

会员服务 ·

0

概率 · 事件 · 约束 · 系统 · 形式化 ·

Shields to Guarantee Probabilistic Safety in MDPs

翻译：MDP中保证概率安全性的防护机制

Linus Heck,Filip Macák,Roman Andriushchenko,Milan Češka,Sebastian Junges

from arxiv, Accepted to CAV 2026

Shielding is a prominent model-based technique to ensure safety of autonomous agents. Classical shielding aims to ensure that nothing bad ever happens and comes with strong guarantees about safety and maximal permissiveness. However, shielding systems for probabilistic safety, where something bad is allowed to happen with an acceptable probability, has proven to be more intricate. This paper presents a formal framework that conservatively extends classical shields to probabilistic safety. In this framework, we (i) demonstrate the impossibility of preserving the strong guarantees on safety and permissiveness, (ii) provide natural shields with weaker guarantees, and (iii) introduce offline and online shield constructions ensuring strong safety guarantees. The empirical evaluation highlights the practical advantages of the new shields, as well as their computational feasibility.

翻译：防护是一种基于模型的先进技术，用于确保自主智能体的安全性。经典防护机制旨在保证绝对不发生危险事件，并提供关于安全性和最大许可性的强约束保证。然而，针对概率安全性的防护系统（允许以可接受概率发生危险事件）的实现已被证明更为复杂。本文提出一个形式化框架，将经典防护机制保守地扩展到概率安全性领域。在该框架中，我们(i)论证了无法同时保留安全性与许可性的强约束保证，(ii)提出具有较弱保证的自然防护机制，以及(iii)引入能确保强安全性保证的离线和在线防护构建方法。实验评估凸显了新防护机制的实际优势及其计算可行性。

0

相关内容

本话题关于日常用语「概率」，用于讨论生活中的运气、机会，及赌博、彩票、游戏中的「技巧」。关于抽象数学概念「概率」的讨论，请转概率（数学）话题。

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

19+阅读 · 6月4日

《用于军事杀伤链的概率模型》

《用于军事杀伤链的概率模型》

专知会员服务

59+阅读 · 1月31日

【CMU博士论文】重新思考面向风险感知的社会型具身智能的安全保障体系

【CMU博士论文】重新思考面向风险感知的社会型具身智能的安全保障体系

专知会员服务

15+阅读 · 2025年5月9日

机密计算保障人工智能系统安全研究报告

机密计算保障人工智能系统安全研究报告

专知会员服务

19+阅读 · 2025年1月20日

《大型语言模型保护措施》综述

《大型语言模型保护措施》综述

专知会员服务

29+阅读 · 2024年6月6日

【ETHZ博士论文】机器学习系统的概率鲁棒性保证，312页pdf

【ETHZ博士论文】机器学习系统的概率鲁棒性保证，312页pdf

专知会员服务

37+阅读 · 2024年2月19日

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

专知会员服务

51+阅读 · 2023年5月1日

《理解、评估和缓解人工智能系统中的安全风险》美海军67页论文

《理解、评估和缓解人工智能系统中的安全风险》美海军67页论文

专知会员服务

53+阅读 · 2023年3月25日

《综述：基于博弈论和机器学习的防御性欺骗方法》

《综述：基于博弈论和机器学习的防御性欺骗方法》

专知会员服务

51+阅读 · 2022年10月2日

如何构建安全AI？CMU白皮书《鲁棒安全人工智能》系统性阐述可靠AI系统构建

如何构建安全AI？CMU白皮书《鲁棒安全人工智能》系统性阐述可靠AI系统构建

专知会员服务

57+阅读 · 2022年6月15日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

40+阅读 · 2022年10月19日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

专知

43+阅读 · 2022年7月27日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

介绍WAF以及过滤机制

介绍WAF以及过滤机制

黑白之道

22+阅读 · 2019年2月5日

区块链隐私保护研究综述——祝烈煌详解

区块链隐私保护研究综述——祝烈煌详解

计算机研究与发展

23+阅读 · 2018年11月28日

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

AI100

11+阅读 · 2017年11月17日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

随机接入中的分布式功率控制和数据包编码传输

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

基于信道加密的物理层安全理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率本体的CPS入侵检测方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

保险金融市场中相依风险模型的随机最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

Safe Exploration via Policy Priors

Arxiv

0+阅读 · 6月15日

A Survey on Agentic Security: Applications, Threats and Defenses

Arxiv

0+阅读 · 6月12日

SAIGuard: Communication-State Simulation for Proactive Defense of LLM Multi-Agent Systems

Arxiv

0+阅读 · 6月10日

Defeater Cards: Characterizing and Managing Safety Assurance Case Defeaters

Arxiv

0+阅读 · 6月9日

Permissive Safety Through Trusted Inference: Verifiable Belief-Space Neural Safety Filters for Assured Interactive Robotics

Arxiv

0+阅读 · 6月1日

Robust Shielding for Safe Reinforcement Learning

Arxiv

0+阅读 · 5月29日

Think Twice Before You Act: Enhancing Agent Behavioral Safety with Thought Correction

Arxiv

0+阅读 · 5月26日

Shields to Guarantee Probabilistic Safety in MDPs

Arxiv

0+阅读 · 5月11日

Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning

Arxiv

0+阅读 · 5月11日

Robust Probabilistic Shielding for Safe Offline Reinforcement Learning

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

19+阅读 · 6月4日

《用于军事杀伤链的概率模型》

《用于军事杀伤链的概率模型》

专知会员服务

59+阅读 · 1月31日

【CMU博士论文】重新思考面向风险感知的社会型具身智能的安全保障体系

【CMU博士论文】重新思考面向风险感知的社会型具身智能的安全保障体系

专知会员服务

15+阅读 · 2025年5月9日

机密计算保障人工智能系统安全研究报告

机密计算保障人工智能系统安全研究报告

专知会员服务

19+阅读 · 2025年1月20日

《大型语言模型保护措施》综述

《大型语言模型保护措施》综述

专知会员服务

29+阅读 · 2024年6月6日

【ETHZ博士论文】机器学习系统的概率鲁棒性保证，312页pdf

【ETHZ博士论文】机器学习系统的概率鲁棒性保证，312页pdf

专知会员服务

37+阅读 · 2024年2月19日

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

专知会员服务

51+阅读 · 2023年5月1日

《理解、评估和缓解人工智能系统中的安全风险》美海军67页论文

《理解、评估和缓解人工智能系统中的安全风险》美海军67页论文

专知会员服务

53+阅读 · 2023年3月25日

《综述：基于博弈论和机器学习的防御性欺骗方法》

《综述：基于博弈论和机器学习的防御性欺骗方法》

专知会员服务

51+阅读 · 2022年10月2日

如何构建安全AI？CMU白皮书《鲁棒安全人工智能》系统性阐述可靠AI系统构建

如何构建安全AI？CMU白皮书《鲁棒安全人工智能》系统性阐述可靠AI系统构建

专知会员服务

57+阅读 · 2022年6月15日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

40+阅读 · 2022年10月19日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

推荐！【中文版】《指挥、控制、通信和情报（C3I）系统安全性综述：漏洞、攻击和对策》35页最新论文

专知

43+阅读 · 2022年7月27日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

介绍WAF以及过滤机制

介绍WAF以及过滤机制

黑白之道

22+阅读 · 2019年2月5日

区块链隐私保护研究综述——祝烈煌详解

区块链隐私保护研究综述——祝烈煌详解

计算机研究与发展

23+阅读 · 2018年11月28日

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

AI100

11+阅读 · 2017年11月17日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

相关论文

Safe Exploration via Policy Priors

Arxiv

0+阅读 · 6月15日

A Survey on Agentic Security: Applications, Threats and Defenses

Arxiv

0+阅读 · 6月12日

SAIGuard: Communication-State Simulation for Proactive Defense of LLM Multi-Agent Systems

Arxiv

0+阅读 · 6月10日

Defeater Cards: Characterizing and Managing Safety Assurance Case Defeaters

Arxiv

0+阅读 · 6月9日

Permissive Safety Through Trusted Inference: Verifiable Belief-Space Neural Safety Filters for Assured Interactive Robotics

Arxiv

0+阅读 · 6月1日

Robust Shielding for Safe Reinforcement Learning

Arxiv

0+阅读 · 5月29日

Think Twice Before You Act: Enhancing Agent Behavioral Safety with Thought Correction

Arxiv

0+阅读 · 5月26日

Shields to Guarantee Probabilistic Safety in MDPs

Arxiv

0+阅读 · 5月11日

Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning

Arxiv

0+阅读 · 5月11日

Robust Probabilistic Shielding for Safe Offline Reinforcement Learning

Arxiv

0+阅读 · 5月11日

相关基金

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

随机接入中的分布式功率控制和数据包编码传输

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

基于信道加密的物理层安全理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率本体的CPS入侵检测方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

保险金融市场中相依风险模型的随机最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员