Contract-Based Compositional Shielding for Safe Multi-Agent Reinforcement Learning - 专知论文

会员服务 ·

0

智能体 · 最优 · 多智能体强化学习 · 多智能体 · 强化学习 ·

Contract-Based Compositional Shielding for Safe Multi-Agent Reinforcement Learning

翻译：基于合约的组合屏蔽方法用于安全的多智能体强化学习

Omar Adalat,Edwin Hamel-De le Court,Francesco Belardinelli

Safe coordination problems surface in multi-agent reinforcement learning when global safety cannot be enforced by any agent unilaterally: the admissibility of one agent's action may depend on the dynamics of other agents. Decentralised shields can enforce safety at runtime, but purely factorised permissions often exclude optimal team behaviour that is safe only through coordination. We study deterministic safety guarantees for agents trained and deployed under decentralised execution, recovering team-optimal safe behaviour without centralised runtime control. Agents have a shared global specification $φ$ in the safety fragment of Linear Temporal Logic ($\mathsf{LTL}_{\mathsf{safe}}$ ), and select among tuples of local $\mathsf{LTL}_{\mathsf{safe}}$ obligations whose conjunction implies the global specification $φ$. Each agent may rely on the other agents' local obligations as assumptions because the whole contract tuple is certified simultaneously and allows projection into local action masks. At learning time, a non-stationary multi-armed bandit chooses among a library of local $\mathsf{LTL}_{\mathsf{safe}}$ obligations to select the tuple that optimises team reward, all without forgoing end-to-end safety. We evaluate the approach across 6 environments and 15 algorithmic variants.

翻译：在全局安全无法由任何智能体单方面强制实施时，多智能体强化学习中出现安全协调问题：一个智能体动作的可行性可能依赖于其他智能体的动态过程。去中心化屏蔽能在运行时强制执行安全性，但纯粹的因子化权限通常会排除通过协调才能实现安全的、最优的团队行为。我们研究了在去中心化执行下训练和部署的智能体的确定性安全保证，在无需中心化运行时控制的情况下恢复了团队最优的安全行为。智能体共享共享一个以线性时序逻辑（$\mathsf{LTL}_{\mathsf{safe}}$）安全片段表述的全局规范$φ$，并选择一组局部$\mathsf{LTL}_{\mathsf{safe}}$义务的元组，这些义务的合取蕴含全局规范$φ$。每个智能体可将其他智能体的局部义务作为假设依赖，因为整个合约元组是同时认证的，并允许投影到局部动作掩码中。在训练时，非平稳多臂赌博机从本地$\mathsf{LTL}_{\mathsf{safe}}$义务库中选择元组以优化团队奖励，且全程不放弃端到端安全性。我们在6个环境和15种算法变体上评估了该方法。

0

相关内容

智能体

智能体，顾名思义，就是具有智能的实体，英文名是Agent。

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

专知会员服务

20+阅读 · 4月18日

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

26+阅读 · 2025年11月17日

面向关系建模的合作多智能体深度强化学习综述

面向关系建模的合作多智能体深度强化学习综述

专知会员服务

42+阅读 · 2025年4月18日

开放环境下的协作多智能体强化学习进展综述

开放环境下的协作多智能体强化学习进展综述

专知会员服务

35+阅读 · 2025年1月19日

多智能体强化学习控制与决策研究综述

多智能体强化学习控制与决策研究综述

专知会员服务

50+阅读 · 2024年11月23日

基于多智能体强化学习的博弈综述

基于多智能体强化学习的博弈综述

专知会员服务

53+阅读 · 2024年11月23日

基于学习机制的多智能体强化学习综述

基于学习机制的多智能体强化学习综述

专知会员服务

64+阅读 · 2024年4月16日

基于多智能体强化学习的协同目标分配

基于多智能体强化学习的协同目标分配

专知会员服务

142+阅读 · 2023年9月5日

多智能体协同决策方法研究

多智能体协同决策方法研究

专知会员服务

136+阅读 · 2022年12月15日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向物理层安全的高能-谱效率协作干扰机理及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Safety-Contract Graph Multi-Agent Reinforcement Learning for Autonomous Network Security Response

Arxiv

0+阅读 · 6月11日

Individual Control Barrier Functions-Guided Diffusion Model for Safe Offline Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月10日

Multi-agent rendezvous in fluid flows via reinforcement learning

Arxiv

0+阅读 · 6月9日

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

Arxiv

1+阅读 · 6月4日

Automata-Conditioned Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月1日

Robust Shielding for Safe Reinforcement Learning

Arxiv

0+阅读 · 5月29日

Offline Multi-agent Reinforcement Learning via Sequential Score Decomposition

Arxiv

0+阅读 · 5月28日

Superhuman Safe and Agile Racing through Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月21日

Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints

Arxiv

0+阅读 · 5月20日

Robust Probabilistic Shielding for Safe Offline Reinforcement Learning

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

多智能体强化学习

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

专知会员服务

20+阅读 · 4月18日

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

26+阅读 · 2025年11月17日

面向关系建模的合作多智能体深度强化学习综述

面向关系建模的合作多智能体深度强化学习综述

专知会员服务

42+阅读 · 2025年4月18日

开放环境下的协作多智能体强化学习进展综述

开放环境下的协作多智能体强化学习进展综述

专知会员服务

35+阅读 · 2025年1月19日

多智能体强化学习控制与决策研究综述

多智能体强化学习控制与决策研究综述

专知会员服务

50+阅读 · 2024年11月23日

基于多智能体强化学习的博弈综述

基于多智能体强化学习的博弈综述

专知会员服务

53+阅读 · 2024年11月23日

基于学习机制的多智能体强化学习综述

基于学习机制的多智能体强化学习综述

专知会员服务

64+阅读 · 2024年4月16日

基于多智能体强化学习的协同目标分配

基于多智能体强化学习的协同目标分配

专知会员服务

142+阅读 · 2023年9月5日

多智能体协同决策方法研究

多智能体协同决策方法研究

专知会员服务

136+阅读 · 2022年12月15日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Safety-Contract Graph Multi-Agent Reinforcement Learning for Autonomous Network Security Response

Arxiv

0+阅读 · 6月11日

Individual Control Barrier Functions-Guided Diffusion Model for Safe Offline Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月10日

Multi-agent rendezvous in fluid flows via reinforcement learning

Arxiv

0+阅读 · 6月9日

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

Arxiv

1+阅读 · 6月4日

Automata-Conditioned Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 6月1日

Robust Shielding for Safe Reinforcement Learning

Arxiv

0+阅读 · 5月29日

Offline Multi-agent Reinforcement Learning via Sequential Score Decomposition

Arxiv

0+阅读 · 5月28日

Superhuman Safe and Agile Racing through Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月21日

Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints

Arxiv

0+阅读 · 5月20日

Robust Probabilistic Shielding for Safe Offline Reinforcement Learning

Arxiv

0+阅读 · 5月11日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向物理层安全的高能-谱效率协作干扰机理及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员