Multi-Agent Reinforcement Learning (MARL) is increasingly deployed in safety-critical domains, yet methods for interpretable failure detection and attribution remain underdeveloped. We introduce a two-stage gradient-based framework that provides interpretable diagnostics for three critical failure analysis tasks: (1) detecting the true initial failure source (Patient-0); (2) validating why non-attacked agents may be flagged first due to domino effects; and (3) tracing how failures propagate through learned coordination pathways. Stage 1 performs interpretable per-agent failure detection via Taylor-remainder analysis of policy-gradient costs, declaring an initial Patient-0 candidate at the first threshold crossing. Stage 2 provides validation through geometric analysis of critic derivatives-first-order sensitivity and directional second-order curvature aggregated over causal windows to construct interpretable contagion graphs. This approach explains "downstream-first" detection anomalies by revealing pathways that amplify upstream deviations. Evaluated across 500 episodes in Simple Spread (3 and 5 agents) and 100 episodes in StarCraft II using MADDPG and HATRPO, our method achieves 88.2-99.4% Patient-0 detection accuracy while providing interpretable geometric evidence for detection decisions. By moving beyond black-box detection to interpretable gradient-level forensics, this framework offers practical tools for diagnosing cascading failures in safety-critical MARL systems.


翻译:多智能体强化学习(MARL)正日益应用于安全关键领域,然而针对可解释故障检测与归因的方法仍显不足。本文提出一种基于梯度的两阶段框架,为三项关键故障分析任务提供可解释诊断:(1)检测真实初始故障源(零号患者);(2)验证因连锁效应导致未受攻击智能体被率先标记的原因;(3)追踪故障如何通过习得的协调路径传播。第一阶段通过策略梯度成本的泰勒余项分析实现可解释的逐智能体故障检测,在首次阈值突破时声明初始零号患者候选。第二阶段通过评论家导数的几何分析——聚合因果窗口内的一阶敏感性与方向二阶曲率——构建可解释传播图以提供验证。该方法通过揭示放大上游偏差的传播路径,解释了"下游优先"检测异常现象。在Simple Spread(3智能体与5智能体)的500个回合及StarCraft II(使用MADDPG与HATRPO算法)的100个回合中评估表明,本方法实现了88.2-99.4%的零号患者检测准确率,同时为检测决策提供了可解释的几何证据。该框架通过超越黑盒检测,实现梯度层面的可解释溯源分析,为安全关键MARL系统中的级联故障诊断提供了实用工具。

0
下载
关闭预览

相关内容

多智能体强化学习中的稳健且高效的通信
专知会员服务
25+阅读 · 2025年11月17日
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
27+阅读 · 2025年11月17日
《空战战术多智能体强化学习中的可解释性》最新报告
专知会员服务
82+阅读 · 2024年10月25日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
「博弈论视角下多智能体强化学习」研究综述
专知会员服务
184+阅读 · 2022年4月30日
「基于通信的多智能体强化学习」 进展综述
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
可解释的机器学习
平均机器
25+阅读 · 2019年2月25日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月16日
VIP会员
相关VIP内容
多智能体强化学习中的稳健且高效的通信
专知会员服务
25+阅读 · 2025年11月17日
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
27+阅读 · 2025年11月17日
《空战战术多智能体强化学习中的可解释性》最新报告
专知会员服务
82+阅读 · 2024年10月25日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
「博弈论视角下多智能体强化学习」研究综述
专知会员服务
184+阅读 · 2022年4月30日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员