The adoption of reinforcement learning for critical infrastructure defense introduces a vulnerability where sophisticated attackers can strategically exploit the defense algorithm's learning dynamics. While prior work addresses this vulnerability in the context of repeated normal-form games, its extension to the stochastic games remains an open research gap. We close this gap by examining stochastic security games between an RL defender and an omniscient attacker, utilizing a tractable linear influence network model. To overcome the structural limitations of prior methods, we propose and apply neuro-dynamic programming. Our experimental results demonstrate that the omniscient attacker can significantly outperform a naive defender, highlighting the critical vulnerability introduced by the learning dynamics and the effectiveness of the proposed strategy.


翻译:在关键基础设施防御中采用强化学习引入了一种脆弱性,即复杂攻击者能够策略性地利用防御算法的学习动态。尽管先前的研究在重复标准形式博弈的背景下探讨了这一脆弱性,但其向随机博弈的扩展仍是一个开放的研究缺口。我们通过研究强化学习防御者与全知攻击者之间的随机安全博弈,利用一种可处理的线性影响网络模型,填补了这一缺口。为克服先前方法的结构性限制,我们提出并应用了神经动态规划方法。实验结果表明,全知攻击者能够显著优于天真防御者,突显了学习动态引入的关键脆弱性以及所提出策略的有效性。

0
下载
关闭预览

相关内容

【ETHZ博士论文】在弱监督学习中施加和揭示群组结构
专知会员服务
21+阅读 · 2023年10月15日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
UCL& UC Berkeley | 深度强化学习中的泛化研究综述
专知会员服务
61+阅读 · 2021年11月22日
专知会员服务
24+阅读 · 2021年10月6日
专知会员服务
15+阅读 · 2021年9月25日
专知会员服务
16+阅读 · 2021年7月7日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
【CVPR2020-旷视】DPGN:分布传播图网络的小样本学习
专知会员服务
28+阅读 · 2020年4月1日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
176+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
Arxiv
27+阅读 · 2023年3月17日
VIP会员
最新内容
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
5+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
8+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
6+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
13+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
9+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
4+阅读 · 4月24日
相关VIP内容
【ETHZ博士论文】在弱监督学习中施加和揭示群组结构
专知会员服务
21+阅读 · 2023年10月15日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
UCL& UC Berkeley | 深度强化学习中的泛化研究综述
专知会员服务
61+阅读 · 2021年11月22日
专知会员服务
24+阅读 · 2021年10月6日
专知会员服务
15+阅读 · 2021年9月25日
专知会员服务
16+阅读 · 2021年7月7日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
【CVPR2020-旷视】DPGN:分布传播图网络的小样本学习
专知会员服务
28+阅读 · 2020年4月1日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员