一种可扩展的求解基于仿真的网络安全博弈的方法 (A Scalable Approach to Solving Simulation-Based Network Security Games) - 专知论文

会员服务 ·

0

安全博弈 · 博弈 · 大规模网络 · 投影 · 网络安全 ·

A Scalable Approach to Solving Simulation-Based Network Security Games

翻译：一种可扩展的求解基于仿真的网络安全博弈的方法

Michael Lanier,Yevgeniy Vorobeychik

We introduce MetaDOAR, a lightweight meta-controller that augments the Double Oracle / PSRO paradigm with a learned, partition-aware filtering layer and Q-value caching to enable scalable multi-agent reinforcement learning on very large cyber-network environments. MetaDOAR learns a compact state projection from per node structural embeddings to rapidly score and select a small subset of devices (a top-k partition) on which a conventional low-level actor performs focused beam search utilizing a critic agent. Selected candidate actions are evaluated with batched critic forwards and stored in an LRU cache keyed by a quantized state projection and local action identifiers, dramatically reducing redundant critic computation while preserving decision quality via conservative k-hop cache invalidation. Empirically, MetaDOAR attains higher player payoffs than SOTA baselines on large network topologies, without significant scaling issues in terms of memory usage or training time. This contribution provide a practical, theoretically motivated path to efficient hierarchical policy learning for large-scale networked decision problems.

翻译：我们提出MetaDOAR，一种轻量级元控制器，通过引入一个学习到的、分区感知的过滤层和Q值缓存来增强双Oracle/PSRO范式，从而实现在超大规模网络环境下的可扩展多智能体强化学习。MetaDOAR从每个节点的结构嵌入中学习紧凑的状态投影，以快速评分并选择一小部分设备（一个top-k分区），随后由传统底层执行器利用评论家智能体在此分区上进行聚焦束搜索。所选候选动作通过批处理的评论家前向传播进行评估，并存储在以量化状态投影和局部动作标识符为键的LRU缓存中，这通过保守的k跳缓存失效机制，在保持决策质量的同时显著减少了冗余的评论家计算。实验表明，在大型网络拓扑上，MetaDOAR获得了比现有最优基线更高的玩家收益，且在内存使用或训练时间方面未出现显著的扩展性问题。这项贡献为大规模网络化决策问题的高效分层策略学习提供了一条实用且具有理论依据的路径。

0

相关内容

安全博弈

《可解释性强化学习模型》

《可解释性强化学习模型》

专知会员服务

24+阅读 · 2月24日

《一种分层混合人工智能方法：在战斗模拟中整合深度强化学习与脚本代理》

《一种分层混合人工智能方法：在战斗模拟中整合深度强化学习与脚本代理》

专知会员服务

26+阅读 · 2025年12月6日

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

专知会员服务

25+阅读 · 2025年5月7日

《基于深度强化学习与可解释AI的战斗机导航与作战研究》

《基于深度强化学习与可解释AI的战斗机导航与作战研究》

专知会员服务

41+阅读 · 2025年3月1日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

专知会员服务

68+阅读 · 2022年3月20日

【西安交大等】元宇宙综述:基本原理、安全性和隐私性，A Survey on Metaverse: Fundamentals, Security, and Privacy

【西安交大等】元宇宙综述:基本原理、安全性和隐私性，A Survey on Metaverse: Fundamentals, Security, and Privacy

专知会员服务

45+阅读 · 2022年3月8日

【斯坦福大学课程】2021年深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

【斯坦福大学课程】2021年深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

专知会员服务

110+阅读 · 2022年3月2日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

最近必读的六篇【Meta-Learning（元学习）】相关论文和代码

最近必读的六篇【Meta-Learning（元学习）】相关论文和代码

专知

61+阅读 · 2019年11月3日

【斯坦福大学课程】深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

【斯坦福大学课程】深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

专知

29+阅读 · 2019年9月27日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

专知

134+阅读 · 2019年9月15日

【清华大学】元知识图谱推理

【清华大学】元知识图谱推理

专知

129+阅读 · 2019年9月2日

元学习（Meta Learning）最全论文、视频、书籍资源整理

元学习（Meta Learning）最全论文、视频、书籍资源整理

深度学习与NLP

22+阅读 · 2019年6月20日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

专知

10+阅读 · 2018年1月14日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

多输入-多输出网络量化系统的分析与综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

无线传感器网络中带几何约束的几类组合优化问题的近似算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于博弈论的电力广域控制系统信息安全建模和分析方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

A Scalable Approach to Solving Simulation-Based Network Security Games

Arxiv

0+阅读 · 3月17日

Learning to Recommend in Unknown Games

Arxiv

0+阅读 · 3月4日

Diffusing to Coordinate: Efficient Online Multi-Agent Diffusion Policies

Arxiv

0+阅读 · 2月20日

A Neuromorphic Architecture for Scalable Event-Based Control

Arxiv

0+阅读 · 2月20日

Extending quantum theory with AI-assisted deterministic game theory

Arxiv

0+阅读 · 2月19日

Puzzle it Out: Local-to-Global World Model for Offline Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月19日

Towards Production-Worthy Simulation for Autonomous Cyber Operations

Arxiv

0+阅读 · 2月13日

Solving Qualitative Multi-Objective Stochastic Games

Arxiv

0+阅读 · 2月13日

Interactive Virtual Games: Winners for Deep Cognitive Assessment

Arxiv

0+阅读 · 2月11日

NetWorld: Communication-Based Diffusion World Model for Multi-Agent Reinforcement Learning in Wireless Networks

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

大规模网络

最新内容

《基于强化学习的反无人机蜂群拦截优先级排序》

《基于强化学习的反无人机蜂群拦截优先级排序》

专知会员服务

6+阅读 · 今天8:20

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

专知会员服务

1+阅读 · 今天7:30

美军2026条令《指挥官装甲装备维护技能测试计划》

美军2026条令《指挥官装甲装备维护技能测试计划》

专知会员服务

3+阅读 · 今天7:28

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

专知会员服务

6+阅读 · 今天3:09

2026年俄罗斯新型喷气动力无人机Geran-5的技术规格

2026年俄罗斯新型喷气动力无人机Geran-5的技术规格

专知会员服务

3+阅读 · 今天2:50

基于数据优化的人机协同与机器人僚机

基于数据优化的人机协同与机器人僚机

专知会员服务

4+阅读 · 今天2:08

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

专知会员服务

10+阅读 · 今天1:51

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

专知会员服务

8+阅读 · 4月15日

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

专知会员服务

5+阅读 · 4月15日

美陆军设想无人系统司令部

美陆军设想无人系统司令部

专知会员服务

3+阅读 · 4月15日

【博士论文】已对齐人工智能系统的持久脆弱性

【博士论文】已对齐人工智能系统的持久脆弱性

专知会员服务

5+阅读 · 4月15日

人工智能对指挥控制的加速及其对陆军的影响（中文报告）

人工智能对指挥控制的加速及其对陆军的影响（中文报告）

专知会员服务

5+阅读 · 4月15日

扭曲还是编造？视频大语言模型幻觉研究综述

扭曲还是编造？视频大语言模型幻觉研究综述

专知会员服务

6+阅读 · 4月15日

美欧最新（2026）反无人机系统选项、技术与获取一览

美欧最新（2026）反无人机系统选项、技术与获取一览

专知会员服务

6+阅读 · 4月15日

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

专知会员服务

5+阅读 · 4月15日

相关VIP内容

《可解释性强化学习模型》

《可解释性强化学习模型》

专知会员服务

24+阅读 · 2月24日

《一种分层混合人工智能方法：在战斗模拟中整合深度强化学习与脚本代理》

《一种分层混合人工智能方法：在战斗模拟中整合深度强化学习与脚本代理》

专知会员服务

26+阅读 · 2025年12月6日

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

专知会员服务

25+阅读 · 2025年5月7日

《基于深度强化学习与可解释AI的战斗机导航与作战研究》

《基于深度强化学习与可解释AI的战斗机导航与作战研究》

专知会员服务

41+阅读 · 2025年3月1日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

专知会员服务

68+阅读 · 2022年3月20日

【西安交大等】元宇宙综述:基本原理、安全性和隐私性，A Survey on Metaverse: Fundamentals, Security, and Privacy

【西安交大等】元宇宙综述:基本原理、安全性和隐私性，A Survey on Metaverse: Fundamentals, Security, and Privacy

专知会员服务

45+阅读 · 2022年3月8日

【斯坦福大学课程】2021年深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

【斯坦福大学课程】2021年深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

专知会员服务

110+阅读 · 2022年3月2日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

《基于强化学习的反无人机蜂群拦截优先级排序》

美军2026条令《指挥官装甲装备维护技能测试计划》

相关资讯

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

最近必读的六篇【Meta-Learning（元学习）】相关论文和代码

最近必读的六篇【Meta-Learning（元学习）】相关论文和代码

专知

61+阅读 · 2019年11月3日

【斯坦福大学课程】深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

【斯坦福大学课程】深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

专知

29+阅读 · 2019年9月27日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

专知

134+阅读 · 2019年9月15日

【清华大学】元知识图谱推理

【清华大学】元知识图谱推理

专知

129+阅读 · 2019年9月2日

元学习（Meta Learning）最全论文、视频、书籍资源整理

元学习（Meta Learning）最全论文、视频、书籍资源整理

深度学习与NLP

22+阅读 · 2019年6月20日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

【干货】谷歌一个模型解决所有问题《One Model to Learn Them All》论文深度解读

专知

10+阅读 · 2018年1月14日

相关论文

A Scalable Approach to Solving Simulation-Based Network Security Games

Arxiv

0+阅读 · 3月17日

Learning to Recommend in Unknown Games

Arxiv

0+阅读 · 3月4日

Diffusing to Coordinate: Efficient Online Multi-Agent Diffusion Policies

Arxiv

0+阅读 · 2月20日

A Neuromorphic Architecture for Scalable Event-Based Control

Arxiv

0+阅读 · 2月20日

Extending quantum theory with AI-assisted deterministic game theory

Arxiv

0+阅读 · 2月19日

Puzzle it Out: Local-to-Global World Model for Offline Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月19日

Towards Production-Worthy Simulation for Autonomous Cyber Operations

Arxiv

0+阅读 · 2月13日

Solving Qualitative Multi-Objective Stochastic Games

Arxiv

0+阅读 · 2月13日

Interactive Virtual Games: Winners for Deep Cognitive Assessment

Arxiv

0+阅读 · 2月11日

NetWorld: Communication-Based Diffusion World Model for Multi-Agent Reinforcement Learning in Wireless Networks

Arxiv

0+阅读 · 1月31日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

多输入-多输出网络量化系统的分析与综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

无线传感器网络中带几何约束的几类组合优化问题的近似算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于博弈论的电力广域控制系统信息安全建模和分析方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员