We introduce MetaDOAR, a lightweight meta-controller that augments the Double Oracle / PSRO paradigm with a learned, partition-aware filtering layer and Q-value caching to enable scalable multi-agent reinforcement learning on very large cyber-network environments. MetaDOAR learns a compact state projection from per node structural embeddings to rapidly score and select a small subset of devices (a top-k partition) on which a conventional low-level actor performs focused beam search utilizing a critic agent. Selected candidate actions are evaluated with batched critic forwards and stored in an LRU cache keyed by a quantized state projection and local action identifiers, dramatically reducing redundant critic computation while preserving decision quality via conservative k-hop cache invalidation. Empirically, MetaDOAR attains higher player payoffs than SOTA baselines on large network topologies, without significant scaling issues in terms of memory usage or training time. This contribution provide a practical, theoretically motivated path to efficient hierarchical policy learning for large-scale networked decision problems.


翻译:本文提出MetaDOAR,一种轻量级元控制器,它通过引入一个学习到的、分区感知的过滤层和Q值缓存机制来增强双Oracle/PSRO范式,从而实现在超大规模网络环境下的可扩展多智能体强化学习。MetaDOAR从每个节点的结构嵌入中学习一个紧凑的状态投影,以快速评分并选择一小部分设备(一个top-k分区),随后由传统的底层执行器在这些设备上利用评论家智能体进行聚焦束搜索。所选候选动作通过批处理的评论家前向传播进行评估,并存储在以量化状态投影和局部动作标识符为键的LRU缓存中,这通过保守的k跳缓存失效策略,在保持决策质量的同时显著减少了冗余的评论家计算。实验表明,在大型网络拓扑上,MetaDOAR获得了比现有最先进基线更高的玩家收益,且在内存使用或训练时间方面未出现显著的扩展性问题。这一贡献为大规模网络化决策问题的高效分层策略学习提供了一条实用且具有理论依据的路径。

0
下载
关闭预览

相关内容

《可解释性强化学习模型》
专知会员服务
24+阅读 · 2月24日
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
【清华大学】元知识图谱推理
专知
129+阅读 · 2019年9月2日
元学习(Meta Learning)最全论文、视频、书籍资源整理
深度学习与NLP
22+阅读 · 2019年6月20日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关VIP内容
《可解释性强化学习模型》
专知会员服务
24+阅读 · 2月24日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员