Unified Emulation-Simulation Training Environment for Autonomous Cyber Agents - 专知论文

会员服务 ·

0

智能代理 · 高保真 · 全集成 · 脱机 · 网络安全 ·

2023 年 4 月 3 日

Unified Emulation-Simulation Training Environment for Autonomous Cyber Agents

翻译：统一的自主网络智能体仿真训练环境

Li Li,Jean-Pierre S. El Rami,Adrian Taylor,James Hailing Rao,Thomas Kunz

from arxiv, To be published in the Proceedings of the 5th International Conference on Machine Learning for Networking (MLN'2022)

Autonomous cyber agents may be developed by applying reinforcement and deep reinforcement learning (RL/DRL), where agents are trained in a representative environment. The training environment must simulate with high-fidelity the network Cyber Operations (CyOp) that the agent aims to explore. Given the complexity of net-work CyOps, a good simulator is difficult to achieve. This work presents a systematic solution to automatically generate a high-fidelity simulator in the Cyber Gym for Intelligent Learning (CyGIL). Through representation learning and continuous learning, CyGIL provides a unified CyOp training environment where an emulated CyGIL-E automatically generates a simulated CyGIL-S. The simulator generation is integrated with the agent training process to further reduce the required agent training time. The agent trained in CyGIL-S is transferrable directly to CyGIL-E showing full transferability to the emulated "real" network. Experimental results are presented to demonstrate the CyGIL training performance. Enabling offline RL, the CyGIL solution presents a promising direction towards sim-to-real for leveraging RL agents in real-world cyber networks.

翻译：自主网络智能体可通过强化学习与深度强化学习（RL/DRL）进行开发，其中智能体需在具有代表性的环境中训练。该训练环境必须高保真地模拟智能体旨在探索的网络网络作战行动（CyOp）。鉴于网络作战的复杂性，构建一个优秀的仿真器具有挑战性。本文提出了一种系统化解决方案，可在智能学习网络健身房（CyGIL）中自动生成高保真仿真器。通过表示学习与持续学习，CyGIL提供了统一的网络作战训练环境，其中仿真型CyGIL-E能自动生成模拟型CyGIL-S。仿真器生成过程与智能体训练流程相集成，进一步缩短了所需的智能体训练时间。在CyGIL-S中训练的智能体可直接迁移至CyGIL-E，展现出对仿真"真实"网络的完全可迁移性。实验结果表明了CyGIL的训练性能。通过支持离线强化学习，CyGIL解决方案为在真实网络环境中部署基于强化学习的智能体开辟了从仿真到现实的可行路径。

0

相关内容

智能代理

【硬核书】深度强化学习实践手册：应用现代RL方法，包括深度Q网络、值迭代、策略梯度、TRPO、AlphaGo等，547页pdf

【硬核书】深度强化学习实践手册：应用现代RL方法，包括深度Q网络、值迭代、策略梯度、TRPO、AlphaGo等，547页pdf

专知会员服务

80+阅读 · 2022年12月11日

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

59+阅读 · 2022年12月10日

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

专知会员服务

237+阅读 · 2022年4月10日

【干货书】创建和部署深度学习应用，Programming PyTorch for Deep Learning Creating and Deploying Deep Learning Applications

【干货书】创建和部署深度学习应用，Programming PyTorch for Deep Learning Creating and Deploying Deep Learning Applications

专知会员服务

133+阅读 · 2022年3月17日

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

专知会员服务

138+阅读 · 2022年2月6日

《行为与认知机器人学》，241页pdf

《行为与认知机器人学》，241页pdf

专知会员服务

55+阅读 · 2021年4月11日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

17种深度强化学习算法用Pytorch实现

17种深度强化学习算法用Pytorch实现

新智元

31+阅读 · 2019年9月16日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

干货｜深度强化学习在面向任务的对话管理中的应用

干货｜深度强化学习在面向任务的对话管理中的应用

全球人工智能

13+阅读 · 2017年9月14日

【推荐】深度学习目标检测全面综述

【推荐】深度学习目标检测全面综述

机器学习研究会

21+阅读 · 2017年9月13日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

云计算环境信任链系统安全性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下移动Agent系统信任安全关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

无线传感器网络恶劣环境下可持续性通信的研究

国家自然科学基金

3+阅读 · 2013年12月31日

褐煤O2/CO2燃烧Cr的氧化机理及模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

情景驱动的机会发现关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于交互式动态影响图的未知对手模型学习

国家自然科学基金

3+阅读 · 2012年12月31日

可信工作流管理系统的软件机理与方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于信息表示与传导机制的异质agent计算金融模型

国家自然科学基金

0+阅读 · 2011年12月31日

多体量子系统的有限时间解纠缠及其对量子信息过程的影响

国家自然科学基金

0+阅读 · 2009年12月31日

Recent Advancements in Deep Learning Applications and Methods for Autonomous Navigation: A Comprehensive Review

Arxiv

0+阅读 · 2023年5月23日

From Model-Based to Data-Driven Simulation: Challenges and Trends in Autonomous Driving

Arxiv

0+阅读 · 2023年5月23日

FEDORA: Flying Event Dataset fOr Reactive behAvior

Arxiv

0+阅读 · 2023年5月22日

Phased data augmentation for training PixelCNNs with VQ-VAE-2 and limited data

Arxiv

0+阅读 · 2023年5月22日

DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving

Arxiv

0+阅读 · 2023年5月20日

Autonomous Drone Racing: A Survey

Arxiv

27+阅读 · 2023年1月5日

Dynamic neighbourhood optimisation for task allocation using multi-agent

Arxiv

102+阅读 · 2022年5月11日

Deep Learning for UAV-based Object Detection and Tracking: A Survey

Arxiv

64+阅读 · 2021年10月25日

Building Intelligent Autonomous Navigation Agents

Arxiv

25+阅读 · 2021年6月25日

A Survey on Distributed Machine Learning

Arxiv

45+阅读 · 2019年12月20日

VIP会员

文章信息

相关主题

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

7+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

8+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

2+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

4+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

6+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

5+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

7+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

8+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

6+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

8+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

8+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

相关VIP内容

【硬核书】深度强化学习实践手册：应用现代RL方法，包括深度Q网络、值迭代、策略梯度、TRPO、AlphaGo等，547页pdf

【硬核书】深度强化学习实践手册：应用现代RL方法，包括深度Q网络、值迭代、策略梯度、TRPO、AlphaGo等，547页pdf

专知会员服务

80+阅读 · 2022年12月11日

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

59+阅读 · 2022年12月10日

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

专知会员服务

237+阅读 · 2022年4月10日

【干货书】创建和部署深度学习应用，Programming PyTorch for Deep Learning Creating and Deploying Deep Learning Applications

【干货书】创建和部署深度学习应用，Programming PyTorch for Deep Learning Creating and Deploying Deep Learning Applications

专知会员服务

133+阅读 · 2022年3月17日

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

【干货书】机器学习设计模式，408页pdf，Machine Learning Design Patterns

专知会员服务

138+阅读 · 2022年2月6日

《行为与认知机器人学》，241页pdf

《行为与认知机器人学》，241页pdf

专知会员服务

55+阅读 · 2021年4月11日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

17种深度强化学习算法用Pytorch实现

17种深度强化学习算法用Pytorch实现

新智元

31+阅读 · 2019年9月16日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

干货｜深度强化学习在面向任务的对话管理中的应用

干货｜深度强化学习在面向任务的对话管理中的应用

全球人工智能

13+阅读 · 2017年9月14日

【推荐】深度学习目标检测全面综述

【推荐】深度学习目标检测全面综述

机器学习研究会

21+阅读 · 2017年9月13日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

Recent Advancements in Deep Learning Applications and Methods for Autonomous Navigation: A Comprehensive Review

Arxiv

0+阅读 · 2023年5月23日

From Model-Based to Data-Driven Simulation: Challenges and Trends in Autonomous Driving

Arxiv

0+阅读 · 2023年5月23日

FEDORA: Flying Event Dataset fOr Reactive behAvior

Arxiv

0+阅读 · 2023年5月22日

Phased data augmentation for training PixelCNNs with VQ-VAE-2 and limited data

Arxiv

0+阅读 · 2023年5月22日

DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving

Arxiv

0+阅读 · 2023年5月20日

Autonomous Drone Racing: A Survey

Arxiv

27+阅读 · 2023年1月5日

Dynamic neighbourhood optimisation for task allocation using multi-agent

Arxiv

102+阅读 · 2022年5月11日

Deep Learning for UAV-based Object Detection and Tracking: A Survey

Arxiv

64+阅读 · 2021年10月25日

Building Intelligent Autonomous Navigation Agents

Arxiv

25+阅读 · 2021年6月25日

A Survey on Distributed Machine Learning

Arxiv

45+阅读 · 2019年12月20日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

云计算环境信任链系统安全性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下移动Agent系统信任安全关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

无线传感器网络恶劣环境下可持续性通信的研究

国家自然科学基金

3+阅读 · 2013年12月31日

褐煤O2/CO2燃烧Cr的氧化机理及模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

情景驱动的机会发现关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于交互式动态影响图的未知对手模型学习

国家自然科学基金

3+阅读 · 2012年12月31日

可信工作流管理系统的软件机理与方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于信息表示与传导机制的异质agent计算金融模型

国家自然科学基金

0+阅读 · 2011年12月31日

多体量子系统的有限时间解纠缠及其对量子信息过程的影响

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员