Building Better Environments for Autonomous Cyber Defence - 专知论文

会员服务 ·

0

Building Better Environments for Autonomous Cyber Defence

翻译：构建更优自主网络防御环境

Chris Hicks,Elizabeth Bates,Shae McFadden,Isaac Symes Thompson,Myles Foley,Ed Chapman,Nickolas Espinosa Dice,Ankita Samaddar,Joshua Sylvester,Himanshu Neema,Nicholas Butts,Nate Foster,Ahmad Ridley,Zoe M,Paul Jones

In November 2025, the authors ran a workshop on the topic of what makes a good reinforcement learning (RL) environment for autonomous cyber defence (ACD). This paper details the knowledge shared by participants both during the workshop and shortly afterwards by contributing herein. The workshop participants come from academia, industry, and government, and have extensive hands-on experience designing and working with RL and cyber environments. While there is now a sizeable body of literature describing work in RL for ACD, there is nevertheless a great deal of tradecraft, domain knowledge, and common hazards which are not detailed comprehensively in a single resource. With a specific focus on building better environments to train and evaluate autonomous RL agents in network defence scenarios, including government and critical infrastructure networks, the contributions of this work are twofold: (1) a framework for decomposing the interface between RL cyber environments and real systems, and (2) guidelines on current best practice for RL-based ACD environment development and agent evaluation, based on the key findings from our workshop.

翻译：2025年11月，作者举办了一场研讨会，主题是如何为自主网络防御（ACD）构建良好的强化学习（RL）环境。本文详细记录了与会者在研讨会期间及会后贡献的知识。与会者来自学术界、工业界和政府机构，在设计和运用RL及网络环境方面拥有丰富的实践经验。尽管目前已有大量文献描述RL在ACD中的应用，但仍有大量工艺诀窍、领域知识和常见风险未在单一资源中全面阐述。本文聚焦于构建更优环境，以训练和评估网络防御场景（包括政府和关键基础设施网络）中的自主RL智能体，其贡献包含两方面：（1）提出一个用于分解RL网络环境与真实系统之间接口的框架；（2）基于研讨会关键发现，提供当前基于RL的ACD环境开发与智能体评估的最佳实践指南。

0

相关内容

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

专知会员服务

18+阅读 · 5月8日

《用于建模系统攻击路径的强化学习环境》

《用于建模系统攻击路径的强化学习环境》

专知会员服务

22+阅读 · 3月5日

《利用生成式人工智能与大语言模型革新自主系统安全，构建零信任架构》232页最新干货书

《利用生成式人工智能与大语言模型革新自主系统安全，构建零信任架构》232页最新干货书

专知会员服务

22+阅读 · 2月21日

《自主防御系统中的强化学习：战略应用与挑战》

《自主防御系统中的强化学习：战略应用与挑战》

专知会员服务

27+阅读 · 2025年7月16日

中文版 | 人工智能、威胁情报与网络韧性助力美国防部与国土安全部优先事项制定

中文版 | 人工智能、威胁情报与网络韧性助力美国防部与国土安全部优先事项制定

专知会员服务

10+阅读 · 2025年5月11日

《训练自主网络防御智能体：军事网络中的挑战与机遇》最新报告

《训练自主网络防御智能体：军事网络中的挑战与机遇》最新报告

专知会员服务

49+阅读 · 2025年2月6日

《用于自主网络行动的竞争性强化学习》113页

《用于自主网络行动的竞争性强化学习》113页

专知会员服务

29+阅读 · 2025年1月12日

【伯克利博士论文】通过强化学习实现安全且可信的决策制定

【伯克利博士论文】通过强化学习实现安全且可信的决策制定

专知会员服务

34+阅读 · 2024年10月10日

《自主网络防御：从实验室到行动的路线图》2023最新47页报告

《自主网络防御：从实验室到行动的路线图》2023最新47页报告

专知会员服务

52+阅读 · 2023年7月2日

推荐！《用于多域作战的预测、自适应、稳健和分布式网络的统一框架：第二年报告》2022美国陆军研究实验室20余位作者最新88页技术报告

推荐！《用于多域作战的预测、自适应、稳健和分布式网络的统一框架：第二年报告》2022美国陆军研究实验室20余位作者最新88页技术报告

专知会员服务

89+阅读 · 2022年10月26日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

专知

11+阅读 · 2022年9月29日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

AI前线

21+阅读 · 2019年10月28日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于智慧的下一代网络资源优化机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

复杂环境下异构自主海洋航行器网络的协同优化控制

国家自然科学基金

4+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

网络环境下服务系统的自主管理研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps

Arxiv

0+阅读 · 4月23日

Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own

Arxiv

0+阅读 · 4月23日

Safe Continual Reinforcement Learning in Non-stationary Environments

Arxiv

0+阅读 · 4月21日

SafeAdapt: Provably Safe Policy Updates in Deep Reinforcement Learning

Arxiv

0+阅读 · 4月10日

Automated Generation of Cybersecurity Exercise Scenarios

Arxiv

0+阅读 · 4月1日

DeepXplain: XAI-Guided Autonomous Defense Against Multi-Stage APT Campaigns

Arxiv

0+阅读 · 3月25日

DeepXplain: XAI-Guided Autonomous Defense Against Multi-Stage APT Campaigns

Arxiv

0+阅读 · 3月24日

Highly Autonomous Cyber-Capable Agents: Anticipating Capabilities, Tactics, and Strategic Implications

Arxiv

1+阅读 · 3月12日

Shifting Engagement With Cybersecurity: How People Discover and Share Cybersecurity Content at Work and at Home

Arxiv

0+阅读 · 2月23日

Automated Cyber Defence: A Review

Arxiv

23+阅读 · 2023年3月8日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 今天15:03

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

专知会员服务

18+阅读 · 5月8日

《用于建模系统攻击路径的强化学习环境》

《用于建模系统攻击路径的强化学习环境》

专知会员服务

22+阅读 · 3月5日

《利用生成式人工智能与大语言模型革新自主系统安全，构建零信任架构》232页最新干货书

《利用生成式人工智能与大语言模型革新自主系统安全，构建零信任架构》232页最新干货书

专知会员服务

22+阅读 · 2月21日

《自主防御系统中的强化学习：战略应用与挑战》

《自主防御系统中的强化学习：战略应用与挑战》

专知会员服务

27+阅读 · 2025年7月16日

中文版 | 人工智能、威胁情报与网络韧性助力美国防部与国土安全部优先事项制定

中文版 | 人工智能、威胁情报与网络韧性助力美国防部与国土安全部优先事项制定

专知会员服务

10+阅读 · 2025年5月11日

《训练自主网络防御智能体：军事网络中的挑战与机遇》最新报告

《训练自主网络防御智能体：军事网络中的挑战与机遇》最新报告

专知会员服务

49+阅读 · 2025年2月6日

《用于自主网络行动的竞争性强化学习》113页

《用于自主网络行动的竞争性强化学习》113页

专知会员服务

29+阅读 · 2025年1月12日

【伯克利博士论文】通过强化学习实现安全且可信的决策制定

【伯克利博士论文】通过强化学习实现安全且可信的决策制定

专知会员服务

34+阅读 · 2024年10月10日

《自主网络防御：从实验室到行动的路线图》2023最新47页报告

《自主网络防御：从实验室到行动的路线图》2023最新47页报告

专知会员服务

52+阅读 · 2023年7月2日

推荐！《用于多域作战的预测、自适应、稳健和分布式网络的统一框架：第二年报告》2022美国陆军研究实验室20余位作者最新88页技术报告

推荐！《用于多域作战的预测、自适应、稳健和分布式网络的统一框架：第二年报告》2022美国陆军研究实验室20余位作者最新88页技术报告

专知会员服务

89+阅读 · 2022年10月26日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

专知

11+阅读 · 2022年9月29日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

面对无处不在的黑客威胁，如何保护智能设备免受攻击？

AI前线

21+阅读 · 2019年10月28日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

相关论文

Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps

Arxiv

0+阅读 · 4月23日

Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own

Arxiv

0+阅读 · 4月23日

Safe Continual Reinforcement Learning in Non-stationary Environments

Arxiv

0+阅读 · 4月21日

SafeAdapt: Provably Safe Policy Updates in Deep Reinforcement Learning

Arxiv

0+阅读 · 4月10日

Automated Generation of Cybersecurity Exercise Scenarios

Arxiv

0+阅读 · 4月1日

DeepXplain: XAI-Guided Autonomous Defense Against Multi-Stage APT Campaigns

Arxiv

0+阅读 · 3月25日

DeepXplain: XAI-Guided Autonomous Defense Against Multi-Stage APT Campaigns

Arxiv

0+阅读 · 3月24日

Highly Autonomous Cyber-Capable Agents: Anticipating Capabilities, Tactics, and Strategic Implications

Arxiv

1+阅读 · 3月12日

Shifting Engagement With Cybersecurity: How People Discover and Share Cybersecurity Content at Work and at Home

Arxiv

0+阅读 · 2月23日

Automated Cyber Defence: A Review

Arxiv

23+阅读 · 2023年3月8日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于智慧的下一代网络资源优化机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

复杂环境下异构自主海洋航行器网络的协同优化控制

国家自然科学基金

4+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

网络环境下服务系统的自主管理研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员