SoK: The Pitfalls of Deep Reinforcement Learning for Cybersecurity - 专知论文

会员服务 ·

0

系统 · 网络安全 · 深度强化学习 · 对抗 · SEC ·

SoK: The Pitfalls of Deep Reinforcement Learning for Cybersecurity

翻译：系统化综述：深度强化学习在网络安全应用中的陷阱

Shae McFadden,Myles Foley,Elizabeth Bates,Ilias Tsingenopoulos,Sanyam Vyas,Vasilios Mavroudis,Chris Hicks,Fabio Pierazzi

Deep Reinforcement Learning (DRL) has achieved remarkable success in domains requiring sequential decision-making, motivating its application to cybersecurity problems. However, transitioning DRL from laboratory simulations to bespoke cyber environments can introduce numerous issues. This is further exacerbated by the often adversarial, non-stationary, and partially-observable nature of most cybersecurity tasks. In this paper, we identify and systematize 11 methodological pitfalls that frequently occur in DRL for cybersecurity (DRL4Sec) literature across the stages of environment modeling, agent training, performance evaluation, and system deployment. By analyzing 66 significant DRL4Sec papers (2018-2025), we quantify the prevalence of each pitfall and find an average of over five pitfalls per paper. We demonstrate the practical impact of these pitfalls using controlled experiments in (i) autonomous cyber defense, (ii) adversarial malware creation, and (iii) web security testing environments. Finally, we provide actionable recommendations for each pitfall to support the development of more rigorous and deployable DRL-based security systems.

翻译：深度强化学习（DRL）在需要序列决策的领域中取得了显著成功，这推动了其在网络安全问题中的应用。然而，将DRL从实验室仿真迁移到定制化的网络环境可能会引入诸多问题。大多数网络安全任务通常具有对抗性、非平稳性和部分可观测性，这进一步加剧了上述挑战。本文识别并系统化了在网络安全领域的深度强化学习（DRL4Sec）文献中，于环境建模、智能体训练、性能评估和系统部署阶段频繁出现的11个方法学陷阱。通过分析66篇重要的DRL4Sec论文（2018-2025年），我们量化了每个陷阱的普遍性，发现平均每篇论文存在超过五个陷阱。我们通过在（i）自主网络防御、（ii）对抗性恶意软件生成以及（iii）Web安全测试环境中的受控实验，展示了这些陷阱的实际影响。最后，我们针对每个陷阱提供了可操作的建议，以支持开发更严谨、更可部署的基于DRL的安全系统。

0

相关内容

面向软件工程的强化学习综述

面向软件工程的强化学习综述

专知会员服务

31+阅读 · 2025年7月21日

《可解释深度强化学习综述》

《可解释深度强化学习综述》

专知会员服务

40+阅读 · 2025年2月12日

深度强化学习探索算法最新综述，近200篇文献揭示挑战和未来方向

深度强化学习探索算法最新综述，近200篇文献揭示挑战和未来方向

专知会员服务

83+阅读 · 2021年11月11日

强化学习如何用于推荐？新南威尔士首篇《深度强化学习推荐系统》综述论文，32页pdf135篇参考文献

强化学习如何用于推荐？新南威尔士首篇《深度强化学习推荐系统》综述论文，32页pdf135篇参考文献

专知会员服务

36+阅读 · 2021年9月9日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

81+阅读 · 2021年5月23日

多Agent深度强化学习综述(中文版)，21页pdf

专知会员服务

118+阅读 · 2021年1月1日

深度强化学习方法及其在经济学中的应用综述，Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic

深度强化学习方法及其在经济学中的应用综述，Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic

专知会员服务

52+阅读 · 2020年4月7日

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

专知会员服务

121+阅读 · 2020年4月6日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

专知会员服务

48+阅读 · 2019年12月24日

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

专知

17+阅读 · 2022年11月18日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

综述| 当图神经网络遇上强化学习

综述| 当图神经网络遇上强化学习

图与推荐

35+阅读 · 2022年7月1日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

当深度强化学习遇见图神经网络

当深度强化学习遇见图神经网络

专知

227+阅读 · 2019年10月21日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

专知

26+阅读 · 2019年2月19日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

专知

31+阅读 · 2018年9月1日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

网络化控制系统安全理论与关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application

Arxiv

0+阅读 · 3月12日

Contact-Safe Reinforcement Learning with ProMP Reparameterization and Energy Awareness

Arxiv

0+阅读 · 3月6日

A Survey for Deep Reinforcement Learning Based Network Intrusion Detection

Arxiv

0+阅读 · 3月2日

Vulnerability Analysis of Safe Reinforcement Learning via Inverse Constrained Reinforcement Learning

Arxiv

0+阅读 · 2月18日

Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models

Arxiv

0+阅读 · 2月17日

Beyond Rewards in Reinforcement Learning for Cyber Defence

Arxiv

0+阅读 · 2月12日

Provably Optimal Reinforcement Learning under Safety Filtering

Arxiv

0+阅读 · 2月11日

Reinforcement Learning in Strategy-Based and Atari Games: A Review of Google DeepMinds Innovations

Arxiv

0+阅读 · 2月11日

On Computation and Reinforcement Learning

On Computation and Reinforcement Learning

Arxiv

0+阅读 · 2月5日

The Enhanced Physics-Informed Kolmogorov-Arnold Networks: Applications of Newton's Laws in Financial Deep Reinforcement Learning (RL) Algorithms

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

深度强化学习

最新内容

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

9+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

4+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

5+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

5+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

7+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

5+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

15+阅读 · 5月28日

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

专知会员服务

14+阅读 · 5月28日

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

专知会员服务

9+阅读 · 5月28日

马赛克防御与分布式指挥：伊朗的回击（中文版）

马赛克防御与分布式指挥：伊朗的回击（中文版）

专知会员服务

10+阅读 · 5月28日

《基于理论的威慑效能评估》

《基于理论的威慑效能评估》

专知会员服务

8+阅读 · 5月28日

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《移动旅级战斗队转型中的支援单元指挥控制挑战》

专知会员服务

15+阅读 · 5月27日

相关VIP内容

面向软件工程的强化学习综述

面向软件工程的强化学习综述

专知会员服务

31+阅读 · 2025年7月21日

《可解释深度强化学习综述》

《可解释深度强化学习综述》

专知会员服务

40+阅读 · 2025年2月12日

深度强化学习探索算法最新综述，近200篇文献揭示挑战和未来方向

深度强化学习探索算法最新综述，近200篇文献揭示挑战和未来方向

专知会员服务

83+阅读 · 2021年11月11日

强化学习如何用于推荐？新南威尔士首篇《深度强化学习推荐系统》综述论文，32页pdf135篇参考文献

强化学习如何用于推荐？新南威尔士首篇《深度强化学习推荐系统》综述论文，32页pdf135篇参考文献

专知会员服务

36+阅读 · 2021年9月9日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

81+阅读 · 2021年5月23日

多Agent深度强化学习综述(中文版)，21页pdf

专知会员服务

118+阅读 · 2021年1月1日

深度强化学习方法及其在经济学中的应用综述，Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic

深度强化学习方法及其在经济学中的应用综述，Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic

专知会员服务

52+阅读 · 2020年4月7日

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

专知会员服务

121+阅读 · 2020年4月6日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

专知会员服务

48+阅读 · 2019年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

AutoScientists：自组织智能体团队驱动长期科学实验

战略前沿人工智能的再思考（中文）

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

相关资讯

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

【2022新书】深度强化学习基础: Python的理论与实践, 413页pdf

专知

17+阅读 · 2022年11月18日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

综述| 当图神经网络遇上强化学习

综述| 当图神经网络遇上强化学习

图与推荐

35+阅读 · 2022年7月1日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

当深度强化学习遇见图神经网络

当深度强化学习遇见图神经网络

专知

227+阅读 · 2019年10月21日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

专知

26+阅读 · 2019年2月19日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

深度强化学习在NLP怎么用？看清华黄民烈老师这一份120页《自然语言处理和搜索中的深度强化学习应用》讲义

专知

31+阅读 · 2018年9月1日

相关论文

Sim-to-reality adaptation for Deep Reinforcement Learning applied to an underwater docking application

Arxiv

0+阅读 · 3月12日

Contact-Safe Reinforcement Learning with ProMP Reparameterization and Energy Awareness

Arxiv

0+阅读 · 3月6日

A Survey for Deep Reinforcement Learning Based Network Intrusion Detection

Arxiv

0+阅读 · 3月2日

Vulnerability Analysis of Safe Reinforcement Learning via Inverse Constrained Reinforcement Learning

Arxiv

0+阅读 · 2月18日

Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models

Arxiv

0+阅读 · 2月17日

Beyond Rewards in Reinforcement Learning for Cyber Defence

Arxiv

0+阅读 · 2月12日

Provably Optimal Reinforcement Learning under Safety Filtering

Arxiv

0+阅读 · 2月11日

Reinforcement Learning in Strategy-Based and Atari Games: A Review of Google DeepMinds Innovations

Arxiv

0+阅读 · 2月11日

On Computation and Reinforcement Learning

On Computation and Reinforcement Learning

Arxiv

0+阅读 · 2月5日

The Enhanced Physics-Informed Kolmogorov-Arnold Networks: Applications of Newton's Laws in Financial Deep Reinforcement Learning (RL) Algorithms

Arxiv

0+阅读 · 2月5日

相关基金

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

网络化控制系统安全理论与关键技术

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员