《用于建模系统攻击路径的强化学习环境》

自动化网络安全分析，特别是潜在攻击路径的识别，面临重大挑战。这在一定程度上源于系统事件的时序性、互连性和演化特性，而大多数人工智能技术难以有效建模。本文提出了一种强化学习环境生成框架，该框架模拟了在Windows操作系统上执行的进程序列，从而能够对系统上的恶意进程进行动态建模。该方法使用图表示来建模操作系统的状态和状态转移。此图源自开源的系统监视器日志。为应对系统事件类型、字段和日志格式的多样性，开发了一种机制来捕获和建模系统监视器日志中的父子进程关系。构建了一个Gymnasium环境，为强化学习环境建立了可感知的基础，同时还构建了一个定制的PyTorch接口，用于将Gymnasium图转换为深度强化学习的观测结果和离散动作。图卷积网络具体化了图的局部和全局状态，这些状态被输入到优势演员-评论家模型的不同策略和评论家头部。本工作的核心贡献在于设计了一种新颖的深度图强化学习环境，该环境自动化地转换了顺序的用户和系统事件，为网络安全分析提供了关键背景。这项工作为未来研究如何调整训练参数和进行高级奖励塑形奠定了基础，同时也深入揭示了哪些系统事件属性对于训练自主强化学习智能体至关重要。

图1： BRAWL数据集的部分网络快照揭示了该系统进程图所具有的稀疏性与不匹配特性。节点标签——从“svchost”等标准Windows进程到“新鲜王子”主题曲中的字符串——是直接从数据集的Sysmon日志中提取的原始标识符。虽然像powershell这样的高频进程拥有众多连接，但较低的聚类系数表明，RL智能体不能依赖稠密的局部模式，而必须学会在这些非直观的、稀疏的路径中导航，以识别完整的攻击链。

绝大多数网络事件源于人为因素，其中88%的数据泄露与人为错误有关，80%涉及凭证泄露。这些攻击中有相当一部分利用了错误配置，仅云错误配置就导致了23%的安全事件。自动化网络安全分析，特别是映射潜在攻击路径，同样具有挑战性，这源于系统事件复杂的时序性，以及所涉系统事件序列的相互关联性和通常异常长的特点。传统的人工智能建模也面临困难，不仅仅因为数据是时序的，更因为关键攻击序列的属性是高维的，并且其关联性比典型的基于序列的人工智能模型设计所能有效处理的更为复杂。虽然循环神经网络及其变体等传统序列模型可以处理时序数据，但它们通常难以捕捉系统进程日志中固有的复杂的、非线性的，且通常具有图结构依赖性的关系。

需要更复杂的方法，如图神经网络，它本质上能对关系数据进行建模；或具有强大注意力机制、能够捕获长程依赖和丰富上下文嵌入的Transformer；或是可以通过与这些复杂、动态环境交互和探索来学习最优策略的深度强化学习。尽管强化学习和基于图的方法在网络安全领域有各种应用，但我们的工作独特之处在于，它直接解决了将来自系统监视器日志的原始高维操作系统事件数据，建模为适合深度强化学习的、基于张量的动态图这一挑战。我们的主要贡献在于开发了一种新颖的、基于深度图的强化学习环境，该环境能将来自系统监视器日志的原始高维操作系统事件数据转换为适合训练基于神经网络的自主智能体的张量图。这使得训练强化学习智能体理解和学习具体的系统进程路径成为可能，这对于客观审计和评估系统安全态势至关重要。从本研究中获得的见解，将有助于设计更复杂的观测状态，以及设计和训练强化学习算法，以理解可归因于恶意和良性行为的微妙但关键的时序变化，从而服务于未来更高级的分析和检测工作。

成为VIP会员查看完整内容