Reinforcement Learning (RL) has shown great potential for autonomous decision-making in the cybersecurity domain, enabling agents to learn through direct environment interaction. However, RL agents in Autonomous Cyber Operations (ACO) typically learn from scratch, requiring them to execute undesirable actions to learn their consequences. In this study, we integrate external knowledge in the form of a Large Language Model (LLM) pretrained on cybersecurity data that our RL agent can directly leverage to make informed decisions. By guiding initial training with an LLM, we improve baseline performance and reduce the need for exploratory actions with obviously negative outcomes. We evaluate our LLM-integrated approach in a simulated cybersecurity environment, and demonstrate that our guided agent achieves over 2x higher rewards during early training and converges to a favorable policy approximately 4,500 episodes faster than the baseline.


翻译:强化学习(RL)在网络安全领域展现出自主决策的巨大潜力,使智能体能够通过直接与环境交互进行学习。然而,自主网络作战(ACO)中的强化学习智能体通常需要从零开始学习,这要求它们执行不良行动以了解其后果。在本研究中,我们引入了一种基于网络安全数据预训练的大型语言模型(LLM)作为外部知识源,使我们的强化学习智能体能够直接利用这些知识做出明智决策。通过使用大型语言模型引导初始训练,我们提升了基线性能,并减少了对具有明显负面结果的探索性行动的需求。我们在模拟网络安全环境中评估了这种融合大型语言模型的方法,结果表明,经过引导的智能体在早期训练阶段获得的奖励比基线高出2倍以上,并且比基线提前约4,500个训练回合收敛到更优策略。

0
下载
关闭预览

相关内容

大语言模型智能体强化学习:全景综述
专知会员服务
43+阅读 · 2025年12月18日
面向大语言模型的智能体化强化学习图景:综述
专知会员服务
55+阅读 · 2025年9月3日
《自主防御系统中的强化学习:战略应用与挑战》
专知会员服务
24+阅读 · 2025年7月16日
大语言模型的强化学习技术综述
专知会员服务
40+阅读 · 2025年7月8日
《强化学习的应用及其在战争战术模拟技术中的扩展》
专知会员服务
27+阅读 · 2025年1月14日
《基于深度强化学习的战场策略》
专知会员服务
37+阅读 · 2025年1月13日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
关于强化学习(附代码,练习和解答)
深度学习
37+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
331+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
22+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关VIP内容
大语言模型智能体强化学习:全景综述
专知会员服务
43+阅读 · 2025年12月18日
面向大语言模型的智能体化强化学习图景:综述
专知会员服务
55+阅读 · 2025年9月3日
《自主防御系统中的强化学习:战略应用与挑战》
专知会员服务
24+阅读 · 2025年7月16日
大语言模型的强化学习技术综述
专知会员服务
40+阅读 · 2025年7月8日
《强化学习的应用及其在战争战术模拟技术中的扩展》
专知会员服务
27+阅读 · 2025年1月14日
《基于深度强化学习的战场策略》
专知会员服务
37+阅读 · 2025年1月13日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
相关基金
国家自然科学基金
331+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
22+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员