Closing the Sim-to-Real Gap: An Evaluation Framework for Autonomous Cyber Defense Configuration of Commercial EDR - 专知论文

会员服务 ·

0

商业 · 工具 · 基准 · 基准测试 · 操作 ·

Closing the Sim-to-Real Gap: An Evaluation Framework for Autonomous Cyber Defense Configuration of Commercial EDR

翻译：弥合模拟与现实的鸿沟：商业EDR自主网络防御配置评估框架

Kerri Prinos,Lilianne Brush

from arxiv, 12 pages including references

Leading commercial endpoint detection and response (EDR) products have shifted from operator-configured rule sets to multi-component systems where autonomous AI components operate alongside, and increasingly in place of, operator-deployed policies. Autonomous defense agents using commercial EDR as their hardening tool are no longer tuning a passive tool, but a black-box autonomous system capable of making vendor-specific decisions. We present the first evaluation framework for autonomous defense agents hardening commercial EDR. We instantiate it in a Game of Active Directory (GOAD) lab with Horizon3.ai's NodeZero as the autonomous pentester and Microsoft Defender XDR as the EDR. We run a sample benchmark of defense agents with two large language model (LLM) backbones (Claude Sonnet 4.6 and Cisco Foundation-Sec-8B). We report three lessons learned that neither simulation nor open-source-EDR evaluation can surface: (i) commercial EDR telemetry is engineered for Security Operations Center (SOC) analyst workflows rather than scientific benchmarking; (ii) the importance of per-policy attribution to separate defense agent actions from autonomous EDR actions; and (iii) the EDR's autonomous behavior varies during the evaluation window. Together, these findings highlight a sim-to-real gap for enterprise defense and motivate evaluation methodology for benchmarking autonomous defense agents in environments with black-box, autonomous tools.

翻译：领先的商业端点检测与响应（EDR）产品已从操作员配置的规则集转变为多组件系统，其中自主AI组件与操作员部署的策略并行运作，并日益取代后者。使用商业EDR作为加固工具的自主防御智能体不再是在调优一个被动工具，而是在与一个能够做出供应商特定决策的黑盒自主系统互动。我们提出了首个评估框架，用于评估加固商业EDR的自主防御智能体。我们在活动目录博弈（GOAD）实验室中实例化该框架，使用Horizon3.ai的NodeZero作为自主渗透测试工具，Microsoft Defender XDR作为EDR。我们运行了一个包含两个大语言模型（LLM）骨干（Claude Sonnet 4.6和Cisco Foundation-Sec-8B）的防御智能体样本基准测试。我们报告了三项模拟与开源EDR评估无法揭示的经验教训：(i) 商业EDR遥测是为安全运营中心（SOC）分析师工作流而非科学基准测试设计的；(ii) 必须进行逐策略归因以区分防御智能体行为与自主EDR行为；以及(iii) EDR的自主行为在评估窗口期内会发生变化。综合而言，这些发现凸显了企业防御中存在的模拟与现实的鸿沟，并推动了在包含黑盒自主工具的环境中为自主防御智能体建立基准测试方法的评估方法论。

0

相关内容

以盈利为导向的组织，在法律框架下向社会提供商品和服务进而在自愿前提下进行的交易行为被称之商业

《战略网络防御现代化：融合人工智能、智能体逆向工程与企业风险治理》76页

《战略网络防御现代化：融合人工智能、智能体逆向工程与企业风险治理》76页

专知会员服务

16+阅读 · 7月14日

《基于模型与数据驱动方法的网络物理系统隐蔽与重放攻击检测及辨识》179页

《基于模型与数据驱动方法的网络物理系统隐蔽与重放攻击检测及辨识》179页

专知会员服务

10+阅读 · 7月10日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

17+阅读 · 6月15日

《人工智能在网络防御中的机遇》

《人工智能在网络防御中的机遇》

专知会员服务

12+阅读 · 6月8日

【博士论文】重新审视机器人安全性：面向真实世界自主运行的自适应与可扩展方法

【博士论文】重新审视机器人安全性：面向真实世界自主运行的自适应与可扩展方法

专知会员服务

12+阅读 · 2月25日

一种Agent自主性风险评估框架 | 最新文献

一种Agent自主性风险评估框架 | 最新文献

专知会员服务

24+阅读 · 2025年10月24日

《军事领域人工智能网络安全的数字主权控制框架》

《军事领域人工智能网络安全的数字主权控制框架》

专知会员服务

21+阅读 · 2025年9月20日

《革命性软件智能：融合神经程序合成、量子安全运维与可解释人工智能的下一代自主系统统一框架》最新报告

《革命性软件智能：融合神经程序合成、量子安全运维与可解释人工智能的下一代自主系统统一框架》最新报告

专知会员服务

26+阅读 · 2025年8月28日

《训练自主网络防御智能体：军事网络中的挑战与机遇》最新报告

《训练自主网络防御智能体：军事网络中的挑战与机遇》最新报告

专知会员服务

50+阅读 · 2025年2月6日

《人工智能安全框架（2020年）》白皮书，68页pdf

《人工智能安全框架（2020年）》白皮书，68页pdf

专知会员服务

167+阅读 · 2021年1月9日

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

39+阅读 · 2023年4月11日

推荐！【美国国防分析顶点报告】《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

推荐！【美国国防分析顶点报告】《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

专知

39+阅读 · 2022年9月12日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

119+阅读 · 2022年9月1日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

94+阅读 · 2022年4月17日

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

专知

69+阅读 · 2022年4月9日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【数据中台】数据中台技术架构方案

【数据中台】数据中台技术架构方案

产业智能官

15+阅读 · 2020年5月26日

【数字孪生】工业互联网和数字孪生

【数字孪生】工业互联网和数字孪生

产业智能官

19+阅读 · 2019年9月5日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于免疫机制的无线传感器网络攻击协同检测研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下异构自主海洋航行器网络的协同优化控制

国家自然科学基金

5+阅读 · 2015年12月31日

微网安全风险评估研究

国家自然科学基金

2+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

18+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

ED3R: Energy-Aware Distributed Disaster Detection Enabled by Cooperative Robotic Agents

Arxiv

0+阅读 · 6月16日

Large Language Models for Agentic NetOps and AIOps: Architectures, Evaluation, and Safety

Arxiv

0+阅读 · 6月15日

AgentCyberRange: Benchmarking Frontier AI Systems in Realistic Cyber Ranges

Arxiv

0+阅读 · 6月12日

AgentCanary: A Security Evaluation Framework for Autonomous AI Agents in Real Executable Environments

Arxiv

0+阅读 · 6月9日

Explainable AI-Driven Cyber Risk Analytics and Model Reliability Assessment for Intelligent Governance of U.S. Critical Infrastructure: An XGBoost and SHAP-Based Intrusion Detection Framework

Arxiv

0+阅读 · 6月4日

ZERO-APT: A Closed-Loop Adversarial Framework for LLM-Driven Automated Penetration Testing under Intelligent Defense

Arxiv

0+阅读 · 6月4日

CyberGym-E2E: Scalable Real-World Benchmark for AI Agents' End-to-End Cybersecurity Capabilities

Arxiv

0+阅读 · 6月3日

ProofAgent Harness: Open Infrastructure for Adversarial Evaluation of AI Agents

Arxiv

0+阅读 · 5月22日

From Detection to Response: A Deep Learning and Retrieval-Augmented Generation Framework for Network Intrusion Mitigation

Arxiv

0+阅读 · 5月18日

Automated Cyber Defence: A Review

Arxiv

23+阅读 · 2023年3月8日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

4+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

5+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

6+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

6+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

8+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

8+阅读 · 7月31日

相关VIP内容

《战略网络防御现代化：融合人工智能、智能体逆向工程与企业风险治理》76页

《战略网络防御现代化：融合人工智能、智能体逆向工程与企业风险治理》76页

专知会员服务

16+阅读 · 7月14日

《基于模型与数据驱动方法的网络物理系统隐蔽与重放攻击检测及辨识》179页

《基于模型与数据驱动方法的网络物理系统隐蔽与重放攻击检测及辨识》179页

专知会员服务

10+阅读 · 7月10日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

17+阅读 · 6月15日

《人工智能在网络防御中的机遇》

《人工智能在网络防御中的机遇》

专知会员服务

12+阅读 · 6月8日

【博士论文】重新审视机器人安全性：面向真实世界自主运行的自适应与可扩展方法

【博士论文】重新审视机器人安全性：面向真实世界自主运行的自适应与可扩展方法

专知会员服务

12+阅读 · 2月25日

一种Agent自主性风险评估框架 | 最新文献

一种Agent自主性风险评估框架 | 最新文献

专知会员服务

24+阅读 · 2025年10月24日

《军事领域人工智能网络安全的数字主权控制框架》

《军事领域人工智能网络安全的数字主权控制框架》

专知会员服务

21+阅读 · 2025年9月20日

《革命性软件智能：融合神经程序合成、量子安全运维与可解释人工智能的下一代自主系统统一框架》最新报告

《革命性软件智能：融合神经程序合成、量子安全运维与可解释人工智能的下一代自主系统统一框架》最新报告

专知会员服务

26+阅读 · 2025年8月28日

《训练自主网络防御智能体：军事网络中的挑战与机遇》最新报告

《训练自主网络防御智能体：军事网络中的挑战与机遇》最新报告

专知会员服务

50+阅读 · 2025年2月6日

《人工智能安全框架（2020年）》白皮书，68页pdf

《人工智能安全框架（2020年）》白皮书，68页pdf

专知会员服务

167+阅读 · 2021年1月9日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

39+阅读 · 2023年4月11日

推荐！【美国国防分析顶点报告】《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

推荐！【美国国防分析顶点报告】《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

专知

39+阅读 · 2022年9月12日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

119+阅读 · 2022年9月1日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

94+阅读 · 2022年4月17日

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

专知

69+阅读 · 2022年4月9日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【数据中台】数据中台技术架构方案

【数据中台】数据中台技术架构方案

产业智能官

15+阅读 · 2020年5月26日

【数字孪生】工业互联网和数字孪生

【数字孪生】工业互联网和数字孪生

产业智能官

19+阅读 · 2019年9月5日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

相关论文

ED3R: Energy-Aware Distributed Disaster Detection Enabled by Cooperative Robotic Agents

Arxiv

0+阅读 · 6月16日

Large Language Models for Agentic NetOps and AIOps: Architectures, Evaluation, and Safety

Arxiv

0+阅读 · 6月15日

AgentCyberRange: Benchmarking Frontier AI Systems in Realistic Cyber Ranges

Arxiv

0+阅读 · 6月12日

AgentCanary: A Security Evaluation Framework for Autonomous AI Agents in Real Executable Environments

Arxiv

0+阅读 · 6月9日

Explainable AI-Driven Cyber Risk Analytics and Model Reliability Assessment for Intelligent Governance of U.S. Critical Infrastructure: An XGBoost and SHAP-Based Intrusion Detection Framework

Arxiv

0+阅读 · 6月4日

ZERO-APT: A Closed-Loop Adversarial Framework for LLM-Driven Automated Penetration Testing under Intelligent Defense

Arxiv

0+阅读 · 6月4日

CyberGym-E2E: Scalable Real-World Benchmark for AI Agents' End-to-End Cybersecurity Capabilities

Arxiv

0+阅读 · 6月3日

ProofAgent Harness: Open Infrastructure for Adversarial Evaluation of AI Agents

Arxiv

0+阅读 · 5月22日

From Detection to Response: A Deep Learning and Retrieval-Augmented Generation Framework for Network Intrusion Mitigation

Arxiv

0+阅读 · 5月18日

Automated Cyber Defence: A Review

Arxiv

23+阅读 · 2023年3月8日

相关基金

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于免疫机制的无线传感器网络攻击协同检测研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下异构自主海洋航行器网络的协同优化控制

国家自然科学基金

5+阅读 · 2015年12月31日

微网安全风险评估研究

国家自然科学基金

2+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

18+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员