Leading commercial endpoint detection and response (EDR) products have shifted from operator-configured rule sets to multi-component systems where autonomous AI components operate alongside, and increasingly in place of, operator-deployed policies. Autonomous defense agents using commercial EDR as their hardening tool are no longer tuning a passive tool, but a black-box autonomous system capable of making vendor-specific decisions. We present the first evaluation framework for autonomous defense agents hardening commercial EDR. We instantiate it in a Game of Active Directory (GOAD) lab with Horizon3.ai's NodeZero as the autonomous pentester and Microsoft Defender XDR as the EDR. We run a sample benchmark of defense agents with two large language model (LLM) backbones (Claude Sonnet 4.6 and Cisco Foundation-Sec-8B). We report three lessons learned that neither simulation nor open-source-EDR evaluation can surface: (i) commercial EDR telemetry is engineered for Security Operations Center (SOC) analyst workflows rather than scientific benchmarking; (ii) the importance of per-policy attribution to separate defense agent actions from autonomous EDR actions; and (iii) the EDR's autonomous behavior varies during the evaluation window. Together, these findings highlight a sim-to-real gap for enterprise defense and motivate evaluation methodology for benchmarking autonomous defense agents in environments with black-box, autonomous tools.


翻译:领先的商业端点检测与响应(EDR)产品已从操作员配置的规则集转变为多组件系统,其中自主AI组件与操作员部署的策略并行运作,并日益取代后者。使用商业EDR作为加固工具的自主防御智能体不再是在调优一个被动工具,而是在与一个能够做出供应商特定决策的黑盒自主系统互动。我们提出了首个评估框架,用于评估加固商业EDR的自主防御智能体。我们在活动目录博弈(GOAD)实验室中实例化该框架,使用Horizon3.ai的NodeZero作为自主渗透测试工具,Microsoft Defender XDR作为EDR。我们运行了一个包含两个大语言模型(LLM)骨干(Claude Sonnet 4.6和Cisco Foundation-Sec-8B)的防御智能体样本基准测试。我们报告了三项模拟与开源EDR评估无法揭示的经验教训:(i) 商业EDR遥测是为安全运营中心(SOC)分析师工作流而非科学基准测试设计的;(ii) 必须进行逐策略归因以区分防御智能体行为与自主EDR行为;以及(iii) EDR的自主行为在评估窗口期内会发生变化。综合而言,这些发现凸显了企业防御中存在的模拟与现实的鸿沟,并推动了在包含黑盒自主工具的环境中为自主防御智能体建立基准测试方法的评估方法论。

0
下载
关闭预览

相关内容

以盈利为导向的组织,在法律框架下向社会提供商品和服务进而在自愿前提下进行的交易行为被称之商业
《人工智能在网络防御中的机遇》
专知会员服务
8+阅读 · 6月8日
一种Agent自主性风险评估框架 | 最新文献
专知会员服务
24+阅读 · 2025年10月24日
《军事领域人工智能网络安全的数字主权控制框架》
专知会员服务
21+阅读 · 2025年9月20日
《人工智能安全框架(2020年)》白皮书,68页pdf
专知会员服务
167+阅读 · 2021年1月9日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
【数据中台】数据中台技术架构方案
产业智能官
15+阅读 · 2020年5月26日
【数字孪生】工业互联网和数字孪生
产业智能官
19+阅读 · 2019年9月5日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Arxiv
23+阅读 · 2023年3月8日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
5+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员