Security incident analysis (SIA) poses a major challenge for security operations centers, which must manage overwhelming alert volumes, large and diverse data sources, complex toolchains, and limited analyst expertise. These difficulties intensify because incidents evolve dynamically and require multi-step, multifaceted reasoning. Although organizations are eager to adopt Large Language Models (LLMs) to support SIA, the absence of rigorous benchmarking creates significant risks for assessing their effectiveness and guiding design decisions. Benchmarking is further complicated by: (i) the lack of an LLM-ready dataset covering a wide spectrum of SIA tasks; (ii) the continual emergence of new tasks reflecting the diversity of analyst responsibilities; and (iii) the rapid release of new LLMs that must be incorporated into evaluations. In this paper, we address these challenges by introducing SIABENCH, an agentic evaluation framework for security incident analysis. First, we construct a first-of-its-kind dataset comprising two major SIA task categories: (i) deep analysis workflows for security incidents (25 scenarios) and (ii) alert-triage tasks (135 scenarios). Second, we implement an agent capable of autonomously performing a broad spectrum of SIA tasks (including network and memory forensics, malware analysis across binary/code/PDF formats, phishing email and kit analysis, log analysis, and false-alert detection). Third, we benchmark 11 major LLMs (spanning both open- and closed-weight models) on these tasks, with extensibility to support emerging models and newly added analysis scenarios.


翻译:安全事件分析(SIA)对安全运营中心构成了重大挑战,其必须处理海量的警报、庞大且多样化的数据源、复杂的工具链以及有限的分析师专业知识。由于事件动态演变且需要多步骤、多方面的推理,这些困难进一步加剧。尽管各组织渴望采用大型语言模型(LLMs)来支持SIA,但缺乏严格的基准测试为评估其有效性和指导设计决策带来了重大风险。基准测试的复杂性还体现在:(i)缺乏一个覆盖广泛SIA任务的、适用于LLM的数据集;(ii)反映分析师职责多样性的新任务不断涌现;以及(iii)必须纳入评估的新LLM模型快速发布。在本文中,我们通过引入SIABENCH——一个用于安全事件分析的智能体评估框架——来应对这些挑战。首先,我们构建了一个首创的数据集,包含两大SIA任务类别:(i)安全事件的深度分析工作流(25个场景)和(ii)警报分诊任务(135个场景)。其次,我们实现了一个能够自主执行广泛SIA任务的智能体(包括网络与内存取证、跨二进制/代码/PDF格式的恶意软件分析、钓鱼邮件与工具包分析、日志分析以及误报检测)。第三,我们基于这些任务对11个主要LLM(涵盖开放权重和封闭权重模型)进行了基准测试,该框架具有可扩展性,能够支持新兴模型和新添加的分析场景。

0
下载
关闭预览

相关内容

综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
探索大型语言模型在网络安全中的作用:一项系统综述
专知会员服务
21+阅读 · 2025年4月27日
《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 2025年4月25日
158页!天大等最新《大型语言模型安全:全面综述》
专知会员服务
49+阅读 · 2024年12月24日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
【2024新书】大型语言模型安全开发者手册,250页pdf
专知会员服务
76+阅读 · 2024年2月12日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
警务云情报分析研判平台解决方案(ppt)
智能交通技术
17+阅读 · 2018年3月18日
15款免费预测分析软件!收藏好,别丢了!
七月在线实验室
11+阅读 · 2018年2月27日
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Arxiv
0+阅读 · 3月9日
VIP会员
最新内容
《人工智能赋能电磁战》(报告)
专知会员服务
0+阅读 · 25分钟前
【CMU博士论文】迈向可扩展的开放世界三维感知
专知会员服务
0+阅读 · 今天14:06
前馈式三维场景建模
专知会员服务
0+阅读 · 今天14:03
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
2+阅读 · 今天3:12
(中文)认知战的本体论基础(2026报告)
专知会员服务
18+阅读 · 今天1:45
美空军条令(2026):外国对内防御
专知会员服务
3+阅读 · 今天1:32
美国与以色列如何在攻击伊朗中使用人工智能
专知会员服务
7+阅读 · 4月16日
相关基金
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员