Investigating cybersecurity incidents requires collecting and analyzing evidence from multiple log sources, including intrusion detection alerts, network traffic records, and authentication events. This process is labor-intensive: analysts must sift through large volumes of data to identify relevant indicators and piece together what happened. We present a RAG-based system that performs security incident analysis through targeted query-based filtering and LLM semantic reasoning. The system uses a query library with associated MITRE ATT&CK techniques to extract indicators from raw logs, then retrieves relevant context to answer forensic questions and reconstruct attack sequences. We evaluate the system with eight LLM configurations on malware traffic incidents and a multi-stage Active Directory attack. We find that LLMs have different performance and tradeoffs, with Claude Sonnet 4 achieving 94% and DeepSeek V3 achieving 89% average recall across 17 malware scenarios, while DeepSeek costs 15$\times$ less than Claude per analysis, and locally-deployed Llama 3.1:70b achieves 81% recall at zero per-query cost. Attack step detection on the Active Directory scenario reaches 100% precision and up to 96% recall with an enumeration prompt. These results demonstrate that combining targeted query-based filtering with RAG-based retrieval -- confirmed essential by ablation studies -- enables accurate, cost-effective security analysis within LLM context limits.


翻译:调查网络安全事件需要收集并分析来自多个日志源的证据,包括入侵检测告警、网络流量记录以及认证事件。这一过程劳动密集:分析师必须筛选大量数据以识别相关指标并还原事件全貌。我们提出一个基于检索增强生成(RAG)的系统,通过目标化查询过滤与大语言模型语义推理执行安全事件分析。该系统利用包含关联MITRE ATT&CK技术的查询库从原始日志中提取指标,随后检索相关上下文以回答取证问题并重构攻击序列。我们采用八种大语言模型配置在恶意软件流量事件及多阶段活动目录攻击场景下评估系统。研究发现,不同大语言模型在性能与权衡方面存在差异:Claude Sonnet 4在17个恶意软件场景中平均召回率达94%,DeepSeek V3达89%,但DeepSeek单次分析成本仅为Claude的1/15,而本地部署的Llama 3.1:70b在零单次查询成本下实现81%召回率。在活动目录场景的攻击步骤检测中,通过枚举提示达到100%精确率与最高96%召回率。这些结果表明,将目标化查询过滤与基于RAG的检索相结合(消融实验证实其必要性)能在LLM上下文长度限制内实现准确、成本可控的安全分析。

0
下载
关闭预览

相关内容

探索大型语言模型在网络安全中的作用:一项系统综述
专知会员服务
21+阅读 · 2025年4月27日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
30+阅读 · 2025年2月12日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
【KDD2024教程】RAG遇上LLMs:迈向检索增强的大语言模型
专知会员服务
68+阅读 · 2024年9月7日
RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述
专知会员服务
101+阅读 · 2024年5月13日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
【WWW2024】元认知检索-增强大型语言模型
专知会员服务
50+阅读 · 2024年2月26日
NLP 事件抽取综述(中)—— 模型篇
深度学习自然语言处理
21+阅读 · 2020年12月28日
大数据安全技术浅析
计算机与网络安全
15+阅读 · 2019年4月24日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月18日
Arxiv
0+阅读 · 3月9日
VIP会员
最新内容
美国军方使用的10种反无人机武器(2026年更新)
专知会员服务
3+阅读 · 今天4:07
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关VIP内容
探索大型语言模型在网络安全中的作用:一项系统综述
专知会员服务
21+阅读 · 2025年4月27日
迈向可信的检索增强生成:大语言模型综述
专知会员服务
30+阅读 · 2025年2月12日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
【KDD2024教程】RAG遇上LLMs:迈向检索增强的大语言模型
专知会员服务
68+阅读 · 2024年9月7日
RAG 与 LLMs 的结合 - 迈向检索增强的大型语言模型综述
专知会员服务
101+阅读 · 2024年5月13日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
【WWW2024】元认知检索-增强大型语言模型
专知会员服务
50+阅读 · 2024年2月26日
相关资讯
NLP 事件抽取综述(中)—— 模型篇
深度学习自然语言处理
21+阅读 · 2020年12月28日
大数据安全技术浅析
计算机与网络安全
15+阅读 · 2019年4月24日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
相关基金
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员