Realistic, large-scale, and well-labeled cybersecurity datasets are essential for training and evaluating Intrusion Detection Systems (IDS). However, they remain difficult to obtain due to privacy constraints, data sensitivity, and the cost of building controlled collection environments such as testbeds and cyber ranges. This paper investigates whether Large Language Models (LLMs) can operate as controlled knowledge-to-data engines for generating structured synthetic network traffic datasets suitable for IDS research. We propose a methodology that combines protocol documentation, attack semantics, and explicit statistical rules to condition LLMs without fine-tuning or access to raw samples. Using the AWID3 IEEE~802.11 benchmark as a demanding case study, we generate labeled datasets with four state-of-the-art LLMs and assess fidelity through a multi-level validation framework including global similarity metrics, per-feature distribution testing, structural comparison, and cross-domain classification. Results show that, under explicit constraints, LLM-generated datasets can closely approximate the statistical and structural characteristics of real network traffic, enabling gradient-boosting classifiers to achieve F1-scores up to 0.956 when evaluated on real samples. Overall, the findings suggest that constrained LLM-driven generation can facilitate on-demand IDS experimentation, providing a testbed-free, privacy-preserving alternative that overcomes the traditional bottlenecks of physical traffic collection and manual labeling.


翻译:真实、大规模且标注良好的网络安全数据集对于训练和评估入侵检测系统至关重要。然而,由于隐私限制、数据敏感性以及构建受控采集环境(如测试床和网络靶场)的成本高昂,此类数据集仍然难以获取。本文研究了大语言模型是否能够作为受控的“知识到数据”引擎,生成适用于IDS研究的结构化合成网络流量数据集。我们提出一种方法,该方法结合协议文档、攻击语义和明确的统计规则来约束大语言模型,而无需微调或访问原始样本。以AWID3 IEEE~802.11基准测试作为一项高要求案例研究,我们使用四种先进的大语言模型生成标注数据集,并通过一个多级验证框架(包括全局相似性度量、逐特征分布检验、结构比较和跨域分类)来评估其保真度。结果表明,在明确约束下,大语言模型生成的数据集能够紧密逼近真实网络流量的统计和结构特征,使得梯度提升分类器在真实样本上评估时F1分数最高可达0.956。总体而言,研究结果表明,受约束的大语言模型驱动生成能够促进按需的IDS实验,提供一种免测试床、保护隐私的替代方案,从而克服物理流量采集和手动标注的传统瓶颈。

0
下载
关闭预览

相关内容

探索大型语言模型在网络安全中的作用:一项系统综述
专知会员服务
20+阅读 · 2025年4月27日
基于深度学习的入侵检测系统:综述
专知会员服务
15+阅读 · 2025年4月11日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
大型语言模型网络安全综述
专知会员服务
67+阅读 · 2024年5月12日
对抗机器学习在网络入侵检测领域的应用
专知会员服务
35+阅读 · 2022年1月4日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
【大数据】大数据参考架构和关键技术(综合)
产业智能官
14+阅读 · 2018年11月22日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员