Encrypted network traffic poses significant challenges for intrusion detection due to the lack of payload visibility, limited labeled datasets, and high class imbalance between benign and malicious activities. Traditional data augmentation methods struggle to preserve the complex temporal and statistical characteristics of real network traffic. To address these issues, this work explores the use of Generative AI (GAI) models to synthesize realistic and diverse encrypted traffic traces. We evaluate three approaches: Variational Autoencoders (VAE), Generative Adversarial Networks (GAN), and SMOTE (Synthetic Minority Over-sampling Technique), each integrated with a preprocessing pipeline that includes feature selection and class balancing. The UNSW NB-15 dataset is used as the primary benchmark, focusing on Tor traffic as anomalies. We analyze statistical similarity between real and synthetic data, and assess classifier performance using metrics such as Accuracy, F1-score, and AUC-ROC. Results show that VAE-generated data provides the best balance between privacy and performance, while GANs offer higher fidelity but risk overfitting. SMOTE, though simple, enhances recall but may lack diversity. The findings demonstrate that GAI methods can significantly improve encrypted traffic detection when trained with privacy-preserving synthetic data.


翻译:加密网络流量因载荷不可见、标注数据集有限以及正常与恶意活动间的高度类别不平衡,给入侵检测带来了重大挑战。传统数据增强方法难以保持真实网络流量的复杂时序与统计特征。为解决这些问题,本研究探索利用生成式人工智能模型合成真实且多样化的加密流量轨迹。我们评估了三种方法:变分自编码器、生成对抗网络以及合成少数类过采样技术,每种方法均集成了包含特征选择与类别平衡的预处理流程。研究以UNSW NB-15数据集为主要基准,重点关注Tor流量作为异常流量。我们分析了真实数据与合成数据间的统计相似性,并使用准确率、F1分数和AUC-ROC等指标评估分类器性能。结果表明,VAE生成的数据在隐私保护与性能间取得了最佳平衡,而GAN虽能提供更高保真度却存在过拟合风险。SMOTE方法虽简单且能提升召回率,但可能缺乏多样性。研究证明,当使用具备隐私保护能力的合成数据进行训练时,生成式人工智能方法能显著提升加密流量检测性能。

0
下载
关闭预览

相关内容

《基于高斯混合流和入包的异常检测》2023最新57页论文
专知会员服务
28+阅读 · 2023年5月15日
对抗机器学习在网络入侵检测领域的应用
专知会员服务
35+阅读 · 2022年1月4日
专知会员服务
40+阅读 · 2021年5月30日
专知会员服务
56+阅读 · 2020年12月28日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
最新《生成式对抗网络GAN进展》论文
专知
95+阅读 · 2019年4月5日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
七月在线实验室
11+阅读 · 2018年7月18日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员