Recent deep learning approaches for network intrusion detection increasingly incorporate temporal architectures such as recurrent networks and Transformers, often reporting near-perfect performance on CIC-IDS2017. However, many existing studies neither supply their temporal modules with genuine sequence inputs nor evaluate under realistic, leakage-free conditions, making it unclear whether reported gains arise from true sequence-modeling capability. In this work, we reformulate CIC-IDS2017 as a temporal intrusion-detection task by constructing ordered flow sequences from network conversations and benchmarking nine classical and deep learning architectures under a random split, two leakage-free splits, and a padding-scheme ablation. The central finding is that padding convention, not architecture, determines the Transformer's performance: on genuinely sequential (non-padded) windows the Transformer achieves the highest macro-F1 of any model in the experiment (0.89); under zero-pad+mask evaluation it drops markedly (-0.24 macro-F1), while LSTM, GRU, and 1D-CNN remain stable. Under leakage-free group evaluation the Random Forest is the most robust model (+0.009), while the Transformer's false-alarm rate grows from 0.04% to 2.7%, a 67-fold increase invisible under conventional protocols. These findings demonstrate that evaluation methodology -- specifically padding convention and split protocol -- has a larger effect on reported performance than architectural choice, and that widely used random splits with repeat-last padding can overestimate model robustness by up to 0.24 macro-F1. We advocate leakage-free splits, explicit padding disclosure, and sequence-aware benchmarking as standard practice in future IDS research. Code and implementation details are available at https://github.com/zachmocz/temporal-ids-bench.


翻译:近期针对网络入侵检测的深度学习方法越来越多地采用循环网络与Transformer等时间架构,这些方法在CIC-IDS2017数据集上常报告接近完美的性能。然而,现有研究多数既未向时间模块输入真正序列数据,也未在真实无泄漏条件下进行评估,导致其性能提升是否源于真实序列建模能力难以明确。本研究通过从网络会话中构建有序流序列,并在随机划分、两种无泄漏划分及填充方案消融实验下对九种经典与深度学习架构进行基准测试,将CIC-IDS2017重构为时间入侵检测任务。核心发现是:决定Transformer性能的并非架构本身,而是填充规则——在真正序列(无填充)窗口上,Transformer实现了实验中所有模型的最高宏F1值(0.89);在零填充+掩码评估下其性能显著下降(宏F1降0.24),而LSTM、GRU与1D-CNN保持稳定。在无泄漏分组评估中,随机森林是最鲁棒的模型(提升+0.009),但Transformer的误报率从0.04%激增至2.7%,增幅达67倍,该现象在常规协议下不可见。这些发现表明:评估方法论(特别是填充规则与划分协议)对报告性能的影响大于架构选择,而广泛使用的随机划分结合重复末帧填充可能导致模型鲁棒性被高估高达0.24宏F1值。我们倡导将无泄漏划分、明确填充披露及序列感知基准测试作为未来入侵检测研究的标准实践。代码与实现细节可在https://github.com/zachmocz/temporal-ids-bench获取。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
基于深度学习的入侵检测系统:综述
专知会员服务
15+阅读 · 2025年4月11日
【2023新书】基于人工智能的入侵检测系统,218页pdf
专知会员服务
56+阅读 · 2023年9月8日
基于博弈论的入侵检测与响应优化综述
专知会员服务
41+阅读 · 2023年7月23日
【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
66+阅读 · 2022年3月17日
对抗机器学习在网络入侵检测领域的应用
专知会员服务
35+阅读 · 2022年1月4日
你真的懂时间序列预测吗?
腾讯大讲堂
104+阅读 · 2019年1月7日
时序异常检测算法概览
论智
29+阅读 · 2018年8月30日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员