IoT botnet detection has advanced, yet most published systems are validated on a single dataset and rarely generalise across environments. Heterogeneous feature spaces make multi-dataset training practically impossible without discarding semantic interpretability or introducing data integrity violations. No prior work has addressed both problems with a formally specified, reproducible methodology. This paper does. We introduce BRIDGE (Benchmark Reference for IoT Domain Generalisation Evaluation), the first formally specified heterogeneous multi-dataset benchmark for IoT intrusion detection, unifying CICIDS-2017, CIC-IoT-2023, Bot-IoT, Edge-IIoTset, and N-BaIoT through a 46-feature semantic canonical vocabulary grounded in CICFlowMeter nomenclature, with genuine-equivalence-only feature mapping, explicit zero-filling, and per-dataset coverage from 15% to 93%. A leave-one-dataset-out (LODO) protocol makes the generalisation gap precisely measurable: all five evaluated architectures achieve mean LODO F1 between 0.39 and 0.47, and we establish the first community generalisation baseline at mean LODO F1 = 0.5577, a result that shifts the agenda from single-benchmark optimisation toward cross-environment generalisation. We propose TCH-Net, a multi-branch network fusing a three-path Temporal branch (residual convolutional-BiGRU, stride-downsampled BiGRU, pre-LayerNorm Transformer), a provenance-conditioned Contextual branch, and a Statistical branch via Cross-Branch Gated Attention Fusion (CB-GAF) with learnable sigmoid gates for dynamic feature-wise mixing. Across five random seeds, TCH-Net achieves F1 = 0.8296 +/- 0.0028, AUC = 0.9380 +/- 0.0025, and MCC = 0.6972 +/- 0.0056, outperforming all twelve baselines (p < 0.05, Wilcoxon) and recording the highest LODO F1 overall. BRIDGE and the full pipeline are at https://github.com/Ammar-ss/TCH-Net.


翻译:物联网僵尸网络检测技术已有进展,但大多数已发表系统仅在单一数据集上验证,难以在不同环境中泛化。异构特征空间使得多数据集联合训练几乎不可能,除非牺牲语义可解释性或引入数据完整性违规。此前尚无研究采用形式化、可复现的方法同时解决这两个问题,本文则填补了这一空白。我们提出BRIDGE(物联网域泛化评估基准参考),这是首个形式化定义的异构多数据集物联网入侵检测基准,通过基于CICFlowMeter术语体系的46维语义规范词汇表,以“仅真等效特征映射”原则、显式零填充策略以及各数据集覆盖率(15%至93%),统一了CICIDS-2017、CIC-IoT-2023、Bot-IoT、Edge-IIoTset和N-BaIoT五个数据集。采用留一数据集评估(LODO)协议,使泛化差距可精确度量:所有五种评估架构的平均LODO F1值介于0.39至0.47之间,我们首次建立社区泛化基线(平均LODO F1=0.5577),该结果将研究重心从单一基准优化转向跨环境泛化。我们提出TCH-Net多分支网络,融合三路径时序分支(残差卷积-BiGRU、步长降采样BiGRU、前置层归一化Transformer)、来源条件化上下文分支及统计分支,通过跨分支门控注意力融合(CB-GAF)机制,利用可学习的Sigmoid门控实现动态特征级混合。在五个随机种子下,TCH-Net的F1=0.8296±0.0028,AUC=0.9380±0.0025,MCC=0.6972±0.0056,性能超越全部十二个基线模型(Wilcoxon检验p<0.05),并取得最高总体LODO F1值。BRIDGE及完整流程见https://github.com/Ammar-ss/TCH-Net。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
《物联网参考体系结构》国家标准
专知会员服务
30+阅读 · 2024年6月22日
《基于高斯混合流和入包的异常检测》2023最新57页论文
专知会员服务
29+阅读 · 2023年5月15日
专知会员服务
34+阅读 · 2021年9月16日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
我所了解的物联网设备测试方法(硬件篇)
FreeBuf
12+阅读 · 2019年2月12日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
《物联网参考体系结构》国家标准
专知会员服务
30+阅读 · 2024年6月22日
《基于高斯混合流和入包的异常检测》2023最新57页论文
专知会员服务
29+阅读 · 2023年5月15日
专知会员服务
34+阅读 · 2021年9月16日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员