TraGe: A Generic Packet Representation for Traffic Classification Based on Header-Payload Differences - 专知论文

会员服务 ·

0

流量分类 · 表示 · 预训练 · 分类数据 · 标注 ·

TraGe: A Generic Packet Representation for Traffic Classification Based on Header-Payload Differences

翻译：TraGe：基于首部-载荷差异的通用流量分类数据包表示

Chungang Lin,Yilong Jiang,Weiyao Zhang,Xuying Meng,Tianyu Zuo,Yujun Zhang

from arxiv, This paper has been accepted by IWQoS 2025. The code is available at https://github.com/lincgcg/TraGe

Traffic classification has a significant impact on maintaining the Quality of Service (QoS) of the network. Since traditional methods heavily rely on feature extraction and large scale labeled data, some recent pre-trained models manage to reduce the dependency by utilizing different pre-training tasks to train generic representations for network packets. However, existing pre-trained models typically adopt pre-training tasks developed for image or text data, which are not tailored to traffic data. As a result, the obtained traffic representations fail to fully reflect the information contained in the traffic, and may even disrupt the protocol information. To address this, we propose TraGe, a novel generic packet representation model for traffic classification. Based on the differences between the header and payload-the two fundamental components of a network packet-we perform differentiated pre-training according to the byte sequence variations (continuous in the header vs. discontinuous in the payload). A dynamic masking strategy is further introduced to prevent overfitting to fixed byte positions. Once the generic packet representation is obtained, TraGe can be finetuned for diverse traffic classification tasks using limited labeled data. Experimental results demonstrate that TraGe significantly outperforms state-of-the-art methods on two traffic classification tasks, with up to a 6.97% performance improvement. Moreover, TraGe exhibits superior robustness under parameter fluctuations and variations in sampling configurations.

翻译：流量分类对维护网络服务质量具有重要影响。由于传统方法严重依赖特征提取和大规模标注数据，近期一些预训练模型通过采用不同预训练任务学习网络数据包的通用表示，试图降低这种依赖性。然而，现有预训练模型通常采用为图像或文本数据设计的预训练任务，并非针对流量数据定制。这导致获取的流量表示未能充分反映流量所含信息，甚至可能破坏协议信息。为此，我们提出TraGe——一种用于流量分类的新型通用数据包表示模型。基于网络数据包两个基本组成部分（首部与载荷）间的差异，我们根据字节序列变化特征（首部连续vs.载荷离散）进行差异化预训练，并引入动态掩码策略防止对固定字节位置的过拟合。获得通用数据包表示后，TraGe可基于有限标注数据针对多种流量分类任务进行微调。实验结果表明，在两个流量分类任务上，TraGe显著优于现有最优方法，性能提升最高达6.97%。此外，TraGe在参数波动和采样配置变化下展现出优越的鲁棒性。

0

相关内容

流量分类

《仅有包头的网络流量异常检测和分类的实证调查》美国陆军研究实验室2023最新5页报告

《仅有包头的网络流量异常检测和分类的实证调查》美国陆军研究实验室2023最新5页报告

专知会员服务

29+阅读 · 2023年5月22日

【深度迁移学习在图像分类中的应用综述】Deep transfer learning for image classification: a survey

【深度迁移学习在图像分类中的应用综述】Deep transfer learning for image classification: a survey

专知会员服务

25+阅读 · 2022年5月24日

NTU最新《广义分布外OOD检测》综述论文，20页pdf阐述离群/异常/新类/开集/分布外检测的异同

NTU最新《广义分布外OOD检测》综述论文，20页pdf阐述离群/异常/新类/开集/分布外检测的异同

专知会员服务

29+阅读 · 2021年10月26日

基于深度学习的网络流量预测研究综述

专知会员服务

41+阅读 · 2021年5月30日

【上海交大】可解释CNN的对象分类，Interpretable CNNs for Object Classification

专知会员服务

54+阅读 · 2020年3月14日

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

专知会员服务

46+阅读 · 2020年3月13日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

专知会员服务

15+阅读 · 2020年3月7日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations

专知会员服务

19+阅读 · 2020年3月6日

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

专知会员服务

65+阅读 · 2020年3月5日

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

专知会员服务

15+阅读 · 2019年12月3日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

中国人工智能学会

36+阅读 · 2019年2月26日

【干货】李沐等人：CNN图像分类Trick合集（附详细代码）

【干货】李沐等人：CNN图像分类Trick合集（附详细代码）

GAN生成式对抗网络

58+阅读 · 2018年12月11日

李沐等人：CNN图像分类Trick合集（附详细代码）

李沐等人：CNN图像分类Trick合集（附详细代码）

专知

12+阅读 · 2018年12月11日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

【干货】理解特征工程Part 2——类别数据（附代码）

【干货】理解特征工程Part 2——类别数据（附代码）

专知

16+阅读 · 2018年6月8日

关于CNN图像分类的一份综合设计指南

关于CNN图像分类的一份综合设计指南

云栖社区

11+阅读 · 2018年5月15日

面向移动互联网流量的行为特征和自适应分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

抽样环境下基于流记录的行为特征分析与多分类器识别模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

通信网络在不确定业务流量需求下的路由鲁棒性优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

FlowCLIP: Contrastive Pretraining Using Domain Names for Encrypted Traffic Classification

Arxiv

0+阅读 · 6月16日

DataEvolver: Automatic Data Preparation for Large Language Models through Multi-Level Self-Evolving

Arxiv

0+阅读 · 6月10日

Packet-Level Traffic Modeling with Heavy-Tailed Payload and Inter-Arrival Distributions for Digital Twins

Arxiv

0+阅读 · 6月9日

Rank Intervals for Leaderboards: A Hierarchical Framework for Model Evaluation

Arxiv

0+阅读 · 6月7日

Treat Traffic Like Trees: A Semantic-Preserving Hierarchical Graph-Based Expert Framework for Encrypted Traffic Analysis

Arxiv

0+阅读 · 6月3日

ParaBlock: Communication-Computation Parallel Block Coordinate Federated Learning for Large Language Models

Arxiv

0+阅读 · 6月2日

Correcting Class Imbalance in Prior-Data Fitted Networks for Tabular Classification

Arxiv

0+阅读 · 5月20日

A Hybrid Cluster-Based Classification Model for Anomaly Detection in Unbalanced IoT Networks

Arxiv

0+阅读 · 5月19日

MambaNetBurst: Direct Byte-level Network Traffic Classification without Tokenization or Pretraining

Arxiv

0+阅读 · 5月11日

Versatile yet Efficient Network Traffic Analysis: Offloading Network Foundation Model to SmartNIC

Arxiv

0+阅读 · 5月8日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

《仅有包头的网络流量异常检测和分类的实证调查》美国陆军研究实验室2023最新5页报告

《仅有包头的网络流量异常检测和分类的实证调查》美国陆军研究实验室2023最新5页报告

专知会员服务

29+阅读 · 2023年5月22日

【深度迁移学习在图像分类中的应用综述】Deep transfer learning for image classification: a survey

【深度迁移学习在图像分类中的应用综述】Deep transfer learning for image classification: a survey

专知会员服务

25+阅读 · 2022年5月24日

NTU最新《广义分布外OOD检测》综述论文，20页pdf阐述离群/异常/新类/开集/分布外检测的异同

NTU最新《广义分布外OOD检测》综述论文，20页pdf阐述离群/异常/新类/开集/分布外检测的异同

专知会员服务

29+阅读 · 2021年10月26日

基于深度学习的网络流量预测研究综述

专知会员服务

41+阅读 · 2021年5月30日

【上海交大】可解释CNN的对象分类，Interpretable CNNs for Object Classification

专知会员服务

54+阅读 · 2020年3月14日

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

专知会员服务

46+阅读 · 2020年3月13日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations for Semi-Supervised Learning from Sparse Data

专知会员服务

15+阅读 · 2020年3月7日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations

专知会员服务

19+阅读 · 2020年3月6日

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

专知会员服务

65+阅读 · 2020年3月5日

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

【ECML-PKDD 2019】可解释序列分类的背景知识注入（Background Knowledge Injection forInterpretable Sequence Classification）

专知会员服务

15+阅读 · 2019年12月3日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

图分类：结合胶囊网络Capsule和图卷积GCN（附代码）

中国人工智能学会

36+阅读 · 2019年2月26日

【干货】李沐等人：CNN图像分类Trick合集（附详细代码）

【干货】李沐等人：CNN图像分类Trick合集（附详细代码）

GAN生成式对抗网络

58+阅读 · 2018年12月11日

李沐等人：CNN图像分类Trick合集（附详细代码）

李沐等人：CNN图像分类Trick合集（附详细代码）

专知

12+阅读 · 2018年12月11日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

【干货】理解特征工程Part 2——类别数据（附代码）

【干货】理解特征工程Part 2——类别数据（附代码）

专知

16+阅读 · 2018年6月8日

关于CNN图像分类的一份综合设计指南

关于CNN图像分类的一份综合设计指南

云栖社区

11+阅读 · 2018年5月15日

相关论文

FlowCLIP: Contrastive Pretraining Using Domain Names for Encrypted Traffic Classification

Arxiv

0+阅读 · 6月16日

DataEvolver: Automatic Data Preparation for Large Language Models through Multi-Level Self-Evolving

Arxiv

0+阅读 · 6月10日

Packet-Level Traffic Modeling with Heavy-Tailed Payload and Inter-Arrival Distributions for Digital Twins

Arxiv

0+阅读 · 6月9日

Rank Intervals for Leaderboards: A Hierarchical Framework for Model Evaluation

Arxiv

0+阅读 · 6月7日

Treat Traffic Like Trees: A Semantic-Preserving Hierarchical Graph-Based Expert Framework for Encrypted Traffic Analysis

Arxiv

0+阅读 · 6月3日

ParaBlock: Communication-Computation Parallel Block Coordinate Federated Learning for Large Language Models

Arxiv

0+阅读 · 6月2日

Correcting Class Imbalance in Prior-Data Fitted Networks for Tabular Classification

Arxiv

0+阅读 · 5月20日

A Hybrid Cluster-Based Classification Model for Anomaly Detection in Unbalanced IoT Networks

Arxiv

0+阅读 · 5月19日

MambaNetBurst: Direct Byte-level Network Traffic Classification without Tokenization or Pretraining

Arxiv

0+阅读 · 5月11日

Versatile yet Efficient Network Traffic Analysis: Offloading Network Foundation Model to SmartNIC

Arxiv

0+阅读 · 5月8日

相关基金

面向移动互联网流量的行为特征和自适应分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

抽样环境下基于流记录的行为特征分析与多分类器识别模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

通信网络在不确定业务流量需求下的路由鲁棒性优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员