Network traffic, as a key media format, is crucial for ensuring security and communications in modern internet infrastructure. While existing methods offer excellent performance, they face two key bottlenecks: (1) They fail to capture multidimensional semantics beyond unimodal sequence patterns. (2) Their black box property, i.e., providing only category labels, lacks an auditable reasoning process. We identify a key factor that existing network traffic datasets are primarily designed for classification and inherently lack rich semantic annotations, failing to generate human-readable evidence report. To address data scarcity, this paper proposes a Byte-Grounded Traffic Description (BGTD) benchmark for the first time, combining raw bytes with structured expert annotations. BGTD provides necessary behavioral features and verifiable chains of evidence for multimodal reasoning towards explainable encrypted traffic interpretation. Built upon BGTD, this paper proposes an end-to-end traffic-language representation framework (mmTraffic), a multimodal reasoning architecture bridging physical traffic encoding and semantic interpretation. In order to alleviate modality interference and generative hallucinations, mmTraffic adopts a jointly-optimized perception-cognition architecture. By incorporating a perception-centered traffic encoder and a cognition-centered LLM generator, mmTraffic achieves refined traffic interpretation with guaranteed category prediction. Extensive experiments demonstrate that mmTraffic autonomously generates high-fidelity, human-readable, and evidence-grounded traffic interpretation reports, while maintaining highly competitive classification accuracy comparing to specialized unimodal model (e.g., NetMamba). The source code is available at https://github.com/lgzhangzlg/Multimodal-Reasoning-with-LLM-for-Encrypted-Traffic-Interpretation-A-Benchmark


翻译:网络流量作为关键媒体格式,对保障现代互联网基础设施的安全与通信至关重要。现有方法虽然性能优异,但面临两个关键瓶颈:(1) 无法捕捉单模态序列模式之外的多维语义;(2) 其黑盒特性(即仅提供类别标签)缺乏可审计的推理过程。我们发现,现有网络流量数据集主要面向分类任务设计,本质上缺乏丰富的语义标注,无法生成人类可读的证据报告。为解决数据稀缺问题,本文首次提出字节级流量描述基准(BGTD),该基准将原始字节与结构化专家标注相结合。BGTD为面向可解释加密流量分析的多模态推理提供了必要的行为特征与可验证证据链。基于BGTD,本文构建了端到端流量-语言表示框架(mmTraffic)——一种连接物理流量编码与语义解释的多模态推理架构。为缓解模态干扰与生成幻觉,mmTraffic采用联合优化的感知-认知架构。通过集成以感知为中心的流量编码器与以认知为中心的大语言模型生成器,mmTraffic在保证类别预测准确性的同时实现了精细化的流量解释。大量实验表明,mmTraffic能够自主生成高保真、人类可读且基于证据的流量解释报告,同时在与专用单模态模型(如NetMamba)的对比中保持极具竞争力的分类精度。源代码已开源至https://github.com/lgzhangzlg/Multimodal-Reasoning-with-LLM-for-Encrypted-Traffic-Interpretation-A-Benchmark

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
利用多个大型语言模型:关于LLM集成的调研
专知会员服务
35+阅读 · 2025年2月27日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
LLMCad:快速可扩展的设备上大型语言模型推理
专知会员服务
35+阅读 · 2023年9月11日
专知会员服务
40+阅读 · 2021年5月30日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
在人工智能加速决策环境中拓展OODA循环
专知会员服务
0+阅读 · 19分钟前
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
0+阅读 · 34分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
相关VIP内容
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
利用多个大型语言模型:关于LLM集成的调研
专知会员服务
35+阅读 · 2025年2月27日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
LLMCad:快速可扩展的设备上大型语言模型推理
专知会员服务
35+阅读 · 2023年9月11日
专知会员服务
40+阅读 · 2021年5月30日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员