Enhanced Web Payload Classification Using WAMM: An AI-Based Framework for Dataset Refinement and Model Evaluation - 专知论文

会员服务 ·

0

WEB · 攻击 · 数据集 · AI · 学习模型 ·

2025 年 12 月 29 日

Enhanced Web Payload Classification Using WAMM: An AI-Based Framework for Dataset Refinement and Model Evaluation

翻译：基于WAMM的增强型Web载荷分类：一种用于数据集精炼与模型评估的AI框架

Heba Osama,Omar Elebiary,Youssef Qassim,Mohamed Amgad,Ahmed Maghawry,Ahmed Saafan,Haitham Ghalwash

Web applications increasingly face evasive and polymorphic attack payloads, yet traditional web application firewalls (WAFs) based on static rule sets such as the OWASP Core Rule Set (CRS) often miss obfuscated or zero-day patterns without extensive manual tuning. This work introduces WAMM, an AI-driven multiclass web attack detection framework designed to reveal the limitations of rule-based systems by reclassifying HTTP requests into OWASP-aligned categories for a specific technology stack. WAMM applies a multi-phase enhancement pipeline to the SR-BH 2020 dataset that includes large-scale deduplication, LLM-guided relabeling, realistic attack data augmentation, and LLM-based filtering, producing three refined datasets. Four machine and deep learning models are evaluated using a unified feature space built from statistical and text-based representations. Results show that using an augmented and LLM-filtered dataset on the same technology stack, XGBoost reaches 99.59% accuracy with microsecond-level inference while deep learning models degrade under noisy augmentation. When tested against OWASP CRS using an unseen augmented dataset, WAMM achieves true positive block rates between 96 and 100% with improvements of up to 86%. These findings expose gaps in widely deployed rule-based defenses and demonstrate that curated training pipelines combined with efficient machine learning models enable a more resilient, real-time approach to web attack detection suitable for production WAF environments.

翻译：Web应用日益面临规避性和多态性攻击载荷的威胁，然而基于静态规则集（如OWASP核心规则集CRS）的传统Web应用防火墙（WAF）常因缺乏大量人工调优而无法识别混淆或零日攻击模式。本研究提出WAMM——一种AI驱动的多类别Web攻击检测框架，通过将HTTP请求按特定技术栈重新分类至OWASP标准类别，以揭示基于规则的检测系统的局限性。WAMM对SR-BH 2020数据集实施多阶段增强流程，包括大规模去重、LLM引导的重标注、真实攻击数据增强及基于LLM的过滤，最终生成三个精炼数据集。研究采用基于统计特征与文本表征的统一特征空间，对四种机器学习和深度学习模型进行评估。结果表明：在同一技术栈上使用经增强和LLM过滤的数据集时，XGBoost模型达到99.59%的准确率且具备微秒级推理速度，而深度学习模型在噪声增强环境下性能下降。当使用未见过的增强数据集对OWASP CRS进行测试时，WAMM实现了96%至100%的真实阳性拦截率，最高提升幅度达86%。这些发现揭示了广泛部署的基于规则的防御体系存在的缺陷，并证明经过优化的训练流程与高效的机器学习模型相结合，能够为生产级WAF环境提供更具弹性、实时的Web攻击检测方案。

0

相关内容

WEB

《人工智能增强监视分析：利用跨网络、陆地、空中及海上领域的威胁向量实时建模》

《人工智能增强监视分析：利用跨网络、陆地、空中及海上领域的威胁向量实时建模》

专知会员服务

28+阅读 · 2025年12月11日

《战术决策智能：大语言模型驱动的动态武器目标分配》

《战术决策智能：大语言模型驱动的动态武器目标分配》

专知会员服务

57+阅读 · 2025年11月18日

《利用人工智能增强的监视分析在网络、陆地、空中和海上领域实时建模威胁向量》

《利用人工智能增强的监视分析在网络、陆地、空中和海上领域实时建模威胁向量》

专知会员服务

21+阅读 · 2025年11月2日

《战斗决策中的人工智能：基于强化学习和图神经网络的武器目标分配》

《战斗决策中的人工智能：基于强化学习和图神经网络的武器目标分配》

专知会员服务

124+阅读 · 2024年10月11日

《多维度剖析大规模网络的网络威胁》83页论文

《多维度剖析大规模网络的网络威胁》83页论文

专知会员服务

32+阅读 · 2023年7月29日

推荐！《用于认知电子战的海军作战管理系统(CMS)架构》2023最新17页论文

推荐！《用于认知电子战的海军作战管理系统(CMS)架构》2023最新17页论文

专知会员服务

110+阅读 · 2023年6月18日

什么是类增量学习？南京大学最新《深度类增量学习》综述论文，30页pdf涵盖249篇文献

什么是类增量学习？南京大学最新《深度类增量学习》综述论文，30页pdf涵盖249篇文献

专知会员服务

38+阅读 · 2023年2月10日

【AI+军事】附论文《连接点-增强信息处理链，为支持东道国和领土作战的混合威胁检测》

【AI+军事】附论文《连接点-增强信息处理链，为支持东道国和领土作战的混合威胁检测》

专知会员服务

25+阅读 · 2022年5月5日

网络攻击模型研究综述

专知会员服务

56+阅读 · 2020年12月28日

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

专知会员服务

65+阅读 · 2020年3月5日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

【Flink】基于 Flink 的流式数据实时去重

【Flink】基于 Flink 的流式数据实时去重

AINLP

14+阅读 · 2020年9月29日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

微信小程序支持webP的WebAssembly方案

微信小程序支持webP的WebAssembly方案

前端之巅

19+阅读 · 2019年8月14日

wafw00f 简单利用

wafw00f 简单利用

黑白之道

10+阅读 · 2019年6月23日

介绍WAF以及过滤机制

介绍WAF以及过滤机制

黑白之道

22+阅读 · 2019年2月5日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

面向移动互联网流量的行为特征和自适应分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于免疫机制的无线传感器网络攻击协同检测研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

面向实体信息集成的非合作半结构化深网数据源选择

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Security Analysis of Web Applications Based on Gruyere

Arxiv

0+阅读 · 2月2日

MalURLBench: A Benchmark Evaluating Agents' Vulnerabilities When Processing Web URLs

Arxiv

0+阅读 · 1月30日

WADBERT: Dual-channel Web Attack Detection Based on BERT Models

Arxiv

0+阅读 · 1月29日

Holmes: An Evidence-Grounded LLM Agent for Auditable DDoS Investigation in Cloud Networks

Arxiv

0+阅读 · 1月21日

Rethinking On-Device LLM Reasoning: Why Analogical Mapping Outperforms Abstract Thinking for IoT DDoS Detection

Arxiv

0+阅读 · 1月20日

MongoDB Injection Query Classification Model using MongoDB Log files as Training Data

Arxiv

0+阅读 · 1月17日

Enhanced Web Payload Classification Using WAMM: An AI-Based Framework for Dataset Refinement and Model Evaluation

Arxiv

0+阅读 · 1月13日

Sola-Visibility-ISPM: Benchmarking Agentic AI for Identity Security Posture Management Visibility

Arxiv

0+阅读 · 1月11日

AI-Powered Hybrid Intrusion Detection Framework for Cloud Security Using Novel Metaheuristic Optimization

Arxiv

0+阅读 · 1月3日

DivQAT: Enhancing Robustness of Quantized Convolutional Neural Networks against Model Extraction Attacks

Arxiv

0+阅读 · 2025年12月30日

VIP会员

文章信息

相关主题

最新内容

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

1+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

2+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

1+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

7+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

7+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

9+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

12+阅读 · 4月22日

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

8+阅读 · 4月22日

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

6+阅读 · 4月22日

相关VIP内容

《人工智能增强监视分析：利用跨网络、陆地、空中及海上领域的威胁向量实时建模》

《人工智能增强监视分析：利用跨网络、陆地、空中及海上领域的威胁向量实时建模》

专知会员服务

28+阅读 · 2025年12月11日

《战术决策智能：大语言模型驱动的动态武器目标分配》

《战术决策智能：大语言模型驱动的动态武器目标分配》

专知会员服务

57+阅读 · 2025年11月18日

《利用人工智能增强的监视分析在网络、陆地、空中和海上领域实时建模威胁向量》

《利用人工智能增强的监视分析在网络、陆地、空中和海上领域实时建模威胁向量》

专知会员服务

21+阅读 · 2025年11月2日

《战斗决策中的人工智能：基于强化学习和图神经网络的武器目标分配》

《战斗决策中的人工智能：基于强化学习和图神经网络的武器目标分配》

专知会员服务

124+阅读 · 2024年10月11日

《多维度剖析大规模网络的网络威胁》83页论文

《多维度剖析大规模网络的网络威胁》83页论文

专知会员服务

32+阅读 · 2023年7月29日

推荐！《用于认知电子战的海军作战管理系统(CMS)架构》2023最新17页论文

推荐！《用于认知电子战的海军作战管理系统(CMS)架构》2023最新17页论文

专知会员服务

110+阅读 · 2023年6月18日

什么是类增量学习？南京大学最新《深度类增量学习》综述论文，30页pdf涵盖249篇文献

什么是类增量学习？南京大学最新《深度类增量学习》综述论文，30页pdf涵盖249篇文献

专知会员服务

38+阅读 · 2023年2月10日

【AI+军事】附论文《连接点-增强信息处理链，为支持东道国和领土作战的混合威胁检测》

【AI+军事】附论文《连接点-增强信息处理链，为支持东道国和领土作战的混合威胁检测》

专知会员服务

25+阅读 · 2022年5月5日

网络攻击模型研究综述

专知会员服务

56+阅读 · 2020年12月28日

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

专知会员服务

65+阅读 · 2020年3月5日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能赋能无人机：俄乌战争（万字长文）

美军条令《海军陆战队规划流程（2026版）》

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

国外海军作战管理系统与作战训练系统

相关资讯

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

【Flink】基于 Flink 的流式数据实时去重

【Flink】基于 Flink 的流式数据实时去重

AINLP

14+阅读 · 2020年9月29日

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

Google at KDD 2020，提出MoSE框架显式建模用户行为序列提升多任务学习效果

AINLP

11+阅读 · 2020年7月7日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

微信小程序支持webP的WebAssembly方案

微信小程序支持webP的WebAssembly方案

前端之巅

19+阅读 · 2019年8月14日

wafw00f 简单利用

wafw00f 简单利用

黑白之道

10+阅读 · 2019年6月23日

介绍WAF以及过滤机制

介绍WAF以及过滤机制

黑白之道

22+阅读 · 2019年2月5日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

相关论文

Security Analysis of Web Applications Based on Gruyere

Arxiv

0+阅读 · 2月2日

MalURLBench: A Benchmark Evaluating Agents' Vulnerabilities When Processing Web URLs

Arxiv

0+阅读 · 1月30日

WADBERT: Dual-channel Web Attack Detection Based on BERT Models

Arxiv

0+阅读 · 1月29日

Holmes: An Evidence-Grounded LLM Agent for Auditable DDoS Investigation in Cloud Networks

Arxiv

0+阅读 · 1月21日

Rethinking On-Device LLM Reasoning: Why Analogical Mapping Outperforms Abstract Thinking for IoT DDoS Detection

Arxiv

0+阅读 · 1月20日

MongoDB Injection Query Classification Model using MongoDB Log files as Training Data

Arxiv

0+阅读 · 1月17日

Enhanced Web Payload Classification Using WAMM: An AI-Based Framework for Dataset Refinement and Model Evaluation

Arxiv

0+阅读 · 1月13日

Sola-Visibility-ISPM: Benchmarking Agentic AI for Identity Security Posture Management Visibility

Arxiv

0+阅读 · 1月11日

AI-Powered Hybrid Intrusion Detection Framework for Cloud Security Using Novel Metaheuristic Optimization

Arxiv

0+阅读 · 1月3日

DivQAT: Enhancing Robustness of Quantized Convolutional Neural Networks against Model Extraction Attacks

Arxiv

0+阅读 · 2025年12月30日

相关基金

面向移动互联网流量的行为特征和自适应分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于免疫机制的无线传感器网络攻击协同检测研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

面向实体信息集成的非合作半结构化深网数据源选择

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员