MongoDB Injection Query Classification Model using MongoDB Log files as Training Data - 专知论文

会员服务 ·

0

攻击 · MongoDB · 分类模型 · NoSQL · 服务器 ·

MongoDB Injection Query Classification Model using MongoDB Log files as Training Data

翻译：基于MongoDB日志文件训练数据的MongoDB注入查询分类模型

Shaunak Perni,Minal Shirodkar,Ramdas Karmalli

from arxiv, 24 Pages, 5 Tables, 6 Figures, Journal

NoSQL Injection attacks are a class of cybersecurity attacks where an attacker sends a specifically engineered query to a NoSQL database which then performs an unauthorized operation. To defend against such attacks, rule based systems were initially developed but then were found to be ineffective to innovative injection attacks hence a model based approach was developed. Most model based detection systems, during testing gave exponentially positive results but were trained only on the query statement sent to the server. However due to the scarcity of data and class imbalances these model based systems were found to be not effective against all attacks in the real world. This paper explores classifying NoSQL injection attacks sent to a MongoDB server based on Log Data, and other extracted features excluding raw query statements. The log data was collected from a simulated attack on an empty MongoDB server which was then processed and explored. A discriminant analysis was carried out to determine statistically significant features to discriminate between injection and benign queries resulting in a dataset of significant features. Several Machine learning based classification models using an AutoML library, "FLAML", as well as 6 manually programmed models were trained on this dataset , which were then trained on 50 randomized samples of data, cross validated and evaluated. The study found that the best model was the "FLAML" library's "XGBoost limited depth" model with an accuracy of 71%.

翻译：NoSQL注入攻击是一类网络安全攻击，攻击者向NoSQL数据库发送经过特殊构造的查询，从而执行未授权操作。为防御此类攻击，最初开发了基于规则的系统，但随后发现其对新型注入攻击效果有限，因此发展了基于模型的检测方法。多数基于模型的检测系统在测试阶段表现出指数级正向结果，但其训练仅基于发送至服务器的查询语句。然而，由于数据稀缺和类别不平衡问题，这些模型在实际环境中未能有效应对所有攻击。本文研究基于MongoDB服务器日志数据及其他提取特征（排除原始查询语句）对NoSQL注入攻击进行分类的方法。通过模拟攻击空载MongoDB服务器收集日志数据，并进行处理与分析。通过判别分析确定具有统计显著性的特征以区分注入查询与良性查询，最终构建出显著特征数据集。研究采用自动化机器学习库"FLAML"构建的多种机器学习分类模型，以及6个手动编程模型，在50组随机数据样本上进行训练、交叉验证与评估。实验结果表明，"FLAML"库中的"深度受限XGBoost"模型以71%的准确率成为最优分类模型。

0

相关内容

【KDD2024】LogParser-LLM：利用大型语言模型推动高效日志解析

【KDD2024】LogParser-LLM：利用大型语言模型推动高效日志解析

专知会员服务

27+阅读 · 2024年9月5日

《动态网络环境下基于软件定义网络的分布式侦察欺骗》最新190页

《动态网络环境下基于软件定义网络的分布式侦察欺骗》最新190页

专知会员服务

24+阅读 · 2024年6月3日

Text2SQL 针对表格数据的自然语言接口查询与可视化：一项综述

Text2SQL 针对表格数据的自然语言接口查询与可视化：一项综述

专知会员服务

58+阅读 · 2023年10月30日

《仅有包头的网络流量异常检测和分类的实证调查》美国陆军研究实验室2023最新5页报告

《仅有包头的网络流量异常检测和分类的实证调查》美国陆军研究实验室2023最新5页报告

专知会员服务

29+阅读 · 2023年5月22日

《基于高斯混合流和入包的异常检测》2023最新57页论文

《基于高斯混合流和入包的异常检测》2023最新57页论文

专知会员服务

29+阅读 · 2023年5月15日

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

专知会员服务

19+阅读 · 2022年4月26日

【KDD2021】基于深度序列嵌入的分类模型的个性化文本生成攻击

专知会员服务

19+阅读 · 2021年7月11日

恶意文档检测研究综述

专知会员服务

19+阅读 · 2021年6月10日

网络攻击模型研究综述

专知会员服务

56+阅读 · 2020年12月28日

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

专知会员服务

57+阅读 · 2019年11月21日

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

AINLP

18+阅读 · 2020年4月10日

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

开放知识图谱

26+阅读 · 2019年11月8日

工行基于MySQL构建分布式架构的转型之路

工行基于MySQL构建分布式架构的转型之路

炼数成金订阅号

15+阅读 · 2019年5月16日

使用 Bert 预训练模型文本分类（内附源码）

使用 Bert 预训练模型文本分类（内附源码）

数据库开发

102+阅读 · 2019年3月12日

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

AI研习社

14+阅读 · 2019年1月16日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

Tensorflow 文本分类-Python深度学习

Tensorflow 文本分类-Python深度学习

Python程序员

12+阅读 · 2017年11月22日

原创 | Attention Modeling for Targeted Sentiment

原创 | Attention Modeling for Targeted Sentiment

黑龙江大学自然语言处理实验室

25+阅读 · 2017年11月5日

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

抽样环境下基于流记录的行为特征分析与多分类器识别模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

AlignSentinel: Alignment-Aware Detection of Prompt Injection Attacks

Arxiv

0+阅读 · 2月14日

Monte Carlo Tree Search with Reasoning Path Refinement for Small Language Models in Conversational Text-to-NoSQL

Arxiv

0+阅读 · 2月13日

ASIDE: Architectural Separation of Instructions and Data in Language Models

Arxiv

0+阅读 · 2月9日

How to evaluate NoSQL Database Paradigms for Knowledge Graph Processing

Arxiv

0+阅读 · 2月7日

Meta SecAlign: A Secure Foundation LLM Against Prompt Injection Attacks

Arxiv

0+阅读 · 2月6日

Defending Against Prompt Injection with DataFilter

Arxiv

0+阅读 · 2月4日

WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents

Arxiv

0+阅读 · 2月3日

PIShield: Detecting Prompt Injection Attacks via Intrinsic LLM Features

Arxiv

0+阅读 · 1月24日

Enhanced Web Payload Classification Using WAMM: An AI-Based Framework for Dataset Refinement and Model Evaluation

Arxiv

0+阅读 · 1月13日

CSQL: Mapping Documents into Causal Databases

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

4+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

5+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

4+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

2+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

5+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

2+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

3+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

13+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

13+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

9+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

16+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

13+阅读 · 7月15日

相关VIP内容

【KDD2024】LogParser-LLM：利用大型语言模型推动高效日志解析

【KDD2024】LogParser-LLM：利用大型语言模型推动高效日志解析

专知会员服务

27+阅读 · 2024年9月5日

《动态网络环境下基于软件定义网络的分布式侦察欺骗》最新190页

《动态网络环境下基于软件定义网络的分布式侦察欺骗》最新190页

专知会员服务

24+阅读 · 2024年6月3日

Text2SQL 针对表格数据的自然语言接口查询与可视化：一项综述

Text2SQL 针对表格数据的自然语言接口查询与可视化：一项综述

专知会员服务

58+阅读 · 2023年10月30日

《仅有包头的网络流量异常检测和分类的实证调查》美国陆军研究实验室2023最新5页报告

《仅有包头的网络流量异常检测和分类的实证调查》美国陆军研究实验室2023最新5页报告

专知会员服务

29+阅读 · 2023年5月22日

《基于高斯混合流和入包的异常检测》2023最新57页论文

《基于高斯混合流和入包的异常检测》2023最新57页论文

专知会员服务

29+阅读 · 2023年5月15日

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

专知会员服务

19+阅读 · 2022年4月26日

【KDD2021】基于深度序列嵌入的分类模型的个性化文本生成攻击

专知会员服务

19+阅读 · 2021年7月11日

恶意文档检测研究综述

专知会员服务

19+阅读 · 2021年6月10日

网络攻击模型研究综述

专知会员服务

56+阅读 · 2020年12月28日

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

专知会员服务

57+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

《边缘端实时无线感知赋能现场多机器人部署》200页

人工智能赋能战场情报：提速决策进程

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

战力倍增器：自主武器系统与乌克兰及加沙冲突

相关资讯

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

【数据集】OCR_DataSet：有关OCR的数据集并统一标注格式

AINLP

18+阅读 · 2020年4月10日

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

开放知识图谱

26+阅读 · 2019年11月8日

工行基于MySQL构建分布式架构的转型之路

工行基于MySQL构建分布式架构的转型之路

炼数成金订阅号

15+阅读 · 2019年5月16日

使用 Bert 预训练模型文本分类（内附源码）

使用 Bert 预训练模型文本分类（内附源码）

数据库开发

102+阅读 · 2019年3月12日

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

AI研习社

14+阅读 · 2019年1月16日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

Tensorflow 文本分类-Python深度学习

Tensorflow 文本分类-Python深度学习

Python程序员

12+阅读 · 2017年11月22日

原创 | Attention Modeling for Targeted Sentiment

原创 | Attention Modeling for Targeted Sentiment

黑龙江大学自然语言处理实验室

25+阅读 · 2017年11月5日

相关论文

AlignSentinel: Alignment-Aware Detection of Prompt Injection Attacks

Arxiv

0+阅读 · 2月14日

Monte Carlo Tree Search with Reasoning Path Refinement for Small Language Models in Conversational Text-to-NoSQL

Arxiv

0+阅读 · 2月13日

ASIDE: Architectural Separation of Instructions and Data in Language Models

Arxiv

0+阅读 · 2月9日

How to evaluate NoSQL Database Paradigms for Knowledge Graph Processing

Arxiv

0+阅读 · 2月7日

Meta SecAlign: A Secure Foundation LLM Against Prompt Injection Attacks

Arxiv

0+阅读 · 2月6日

Defending Against Prompt Injection with DataFilter

Arxiv

0+阅读 · 2月4日

WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents

Arxiv

0+阅读 · 2月3日

PIShield: Detecting Prompt Injection Attacks via Intrinsic LLM Features

Arxiv

0+阅读 · 1月24日

Enhanced Web Payload Classification Using WAMM: An AI-Based Framework for Dataset Refinement and Model Evaluation

Arxiv

0+阅读 · 1月13日

CSQL: Mapping Documents into Causal Databases

Arxiv

0+阅读 · 1月13日

相关基金

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

抽样环境下基于流记录的行为特征分析与多分类器识别模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员