Malware Classification Leveraging NLP & Machine Learning for Enhanced Accuracy - 专知论文

会员服务 ·

0

软件 · N元 · N元语法 · 语言处理 · 分类精度 ·

Malware Classification Leveraging NLP & Machine Learning for Enhanced Accuracy

翻译：基于自然语言处理与机器学习的恶意软件分类精度提升研究

Bishwajit Prasad Gond, Rajneekant,Pushkar Kishore,Durga Prasad Mohapatra

from arxiv, After review, I found errors in methodology and results that invalidate the conclusions. Discovered via peer feedback and self-verification, these issues necessitate withdrawal to maintain scientific integrity

This paper investigates the application of natural language processing (NLP)-based n-gram analysis and machine learning techniques to enhance malware classification. We explore how NLP can be used to extract and analyze textual features from malware samples through n-grams, contiguous string or API call sequences. This approach effectively captures distinctive linguistic patterns among malware and benign families, enabling finer-grained classification. We delve into n-gram size selection, feature representation, and classification algorithms. While evaluating our proposed method on real-world malware samples, we observe significantly improved accuracy compared to the traditional methods. By implementing our n-gram approach, we achieved an accuracy of 99.02% across various machine learning algorithms by using hybrid feature selection technique to address high dimensionality. Hybrid feature selection technique reduces the feature set to only 1.6% of the original features.

翻译：本文研究了基于自然语言处理（NLP）的n元语法分析与机器学习技术在恶意软件分类中的应用。我们探讨了如何通过n元语法（连续的字符串或API调用序列）从恶意软件样本中提取并分析文本特征。该方法能有效捕捉恶意软件与良性软件家族之间独特的语言模式，从而实现更细粒度的分类。我们深入研究了n元语法尺寸选择、特征表示和分类算法。通过在真实恶意软件样本上评估所提出的方法，我们发现其分类精度较传统方法有显著提升。通过实施n元语法方法，并采用混合特征选择技术处理高维特征问题，我们在多种机器学习算法中实现了99.02%的分类准确率。混合特征选择技术将特征集缩减至原始特征的1.6%。

0

相关内容

软件（中国大陆及香港用语，台湾作软体，英文：Software）是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。

《基于动态图神经网络的恶意软件检测》

《基于动态图神经网络的恶意软件检测》

专知会员服务

16+阅读 · 1月28日

【2023新书】自然语言处理中的机器学习和深度学习，245页pdf

【2023新书】自然语言处理中的机器学习和深度学习，245页pdf

专知会员服务

59+阅读 · 2023年9月6日

《H4rm0ny：用于规避恶意软件生成和检测的多智能体学习的竞争性两人零和马尔可夫博弈》2022最新12页论文，加拿大国防研究与发展部

《H4rm0ny：用于规避恶意软件生成和检测的多智能体学习的竞争性两人零和马尔可夫博弈》2022最新12页论文，加拿大国防研究与发展部

专知会员服务

27+阅读 · 2022年10月26日

深度学习赋能的恶意代码攻防研究进展

深度学习赋能的恶意代码攻防研究进展

专知会员服务

31+阅读 · 2021年4月11日

【神经自然语言处理进展：建模，学习，推理】Progress in Neural NLP: Modeling, Learning, and Reasoning

【神经自然语言处理进展：建模，学习，推理】Progress in Neural NLP: Modeling, Learning, and Reasoning

专知会员服务

79+阅读 · 2020年8月13日

综述：NLP中的深度学习优势，附21页论文下载

专知会员服务

104+阅读 · 2020年3月12日

深度学习自然语言处理进展综述论文

专知会员服务

202+阅读 · 2020年3月6日

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

专知会员服务

80+阅读 · 2020年3月5日

【新书】深度学习自然语言处理，Deep Learning for Natural Language Processing

【新书】深度学习自然语言处理，Deep Learning for Natural Language Processing

专知会员服务

67+阅读 · 2019年12月27日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

专知

25+阅读 · 2022年5月4日

【Manning新书】自然语言处理实战:深度学习应用，337页pdf

【Manning新书】自然语言处理实战:深度学习应用，337页pdf

专知

24+阅读 · 2021年11月20日

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

深度学习自然语言处理

13+阅读 · 2020年4月6日

35页自然语言处理深度学习综述，带你纵览NLP知识全貌

35页自然语言处理深度学习综述，带你纵览NLP知识全貌

专知

88+阅读 · 2018年8月1日

专栏 | NLP概述和文本自动分类算法详解

专栏 | NLP概述和文本自动分类算法详解

机器之心

12+阅读 · 2018年7月24日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

微软研究院Jianfeng Gao：基于深度学习的自然语言处理导论（课程，附PPT下载链接）

微软研究院Jianfeng Gao：基于深度学习的自然语言处理导论（课程，附PPT下载链接）

专知

17+阅读 · 2018年1月24日

NLP（自然语言处理）扫盲

NLP（自然语言处理）扫盲

大数据和云计算技术

20+阅读 · 2017年7月9日

NLP自然语言处理（二）——基础文本分析

NLP自然语言处理（二）——基础文本分析

乐享数据DataScientists

12+阅读 · 2017年2月7日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Internet malware propagation: Dynamics and control through SEIRV epidemic model with relapse and intervention

Arxiv

0+阅读 · 3月4日

Towards a Software Reference Architecture for Natural Language Processing Tools in Requirements Engineering

Towards a Software Reference Architecture for Natural Language Processing Tools in Requirements Engineering

Arxiv

0+阅读 · 2月19日

Queer NLP: A Critical Survey on Literature Gaps, Biases and Trends

Arxiv

0+阅读 · 2月18日

Foundations and Evaluations in NLP

Arxiv

0+阅读 · 2月13日

Studying Quality Improvements Recommended via Manual and Automated Code Review

Arxiv

0+阅读 · 2月12日

LoRA-based Parameter-Efficient LLMs for Continuous Learning in Edge-based Malware Detection

Arxiv

0+阅读 · 2月12日

PBP: Post-training Backdoor Purification for Malware Classifiers

Arxiv

0+阅读 · 2月12日

Empirical Evaluation of SMOTE in Android Malware Detection with Machine Learning: Challenges and Performance in CICMalDroid 2020

Arxiv

0+阅读 · 2月9日

Identifying Adversary Tactics and Techniques in Malware Binaries with an LLM Agent

Arxiv

0+阅读 · 2月6日

MalCVE: Malware Detection and CVE Association Using Large Language Models

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

专知会员服务

1+阅读 · 22分钟前

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

专知会员服务

1+阅读 · 36分钟前

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

专知会员服务

1+阅读 · 43分钟前

乌克兰纵深打击如何重塑俄罗斯的战略选择

乌克兰纵深打击如何重塑俄罗斯的战略选择

专知会员服务

0+阅读 · 50分钟前

《分布式太空任务对比分析与综合建模及仿真环境》120页

《分布式太空任务对比分析与综合建模及仿真环境》120页

专知会员服务

1+阅读 · 今天12:14

俄乌战争中关于中程打击无人机部署的经验启示

俄乌战争中关于中程打击无人机部署的经验启示

专知会员服务

0+阅读 · 今天12:08

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

4+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

4+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

6+阅读 · 7月23日

“天降毒雾”：无人机如何使化学战重返乌克兰战场

“天降毒雾”：无人机如何使化学战重返乌克兰战场

专知会员服务

2+阅读 · 7月23日

伊朗不对称防空战略的演进

伊朗不对称防空战略的演进

专知会员服务

4+阅读 · 7月23日

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

10+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

4+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

8+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

11+阅读 · 7月22日

相关VIP内容

《基于动态图神经网络的恶意软件检测》

《基于动态图神经网络的恶意软件检测》

专知会员服务

16+阅读 · 1月28日

【2023新书】自然语言处理中的机器学习和深度学习，245页pdf

【2023新书】自然语言处理中的机器学习和深度学习，245页pdf

专知会员服务

59+阅读 · 2023年9月6日

《H4rm0ny：用于规避恶意软件生成和检测的多智能体学习的竞争性两人零和马尔可夫博弈》2022最新12页论文，加拿大国防研究与发展部

《H4rm0ny：用于规避恶意软件生成和检测的多智能体学习的竞争性两人零和马尔可夫博弈》2022最新12页论文，加拿大国防研究与发展部

专知会员服务

27+阅读 · 2022年10月26日

深度学习赋能的恶意代码攻防研究进展

深度学习赋能的恶意代码攻防研究进展

专知会员服务

31+阅读 · 2021年4月11日

【神经自然语言处理进展：建模，学习，推理】Progress in Neural NLP: Modeling, Learning, and Reasoning

【神经自然语言处理进展：建模，学习，推理】Progress in Neural NLP: Modeling, Learning, and Reasoning

专知会员服务

79+阅读 · 2020年8月13日

综述：NLP中的深度学习优势，附21页论文下载

专知会员服务

104+阅读 · 2020年3月12日

深度学习自然语言处理进展综述论文

专知会员服务

202+阅读 · 2020年3月6日

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

深度学习自然语言处理综述论文，Natural Language Processing Advancements By Deep Learning: A Survey

专知会员服务

80+阅读 · 2020年3月5日

【新书】深度学习自然语言处理，Deep Learning for Natural Language Processing

【新书】深度学习自然语言处理，Deep Learning for Natural Language Processing

专知会员服务

67+阅读 · 2019年12月27日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

乌克兰纵深打击如何重塑俄罗斯的战略选择

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

相关资讯

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

专知

25+阅读 · 2022年5月4日

【Manning新书】自然语言处理实战:深度学习应用，337页pdf

【Manning新书】自然语言处理实战:深度学习应用，337页pdf

专知

24+阅读 · 2021年11月20日

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

深度学习自然语言处理

13+阅读 · 2020年4月6日

35页自然语言处理深度学习综述，带你纵览NLP知识全貌

35页自然语言处理深度学习综述，带你纵览NLP知识全貌

专知

88+阅读 · 2018年8月1日

专栏 | NLP概述和文本自动分类算法详解

专栏 | NLP概述和文本自动分类算法详解

机器之心

12+阅读 · 2018年7月24日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

微软研究院Jianfeng Gao：基于深度学习的自然语言处理导论（课程，附PPT下载链接）

微软研究院Jianfeng Gao：基于深度学习的自然语言处理导论（课程，附PPT下载链接）

专知

17+阅读 · 2018年1月24日

NLP（自然语言处理）扫盲

NLP（自然语言处理）扫盲

大数据和云计算技术

20+阅读 · 2017年7月9日

NLP自然语言处理（二）——基础文本分析

NLP自然语言处理（二）——基础文本分析

乐享数据DataScientists

12+阅读 · 2017年2月7日

相关论文

Internet malware propagation: Dynamics and control through SEIRV epidemic model with relapse and intervention

Arxiv

0+阅读 · 3月4日

Towards a Software Reference Architecture for Natural Language Processing Tools in Requirements Engineering

Towards a Software Reference Architecture for Natural Language Processing Tools in Requirements Engineering

Arxiv

0+阅读 · 2月19日

Queer NLP: A Critical Survey on Literature Gaps, Biases and Trends

Arxiv

0+阅读 · 2月18日

Foundations and Evaluations in NLP

Arxiv

0+阅读 · 2月13日

Studying Quality Improvements Recommended via Manual and Automated Code Review

Arxiv

0+阅读 · 2月12日

LoRA-based Parameter-Efficient LLMs for Continuous Learning in Edge-based Malware Detection

Arxiv

0+阅读 · 2月12日

PBP: Post-training Backdoor Purification for Malware Classifiers

Arxiv

0+阅读 · 2月12日

Empirical Evaluation of SMOTE in Android Malware Detection with Machine Learning: Challenges and Performance in CICMalDroid 2020

Arxiv

0+阅读 · 2月9日

Identifying Adversary Tactics and Techniques in Malware Binaries with an LLM Agent

Arxiv

0+阅读 · 2月6日

MalCVE: Malware Detection and CVE Association Using Large Language Models

Arxiv

0+阅读 · 2月2日

相关基金

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员