Phishing attacks remain among the most prevalent cybersecurity threats, causing significant financial losses for individuals and organizations worldwide. This paper presents a machine learning-based phishing email detection system that analyzes email body content using natural language processing (NLP) techniques. Unlike existing approaches that primarily focus on URL analysis, our system classifies emails by extracting contextual features from the entire email content. We evaluated two classification models, Naive Bayes and Logistic Regression, trained on a combined corpus of 53,973 labeled emails from three distinct datasets. Our preprocessing pipeline incorporates lowercasing, tokenization, stop-word removal, and lemmatization, followed by Term Frequency-Inverse Document Frequency (TF-IDF) feature extraction with unigrams and bigrams. Experimental results demonstrate that Logistic Regression achieves 95.41% accuracy with an F1-score of 94.33%, outperforming Naive Bayes by 1.55 percentage points. The system was deployed as a web application with a FastAPI backend, providing real-time phishing classification with average response times of 127ms.


翻译:网络钓鱼攻击仍是最普遍的网络安全威胁之一,给全球个人和组织造成重大经济损失。本文提出一种基于机器学习的钓鱼邮件检测系统,该系统采用自然语言处理技术分析邮件正文内容。与现有主要关注URL分析的方法不同,我们的系统通过提取邮件全文的上下文特征进行分类。我们评估了朴素贝叶斯和逻辑回归两种分类模型,使用来自三个不同数据集的53,973封标记邮件构成的组合语料库进行训练。预处理流程包括小写转换、分词、停用词移除和词形还原,随后采用基于一元分词和二元分词的词频-逆文档频率特征提取。实验结果表明,逻辑回归达到95.41%的准确率与94.33%的F1分数,比朴素贝叶斯高1.55个百分点。该系统以FastAPI后端部署为Web应用,提供平均响应时间127毫秒的实时钓鱼分类功能。

0
下载
关闭预览

相关内容

对抗机器学习在网络入侵检测领域的应用
专知会员服务
35+阅读 · 2022年1月4日
【智能金融】机器学习在反欺诈中应用
产业智能官
35+阅读 · 2019年3月15日
自然语言处理(NLP)知识结构总结
AI100
51+阅读 · 2018年8月17日
网络安全态势感知浅析
计算机与网络安全
18+阅读 · 2017年10月13日
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关VIP内容
对抗机器学习在网络入侵检测领域的应用
专知会员服务
35+阅读 · 2022年1月4日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员