With the growth in digital transformation and Internet usage, the Social Engineering techniques such as Phishing have become a major concern for the users and the organizations. Phishing attacks involve deceptive techniques to trick users into revealing confidential information that causes financial loss and reputation damage to organizations. According to report of Verizon, 36% of all data breaches involved phishing, highlighting the need for intelligent, adaptive, and explainable security mechanisms. This paper examines the efficiency of different machine learning algorithms in phishing detection on heterogeneous phishing datasets that include a publicly available UCI dataset, our generated datasets using tools such as EvilGinx and Zphisher, and AI generated datasets. Moreover, this work incorporates explainable AI (XAI) techniques such as Information Gain, SHAP (SHapley Additive Explanations), and LIME (Local Interpretable Model-Agnostic Explanations) to examine the most influential features impacting classification outcomes. To support practical deployment, this work also incorporates an MCP-based phishing URL detection system that offers real-time URL analysis, feature extraction, confidence-based classification, and AI-assisted security interpretation. The experimental results demonstrate that among classical models the highest accuracy is obtained by Logistic Regression at 92.44%, among ensemble models CatBoost achieved the highest accuracy at 95.01%, among neural network CNN achieved an accuracy of 94.02%, and among transformer-based models, DistilBERT got the highest accuracy at 99.78%


翻译:随着数字化转型和互联网使用的增长,网络钓鱼等社会工程学技术已成为用户和组织面临的主要问题。钓鱼攻击利用欺骗性手段诱骗用户泄露机密信息,导致组织遭受财务损失和声誉损害。根据Verizon的报告,36%的数据泄露事件涉及钓鱼攻击,这突显了对智能、自适应和可解释安全机制的需求。本文研究了不同机器学习算法在异构钓鱼数据集上的检测效率,这些数据集包括公开的UCI数据集、使用EvilGinx和Zphisher等工具生成的数据集,以及AI生成的数据集。此外,本文引入了信息增益、SHAP和LIME等可解释人工智能(XAI)技术,以分析影响分类结果的最具影响力的特征。为支持实际部署,本研究还整合了基于MCP的钓鱼URL检测系统,该系统提供实时URL分析、特征提取、基于置信度的分类以及AI辅助安全解释。实验结果表明,在经典模型中,逻辑回归的准确率最高,达到92.44%;在集成模型中,CatBoost的准确率最高,达到95.01%;在神经网络中,CNN的准确率为94.02%;在基于Transformer的模型中,DistilBERT的准确率最高,达到99.78%。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
人工智能与机器学习对组织网络安全的影响研究 | 273页
专知会员服务
19+阅读 · 2025年10月27日
可信机器学习综述
专知会员服务
48+阅读 · 2024年7月15日
对抗机器学习在网络入侵检测领域的应用
专知会员服务
35+阅读 · 2022年1月4日
专知会员服务
40+阅读 · 2020年12月20日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
机器学习的可解释性:因果推理和稳定学习
DataFunTalk
13+阅读 · 2020年3月3日
腾讯:机器学习构建通用的数据异常检测平台
全球人工智能
11+阅读 · 2018年5月1日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员