Phishing remains a pervasive and growing threat, inflicting heavy economic and reputational damage. While machine learning has been effective in real-time detection of phishing attacks, progress is hindered by lack of large, high-quality datasets and benchmarks. In addition to poor-quality due to challenges in data collection, existing datasets suffer from leakage and unrealistic base rates, leading to overly optimistic performance results. In this paper, we introduce PhreshPhish, a large-scale, high-quality dataset of phishing websites that addresses these limitations. Compared to existing public datasets, PhreshPhish is substantially larger and provides significantly higher quality, as measured by the estimated rate of invalid or mislabeled data points. Additionally, we propose a comprehensive suite of benchmark datasets specifically designed for realistic model evaluation by minimizing leakage, increasing task difficulty, enhancing dataset diversity, and adjustment of base rates more likely to be seen in the real world. We train and evaluate multiple solution approaches to provide baseline performance on the benchmark sets. We believe the availability of this dataset and benchmarks will enable realistic, standardized model comparison and foster further advances in phishing detection. The datasets and benchmarks are available on Hugging Face (https://huggingface.co/datasets/phreshphish/phreshphish).


翻译:网络钓鱼仍然是一种普遍存在且日益严重的威胁,造成重大的经济和声誉损失。尽管机器学习在实时检测网络钓鱼攻击方面已证明有效,但进展因缺乏大规模、高质量的数据集和基准测试而受阻。除了因数据收集挑战导致质量低下外,现有数据集还存在数据泄露和不切实际的基准率问题,导致性能评估结果过于乐观。本文介绍了PhreshPhish,一个旨在解决这些局限性的大规模、高质量网络钓鱼网站数据集。与现有公共数据集相比,PhreshPhish规模显著更大,且通过无效或误标数据点估计率衡量,其数据质量显著更高。此外,我们提出了一套全面的基准测试数据集,专门设计用于实现更真实的模型评估,其方法包括:最小化数据泄露、增加任务难度、增强数据集多样性,以及调整至更接近现实世界可能出现的基准率。我们训练并评估了多种解决方案,以在基准测试集上提供基线性能。我们相信,该数据集和基准测试的可用性将支持现实、标准化的模型比较,并推动网络钓鱼检测领域的进一步发展。数据集和基准测试可在Hugging Face平台获取(https://huggingface.co/datasets/phreshphish/phreshphish)。

0
下载
关闭预览

相关内容

【普林斯顿博士论文】深度学习安全性,275页pdf
专知会员服务
66+阅读 · 2023年2月9日
对抗机器学习在网络入侵检测领域的应用
专知会员服务
35+阅读 · 2022年1月4日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
不要担心没数据!史上最全数据集网站汇总
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
深度学习之CNN简介
Python技术博文
20+阅读 · 2018年1月10日
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【普林斯顿博士论文】深度学习安全性,275页pdf
专知会员服务
66+阅读 · 2023年2月9日
对抗机器学习在网络入侵检测领域的应用
专知会员服务
35+阅读 · 2022年1月4日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员