PhreshPhish: A Real-World, High-Quality, Large-Scale Phishing Website Dataset and Benchmark - 专知论文

会员服务 ·

0

基准 · 数据集 · 基准测试 · 网络钓鱼 · 网站数据 ·

PhreshPhish: A Real-World, High-Quality, Large-Scale Phishing Website Dataset and Benchmark

翻译：PhreshPhish：一个真实世界、高质量、大规模的网络钓鱼网站数据集与基准测试

Thomas Dalton,Hemanth Gowda,Girish Rao,Sachin Pargi,Alireza Hadj Khodabakhshi,Joseph Rombs,Stephan Jou,Manish Marwah

Phishing remains a pervasive and growing threat, inflicting heavy economic and reputational damage. While machine learning has been effective in real-time detection of phishing attacks, progress is hindered by lack of large, high-quality datasets and benchmarks. In addition to poor-quality due to challenges in data collection, existing datasets suffer from leakage and unrealistic base rates, leading to overly optimistic performance results. In this paper, we introduce PhreshPhish, a large-scale, high-quality dataset of phishing websites that addresses these limitations. Compared to existing public datasets, PhreshPhish is substantially larger and provides significantly higher quality, as measured by the estimated rate of invalid or mislabeled data points. Additionally, we propose a comprehensive suite of benchmark datasets specifically designed for realistic model evaluation by minimizing leakage, increasing task difficulty, enhancing dataset diversity, and adjustment of base rates more likely to be seen in the real world. We train and evaluate multiple solution approaches to provide baseline performance on the benchmark sets. We believe the availability of this dataset and benchmarks will enable realistic, standardized model comparison and foster further advances in phishing detection. The datasets and benchmarks are available on Hugging Face (https://huggingface.co/datasets/phreshphish/phreshphish).

翻译：网络钓鱼仍然是一种普遍存在且日益严重的威胁，造成重大的经济和声誉损失。尽管机器学习在实时检测网络钓鱼攻击方面已证明有效，但进展因缺乏大规模、高质量的数据集和基准测试而受阻。除了因数据收集挑战导致质量低下外，现有数据集还存在数据泄露和不切实际的基准率问题，导致性能评估结果过于乐观。本文介绍了PhreshPhish，一个旨在解决这些局限性的大规模、高质量网络钓鱼网站数据集。与现有公共数据集相比，PhreshPhish规模显著更大，且通过无效或误标数据点估计率衡量，其数据质量显著更高。此外，我们提出了一套全面的基准测试数据集，专门设计用于实现更真实的模型评估，其方法包括：最小化数据泄露、增加任务难度、增强数据集多样性，以及调整至更接近现实世界可能出现的基准率。我们训练并评估了多种解决方案，以在基准测试集上提供基线性能。我们相信，该数据集和基准测试的可用性将支持现实、标准化的模型比较，并推动网络钓鱼检测领域的进一步发展。数据集和基准测试可在Hugging Face平台获取（https://huggingface.co/datasets/phreshphish/phreshphish）。

0

相关内容

《基于深度学习的软件定义网络模型用于物联网网络威胁检测》

《基于深度学习的软件定义网络模型用于物联网网络威胁检测》

专知会员服务

12+阅读 · 3月16日

【CMU博士论文】Web 尺度数据在基础模型训练中的负责任且高效利用

【CMU博士论文】Web 尺度数据在基础模型训练中的负责任且高效利用

专知会员服务

11+阅读 · 1月19日

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

专知会员服务

17+阅读 · 2025年1月12日

《仅有包头的网络流量异常检测和分类的实证调查》美国陆军研究实验室2023最新5页报告

《仅有包头的网络流量异常检测和分类的实证调查》美国陆军研究实验室2023最新5页报告

专知会员服务

29+阅读 · 2023年5月22日

【普林斯顿博士论文】深度学习安全性，275页pdf

【普林斯顿博士论文】深度学习安全性，275页pdf

专知会员服务

68+阅读 · 2023年2月9日

推荐！《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】北约科技组织20余位作者2022最新126页技术报告

推荐！《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】北约科技组织20余位作者2022最新126页技术报告

专知会员服务

88+阅读 · 2022年10月26日

对抗机器学习在网络入侵检测领域的应用

对抗机器学习在网络入侵检测领域的应用

专知会员服务

35+阅读 · 2022年1月4日

ISWC2020最佳论文《可解释假信息检测的链接可信度评价》

ISWC2020最佳论文《可解释假信息检测的链接可信度评价》

专知会员服务

20+阅读 · 2020年11月7日

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

专知会员服务

81+阅读 · 2020年3月30日

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

专知会员服务

65+阅读 · 2020年3月5日

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

专知

32+阅读 · 2022年11月16日

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

12+阅读 · 2022年10月28日

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

量子位

13+阅读 · 2019年7月16日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

【资源】史上最全数据集汇总

【资源】史上最全数据集汇总

七月在线实验室

18+阅读 · 2018年4月24日

不要担心没数据！史上最全数据集网站汇总

不要担心没数据！史上最全数据集网站汇总

数盟

14+阅读 · 2018年4月18日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

深度学习之CNN简介

深度学习之CNN简介

Python技术博文

20+阅读 · 2018年1月10日

福利 | 最全面超大规模数据集下载链接汇总

福利 | 最全面超大规模数据集下载链接汇总

AI研习社

26+阅读 · 2017年9月7日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于大数据的互联网借贷平台价值研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

融合多源大数据的互联网金融个性化价值发现与风险评测

国家自然科学基金

2+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

PhishDebate: An LLM-Based Multi-Agent Framework for Phishing Website Detection

Arxiv

0+阅读 · 3月9日

FluxSieve: Unifying Streaming and Analytical Data Planes for Scalable Cloud Observability

Arxiv

0+阅读 · 3月5日

Phishing the Phishers with SpecularNet: Hierarchical Graph Autoencoding for Reference-Free Web Phishing Detection

Arxiv

0+阅读 · 3月2日

KuaiSearch: A Large-Scale E-Commerce Search Dataset for Recall, Ranking, and Relevance

Arxiv

0+阅读 · 2月12日

Constructing and Benchmarking: a Labeled Email Dataset for Text-Based Phishing and Spam Detection Framework

Arxiv

0+阅读 · 2月11日

CIC-Trap4Phish: A Unified Multi-Format Dataset for Phishing and Quishing Attachment Detection

Arxiv

0+阅读 · 2月11日

CIC-Trap4Phish: A Unified Multi-Format Dataset for Phishing and Quishing Attachment Detection

Arxiv

0+阅读 · 2月10日

RealPDEBench: A Benchmark for Complex Physical Systems with Real-World Data

Arxiv

0+阅读 · 2月7日

Explainable Transformer-Based Email Phishing Classification with Adversarial Robustness

Arxiv

0+阅读 · 2月6日

OpenGuanDan: A Large-Scale Imperfect Information Game Benchmark

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

7+阅读 · 今天5:53

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

3+阅读 · 今天5:45

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

2+阅读 · 今天5:23

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

1+阅读 · 今天5:11

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

6+阅读 · 今天5:04

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

4+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

7+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

9+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

4+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

5+阅读 · 7月25日

综述 | 遥感多模态大模型：领域专用还是通用模型？

综述 | 遥感多模态大模型：领域专用还是通用模型？

专知会员服务

5+阅读 · 7月25日

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

《面向指挥控制训练与实时北约兼容数据分发的战术模拟器》

专知会员服务

5+阅读 · 7月25日

相关VIP内容

《基于深度学习的软件定义网络模型用于物联网网络威胁检测》

《基于深度学习的软件定义网络模型用于物联网网络威胁检测》

专知会员服务

12+阅读 · 3月16日

【CMU博士论文】Web 尺度数据在基础模型训练中的负责任且高效利用

【CMU博士论文】Web 尺度数据在基础模型训练中的负责任且高效利用

专知会员服务

11+阅读 · 1月19日

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

专知会员服务

17+阅读 · 2025年1月12日

《仅有包头的网络流量异常检测和分类的实证调查》美国陆军研究实验室2023最新5页报告

《仅有包头的网络流量异常检测和分类的实证调查》美国陆军研究实验室2023最新5页报告

专知会员服务

29+阅读 · 2023年5月22日

【普林斯顿博士论文】深度学习安全性，275页pdf

【普林斯顿博士论文】深度学习安全性，275页pdf

专知会员服务

68+阅读 · 2023年2月9日

推荐！《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】北约科技组织20余位作者2022最新126页技术报告

推荐！《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】北约科技组织20余位作者2022最新126页技术报告

专知会员服务

88+阅读 · 2022年10月26日

对抗机器学习在网络入侵检测领域的应用

对抗机器学习在网络入侵检测领域的应用

专知会员服务

35+阅读 · 2022年1月4日

ISWC2020最佳论文《可解释假信息检测的链接可信度评价》

ISWC2020最佳论文《可解释假信息检测的链接可信度评价》

专知会员服务

20+阅读 · 2020年11月7日

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

专知会员服务

81+阅读 · 2020年3月30日

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

专知会员服务

65+阅读 · 2020年3月5日

热门VIP内容

开通专知VIP会员享更多权益服务

美空军新型反无人机部队初探

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

相关资讯

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

什么是物理信息机器学习(PIML)？清华最新《基于物理信息的机器学习:问题、方法和应用》综述，42页pdf全面阐述PIML进展

专知

32+阅读 · 2022年11月16日

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

12+阅读 · 2022年10月28日

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

量子位

13+阅读 · 2019年7月16日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

【资源】史上最全数据集汇总

【资源】史上最全数据集汇总

七月在线实验室

18+阅读 · 2018年4月24日

不要担心没数据！史上最全数据集网站汇总

不要担心没数据！史上最全数据集网站汇总

数盟

14+阅读 · 2018年4月18日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

深度学习之CNN简介

深度学习之CNN简介

Python技术博文

20+阅读 · 2018年1月10日

福利 | 最全面超大规模数据集下载链接汇总

福利 | 最全面超大规模数据集下载链接汇总

AI研习社

26+阅读 · 2017年9月7日

相关论文

PhishDebate: An LLM-Based Multi-Agent Framework for Phishing Website Detection

Arxiv

0+阅读 · 3月9日

FluxSieve: Unifying Streaming and Analytical Data Planes for Scalable Cloud Observability

Arxiv

0+阅读 · 3月5日

Phishing the Phishers with SpecularNet: Hierarchical Graph Autoencoding for Reference-Free Web Phishing Detection

Arxiv

0+阅读 · 3月2日

KuaiSearch: A Large-Scale E-Commerce Search Dataset for Recall, Ranking, and Relevance

Arxiv

0+阅读 · 2月12日

Constructing and Benchmarking: a Labeled Email Dataset for Text-Based Phishing and Spam Detection Framework

Arxiv

0+阅读 · 2月11日

CIC-Trap4Phish: A Unified Multi-Format Dataset for Phishing and Quishing Attachment Detection

Arxiv

0+阅读 · 2月11日

CIC-Trap4Phish: A Unified Multi-Format Dataset for Phishing and Quishing Attachment Detection

Arxiv

0+阅读 · 2月10日

RealPDEBench: A Benchmark for Complex Physical Systems with Real-World Data

Arxiv

0+阅读 · 2月7日

Explainable Transformer-Based Email Phishing Classification with Adversarial Robustness

Arxiv

0+阅读 · 2月6日

OpenGuanDan: A Large-Scale Imperfect Information Game Benchmark

Arxiv

0+阅读 · 1月31日

相关基金

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于大数据的互联网借贷平台价值研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

融合多源大数据的互联网金融个性化价值发现与风险评测

国家自然科学基金

2+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员