Phishing and spam emails remain a major cybersecurity threat, with attackers increasingly leveraging Large Language Models (LLMs) to craft highly deceptive content. This study presents a comprehensive email dataset containing phishing, spam, and legitimate messages, explicitly distinguishing between human- and LLM-generated content. Each email is annotated with its category, emotional appeal (e.g., urgency, fear, authority), and underlying motivation (e.g., link-following, credential theft, financial fraud). We benchmark multiple LLMs on their ability to identify these emotional and motivational cues and select the most reliable model to annotate the full dataset. To evaluate classification robustness, emails were also rephrased using several LLMs while preserving meaning and intent. A state-of-the-art LLM was then assessed on its performance across both original and rephrased emails using expert-labeled ground truth. The results highlight strong phishing detection capabilities but reveal persistent challenges in distinguishing spam from legitimate emails. Our dataset and evaluation framework contribute to improving AI-assisted email security systems. To support open science, all code, templates, and resources are available on our project site.


翻译:网络钓鱼与垃圾邮件仍是网络安全的主要威胁,攻击者日益利用大语言模型(LLMs)生成极具欺骗性的内容。本研究提出了一个包含网络钓鱼、垃圾邮件及合法邮件的综合性邮件数据集,明确区分了人工生成与LLM生成的内容。每封邮件均标注了其类别、情感诉求(如紧迫性、恐惧感、权威性)及潜在动机(如诱导点击链接、窃取凭证、金融欺诈)。我们对多种LLMs识别这些情感与动机线索的能力进行了基准测试,并选取最可靠的模型完成全数据集的标注。为评估分类鲁棒性,研究还使用多个LLMs对邮件进行语义与意图保持的复述改写,并基于专家标注的真实标签,评估了前沿LLM在原始邮件与改写邮件上的性能表现。结果表明模型在网络钓鱼检测方面表现优异,但在区分垃圾邮件与合法邮件方面仍存在持续挑战。本数据集与评估框架有助于改进AI辅助的邮件安全系统。为支持开放科学,所有代码、模板及相关资源已在项目网站公开。

0
下载
关闭预览

相关内容

PLM 与 LLM 时代的长文档检索综述
专知会员服务
17+阅读 · 2025年9月21日
【KDD2024】揭示隐私漏洞:调查图数据中结构的作用
专知会员服务
11+阅读 · 2024年8月13日
【ICMR2020】持续健康状态接口事件检索
专知会员服务
18+阅读 · 2020年4月18日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员