Phishing remains the most pervasive threat to the Web, enabling large-scale credential theft and financial fraud through deceptive webpages. While recent reference-based and generative-AI-driven phishing detectors achieve strong accuracy, their reliance on external knowledge bases, cloud services, and complex multimodal pipelines fundamentally limits practicality, scalability, and reproducibility. In contrast, conventional deep learning approaches often fail to generalize to evolving phishing campaigns. We introduce SpecularNet, a novel lightweight framework for reference-free web phishing detection that demonstrates how carefully designed compact architectures can rival heavyweight systems. SpecularNet operates solely on the domain name and HTML structure, modeling the Document Object Model (DOM) as a tree and leveraging a hierarchical graph autoencoding architecture with directional, level-wise message passing. This design captures higher-order structural invariants of phishing webpages while enabling fast, end-to-end inference on standard CPUs. Extensive evaluation against 13 state of the art phishing detectors, including leading reference-based systems, shows that SpecularNet achieves competitive detection performance with dramatically lower computational cost. On benchmark datasets, it reaches an F1 score of 93.9%, trailing the best reference-based method slightly while reducing inference time from several seconds to approximately 20 milliseconds per webpage. Field and robustness evaluations further validate SpecularNet in real-world deployments, on a newly collected 2026 open-world dataset, and against adversarial attacks.


翻译:网络钓鱼仍然是互联网上最普遍的威胁,通过欺骗性网页实现大规模凭证窃取和金融欺诈。尽管近期基于参考和生成式AI驱动的钓鱼检测器取得了较高的准确率,但其对外部知识库、云服务及复杂多模态流程的依赖从根本上限制了实用性、可扩展性和可复现性。相比之下,传统的深度学习方法往往难以适应不断演变的钓鱼攻击活动。本文提出SpecularNet,一种新颖的轻量级无参考网络钓鱼检测框架,展示了经过精心设计的紧凑架构如何能与重量级系统相媲美。SpecularNet仅基于域名和HTML结构运行,将文档对象模型(DOM)建模为树结构,并采用具有定向分层消息传递机制的层次图自编码架构。该设计能捕捉钓鱼网页的高阶结构不变特征,同时支持在标准CPU上实现快速的端到端推理。通过对13种先进钓鱼检测器(包括领先的基于参考系统)的广泛评估表明,SpecularNet以显著降低的计算成本实现了具有竞争力的检测性能。在基准数据集上,其F1分数达到93.9%,虽略低于最佳基于参考方法,但将单网页推理时间从数秒缩短至约20毫秒。实际部署测试、基于新收集的2026年开放世界数据集的评估以及对抗攻击实验进一步验证了SpecularNet在现实场景中的有效性和鲁棒性。

0
下载
关闭预览

相关内容

《基于动态图神经网络的恶意软件检测》
专知会员服务
14+阅读 · 1月28日
DGP双粒度提示框架:图增强大模型助力欺诈检测
专知会员服务
9+阅读 · 2025年8月17日
【新书】利用生成式人工智能进行网络防御策略
专知会员服务
31+阅读 · 2024年10月18日
对抗机器学习在网络入侵检测领域的应用
专知会员服务
35+阅读 · 2022年1月4日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
Graph Neural Networks 综述
计算机视觉life
30+阅读 · 2019年8月13日
讲透RCNN, Fast-RCNN, Faster-RCNN,将CNN用于目标检测
数据挖掘入门与实战
18+阅读 · 2018年4月20日
从LeNet到SENet——卷积神经网络回顾
AI科技评论
13+阅读 · 2018年2月15日
干货|基于图卷积网络的图深度学习
DataCanvas大数据云平台
10+阅读 · 2017年6月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员