Phishing sites continue to grow in volume and sophistication. Recent work leverages large language models (LLMs) to analyze URLs, HTML, and rendered content to decide whether a website is a phishing site. While these approaches are promising, LLMs are inherently vulnerable to prompt injection (PI). Because attackers can fully control various elements of phishing sites, this creates the potential for PI that exploits the perceptual asymmetry between LLMs and humans: instructions imperceptible to end users can still be parsed by the LLM and can stealthily manipulate its judgment. The specific risks of PI in phishing detection and effective mitigation strategies remain largely unexplored. This paper presents the first comprehensive evaluation of PI against multimodal LLM-based phishing detection. We introduce a two-dimensional taxonomy, defined by Attack Techniques and Attack Surfaces, that captures realistic PI strategies. Using this taxonomy, we implement diverse attacks and empirically study several representative LLM-based detection systems. The results show that phishing detection with state-of-the-art models such as GPT-5 remains vulnerable to PI. We then propose InjectDefuser, a defense framework that combines prompt hardening, allowlist-based retrieval augmentation, and output validation. Across multiple models, InjectDefuser significantly reduces attack success rates. Our findings clarify the PI risk landscape and offer practical defenses that improve the reliability of next-generation phishing countermeasures.


翻译:钓鱼网站的数量与复杂程度持续增长。近期研究利用大型语言模型(LLM)分析URL、HTML及渲染内容以判定网站是否为钓鱼网站。尽管这类方法前景广阔,但LLM本质上易受提示注入(PI)攻击。由于攻击者可完全控制钓鱼网站的各类元素,这为利用LLM与人类感知不对称性的PI创造了可能:终端用户难以察觉的指令仍可被LLM解析,并隐秘操控其判断。钓鱼检测中PI的具体风险及有效缓解策略目前尚未得到充分探索。本文首次对针对多模态LLM钓鱼检测的PI进行全面评估。我们提出一个由攻击技术与攻击面定义的双维度分类法,用以刻画现实中的PI策略。基于该分类法,我们实现了多样化攻击,并对多个代表性LLM检测系统进行了实证研究。结果表明,即使采用GPT-5等前沿模型,钓鱼检测系统仍易受PI攻击。为此,我们提出InjectDefuser防御框架,该框架融合提示强化、基于许可列表的检索增强及输出验证机制。在多个模型上的实验表明,InjectDefuser能显著降低攻击成功率。本研究明确了PI的风险图景,并为提升新一代钓鱼防御措施的可靠性提供了实用防御方案。

0
下载
关闭预览

相关内容

《利用 LLM 进行高级持续性威胁 (APT) 检测和智能解释》
专知会员服务
23+阅读 · 2025年2月14日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
《将大型语言模型(LLM)整合到海军作战规划中》
专知会员服务
129+阅读 · 2024年6月13日
国防中的LLM:五角大楼的机遇与挑战
专知会员服务
43+阅读 · 2024年3月5日
【ICLR2024】能检测到LLM产生的错误信息吗?
专知会员服务
25+阅读 · 2024年1月23日
如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
万字长文: 检索增强 LLM
专知会员服务
111+阅读 · 2023年9月17日
BASNet,一种能关注边缘的显著性检测算法
极市平台
15+阅读 · 2019年7月19日
【泡泡点云时空】Potree:基于Web浏览器的大规模点云渲染
渗透某德棋牌游戏
黑白之道
12+阅读 · 2019年5月17日
被动DNS,一个被忽视的安全利器
运维帮
11+阅读 · 2019年3月8日
Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具
黑白之道
17+阅读 · 2019年2月27日
动态可视化指南:一步步拆解LSTM和GRU
论智
17+阅读 · 2018年10月25日
如何访问"暗网"(慎入)
黑白之道
145+阅读 · 2018年6月14日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
《利用 LLM 进行高级持续性威胁 (APT) 检测和智能解释》
专知会员服务
23+阅读 · 2025年2月14日
揭示生成式人工智能 / 大型语言模型(LLMs)的军事潜力
专知会员服务
31+阅读 · 2024年9月26日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
《将大型语言模型(LLM)整合到海军作战规划中》
专知会员服务
129+阅读 · 2024年6月13日
国防中的LLM:五角大楼的机遇与挑战
专知会员服务
43+阅读 · 2024年3月5日
【ICLR2024】能检测到LLM产生的错误信息吗?
专知会员服务
25+阅读 · 2024年1月23日
如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
万字长文: 检索增强 LLM
专知会员服务
111+阅读 · 2023年9月17日
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员