Jailbreaking Generative AI: Multivector Phishing Threats and Transformer based Defenses - 专知论文

会员服务 ·

0

攻击 · 越狱 · Transformer · 越狱攻击 · 生成式人工智能 ·

Jailbreaking Generative AI: Multivector Phishing Threats and Transformer based Defenses

翻译：生成式人工智能的越狱攻击：多向量钓鱼威胁与基于Transformer的防御

Rina Mishra,Gaurav Varshney

The rise of Generative AI (GenAI) has reshaped the cybersecurity landscape by enabling new attack vectors and lowering the barrier for executing advanced social engineering campaigns. This study conducts an empirical analysis of jailbreaking vulnerabilities in ChatGPT-4o-Mini, showing that novices can bypass safeguards to generate complete multivector phishing attacks across email, web, SMS, and voice channels. Controlled experiments reveal that role-based jailbreaks produce fully operational attack paths capable of credential harvesting. User studies further demonstrate the disruptive potential of GenAI: novice participants exhibited a 240\% increase in perceived phishing competence, a 400\% improvement in task completion rates, and a 57\% reduction in implementation time when assisted by GenAI compared to traditional internet resources. To address these risks, a transformer-based detection framework was developed, achieving an F1-score of 0.9864 (XLNET) for identifying malicious prompts. The work underscores the urgency of strengthening LLM guardrails and provides an annotated dataset to support future defenses.

翻译：生成式人工智能（GenAI）的兴起通过启用新型攻击向量并降低执行先进社会工程攻击的门槛，重塑了网络安全格局。本研究对ChatGPT-4o-Mini的越狱漏洞进行了实证分析，表明新手能够绕过安全防护措施，在电子邮件、网页、短信和语音渠道上生成完整的多向量钓鱼攻击。控制实验揭示，基于角色的越狱能够产生完全可操作的攻击路径，实现凭据窃取。用户研究进一步展示了GenAI的破坏性潜力：与传统互联网资源相比，在GenAI辅助下，新手参与者的钓鱼能力感知提升了240%，任务完成率提高了400%，实施时间减少了57%。为应对这些风险，我们开发了一种基于Transformer的检测框架，在识别恶意提示词方面取得了0.9864（XLNET）的F1分数。该工作强调了加强大语言模型护栏的紧迫性，并提供了一个带注释的数据集以支持未来防御。

0

相关内容

生物信息学中的生成式人工智能：模型、应用与方法学进展的系统性综述

生物信息学中的生成式人工智能：模型、应用与方法学进展的系统性综述

专知会员服务

18+阅读 · 2025年11月10日

《生成式人工智能及其在防御性网络安全课程中的应用》

《生成式人工智能及其在防御性网络安全课程中的应用》

专知会员服务

19+阅读 · 2025年10月30日

中文版 | 战争算法：生成式人工智能在战场的崛起

中文版 | 战争算法：生成式人工智能在战场的崛起

专知会员服务

35+阅读 · 2025年7月14日

用于自动驾驶的生成式人工智能：前沿与机遇

用于自动驾驶的生成式人工智能：前沿与机遇

专知会员服务

27+阅读 · 2025年5月16日

【新书】利用生成式人工智能进行网络防御策略

【新书】利用生成式人工智能进行网络防御策略

专知会员服务

32+阅读 · 2024年10月18日

生成式人工智能在可视化中的应用：现状与未来方向

生成式人工智能在可视化中的应用：现状与未来方向

专知会员服务

42+阅读 · 2024年6月8日

《网络安全中的生成式人工智能方法综述》41页长综述

《网络安全中的生成式人工智能方法综述》41页长综述

专知会员服务

41+阅读 · 2024年5月7日

【新书】超越人工智能：ChatGPT、Web3与明日的商业版图，412页pdf

【新书】超越人工智能：ChatGPT、Web3与明日的商业版图，412页pdf

专知会员服务

83+阅读 · 2024年1月13日

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

专知会员服务

50+阅读 · 2023年9月20日

【麦肯锡报告】捕捉生成式AI新机遇，106页pdf

【麦肯锡报告】捕捉生成式AI新机遇，106页pdf

专知会员服务

57+阅读 · 2023年9月16日

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

专知

18+阅读 · 2022年9月3日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

93+阅读 · 2022年4月17日

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

专知

26+阅读 · 2019年12月25日

AI新方向：对抗攻击

AI新方向：对抗攻击

网易智能菌

10+阅读 · 2018年11月14日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于免疫机制的无线传感器网络攻击协同检测研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

面向生物威胁快速反应的大数据分析关键技术

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Learning by Chatting? Investigating the Impact of Generative AI on Information Seeking and Learning

Arxiv

0+阅读 · 6月10日

TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning

Arxiv

0+阅读 · 4月30日

Open Challenges in Multi-Agent Security: Towards Secure Systems of Interacting AI Agents

Arxiv

0+阅读 · 4月29日

Addressing Image Authenticity When Cameras Use Generative AI

Arxiv

0+阅读 · 4月23日

RedShell: A Generative AI-Based Approach to Ethical Hacking

Arxiv

0+阅读 · 4月13日

Integrating GenAI in Filmmaking: From Co-Creativity to Distributed Creativity

Arxiv

0+阅读 · 3月24日

Security Barriers to Trustworthy AI-Driven Cyber Threat Intelligence in Finance: Evidence from Practitioners

Arxiv

0+阅读 · 3月24日

Three Years with Classroom AI in Introductory Programming: Shifts in Student Awareness, Interaction, and Performance

Arxiv

0+阅读 · 3月24日

Generative AI for Advanced UAV Networking

Arxiv

12+阅读 · 2024年4月16日

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

49+阅读 · 2023年4月4日

VIP会员

文章信息

相关主题

生成式人工智能

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

6+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

5+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

7+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

7+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

9+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

8+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

8+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

9+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

11+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

10+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

10+阅读 · 6月24日

相关VIP内容

生物信息学中的生成式人工智能：模型、应用与方法学进展的系统性综述

生物信息学中的生成式人工智能：模型、应用与方法学进展的系统性综述

专知会员服务

18+阅读 · 2025年11月10日

《生成式人工智能及其在防御性网络安全课程中的应用》

《生成式人工智能及其在防御性网络安全课程中的应用》

专知会员服务

19+阅读 · 2025年10月30日

中文版 | 战争算法：生成式人工智能在战场的崛起

中文版 | 战争算法：生成式人工智能在战场的崛起

专知会员服务

35+阅读 · 2025年7月14日

用于自动驾驶的生成式人工智能：前沿与机遇

用于自动驾驶的生成式人工智能：前沿与机遇

专知会员服务

27+阅读 · 2025年5月16日

【新书】利用生成式人工智能进行网络防御策略

【新书】利用生成式人工智能进行网络防御策略

专知会员服务

32+阅读 · 2024年10月18日

生成式人工智能在可视化中的应用：现状与未来方向

生成式人工智能在可视化中的应用：现状与未来方向

专知会员服务

42+阅读 · 2024年6月8日

《网络安全中的生成式人工智能方法综述》41页长综述

《网络安全中的生成式人工智能方法综述》41页长综述

专知会员服务

41+阅读 · 2024年5月7日

【新书】超越人工智能：ChatGPT、Web3与明日的商业版图，412页pdf

【新书】超越人工智能：ChatGPT、Web3与明日的商业版图，412页pdf

专知会员服务

83+阅读 · 2024年1月13日

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

专知会员服务

50+阅读 · 2023年9月20日

【麦肯锡报告】捕捉生成式AI新机遇，106页pdf

【麦肯锡报告】捕捉生成式AI新机遇，106页pdf

专知会员服务

57+阅读 · 2023年9月16日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

专知

18+阅读 · 2022年9月3日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

93+阅读 · 2022年4月17日

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

专知

26+阅读 · 2019年12月25日

AI新方向：对抗攻击

AI新方向：对抗攻击

网易智能菌

10+阅读 · 2018年11月14日

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

综述 | 一文看尽三种针对人工智能系统的攻击技术及防御策略

机器之心

16+阅读 · 2018年7月9日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

【论文推荐】最新6篇生成式对抗网络（GAN）相关论文—半监督对抗学习、行人再识别、代表性特征、高分辨率深度卷积、自监督、超分辨

专知

10+阅读 · 2018年2月1日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

Learning by Chatting? Investigating the Impact of Generative AI on Information Seeking and Learning

Arxiv

0+阅读 · 6月10日

TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning

Arxiv

0+阅读 · 4月30日

Open Challenges in Multi-Agent Security: Towards Secure Systems of Interacting AI Agents

Arxiv

0+阅读 · 4月29日

Addressing Image Authenticity When Cameras Use Generative AI

Arxiv

0+阅读 · 4月23日

RedShell: A Generative AI-Based Approach to Ethical Hacking

Arxiv

0+阅读 · 4月13日

Integrating GenAI in Filmmaking: From Co-Creativity to Distributed Creativity

Arxiv

0+阅读 · 3月24日

Security Barriers to Trustworthy AI-Driven Cyber Threat Intelligence in Finance: Evidence from Practitioners

Arxiv

0+阅读 · 3月24日

Three Years with Classroom AI in Introductory Programming: Shifts in Student Awareness, Interaction, and Performance

Arxiv

0+阅读 · 3月24日

Generative AI for Advanced UAV Networking

Arxiv

12+阅读 · 2024年4月16日

One Small Step for Generative AI, One Giant Leap for AGI: A Complete Survey on ChatGPT in AIGC Era

Arxiv

49+阅读 · 2023年4月4日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于免疫机制的无线传感器网络攻击协同检测研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

面向生物威胁快速反应的大数据分析关键技术

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员