New Wide-Net-Casting Jailbreak Attacks Risk Large Models - 专知论文

会员服务 ·

0

MoDELS · Attention · Analysis · 可辨认的 · GROUP ·

New Wide-Net-Casting Jailbreak Attacks Risk Large Models

翻译：新型广网投射越狱攻击威胁大型模型风险

Qiuchi Xiang,Haoxuan Qu,Hossein Rahmani,Jun Liu

from arxiv, Accepted at ICML 2026; project page at https://zzlz233.github.io/Wide-net-casting/

Jailbreak attacks on large models have drawn growing attention due to their close ties to societal safety. This work identifies a practical yet unexplored jailbreak scenario, the wide-net-casting scenario, where an adversary can query a group of large models instead of a single one to elicit harmful outputs. Our analysis reveals substantial yet previously overlooked safety risks under this scenario. As a key part of our analysis, we further develop a novel jailbreak method tailored to the wide-net-casting scenario. With this tailored method, the jailbreak success rate can even reach 100\% in some experiments when targeting the large models without additional safeguards, exposing wide-net-casting as a distinct, high-risk scenario that warrants attention in future evaluation and defense research.

翻译：针对大型模型的越狱攻击因与社会安全紧密相关而日益受到关注。本研究识别出一个实际存在但尚未被探索的越狱场景——广网投射场景，在该场景下攻击者可查询一组大型模型（而非单个模型）来诱导有害输出。我们的分析揭示了该场景下大量先前被忽视的安全风险。作为分析的关键部分，我们进一步开发了一种针对广网投射场景定制的新型越狱方法。采用该定制方法后，在针对未部署额外防护的大型模型的某些实验中，越狱成功率甚至可达100%，表明广网投射是一个值得未来评估与防御研究关注的高度风险独特场景。

0

相关内容

MoDELS

ACM/IEEE第23届模型驱动工程语言和系统国际会议，是模型驱动软件和系统工程的首要会议系列，由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来，模型涵盖了建模的各个方面，从语言和方法到工具和应用程序。模特的参加者来自不同的背景，包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛，参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会，并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。官网链接：http://www.modelsconference.org/

AI智能体时代大模型安全风险与攻防新挑战

AI智能体时代大模型安全风险与攻防新挑战

专知会员服务

15+阅读 · 2月27日

大语言模型越狱攻击：模型、根因及其攻防演化

大语言模型越狱攻击：模型、根因及其攻防演化

专知会员服务

22+阅读 · 2025年4月28日

大语言模型越狱攻击: 模型、根因及其攻防演化

大语言模型越狱攻击: 模型、根因及其攻防演化

专知会员服务

24+阅读 · 2025年2月16日

多视角看大模型安全及实践

多视角看大模型安全及实践

专知会员服务

70+阅读 · 2024年4月1日

网络靶场《网络威胁可视化：在网络安全演习中提供可视化服务》2023最新59页报告

网络靶场《网络威胁可视化：在网络安全演习中提供可视化服务》2023最新59页报告

专知会员服务

42+阅读 · 2023年10月22日

《多维度剖析大规模网络的网络威胁》83页论文

《多维度剖析大规模网络的网络威胁》83页论文

专知会员服务

33+阅读 · 2023年7月29日

《基于对手网络基础设施发掘来实现自动威胁建模》2023最新79页论文

《基于对手网络基础设施发掘来实现自动威胁建模》2023最新79页论文

专知会员服务

33+阅读 · 2023年5月14日

博士论文《网络攻击组件模型的选择与组合》2022年295页PDF，阿拉巴马大学

博士论文《网络攻击组件模型的选择与组合》2022年295页PDF，阿拉巴马大学

专知会员服务

36+阅读 · 2023年1月28日

深度生成模型如何对抗攻击？中国地大等《深度生成模型的对抗性攻击》综述全面阐述GAN和VAEs安全性和隐私保护

深度生成模型如何对抗攻击？中国地大等《深度生成模型的对抗性攻击》综述全面阐述GAN和VAEs安全性和隐私保护

专知会员服务

22+阅读 · 2021年12月3日

网络攻击模型研究综述

专知会员服务

56+阅读 · 2020年12月28日

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

11+阅读 · 2022年10月28日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

模型攻击：鲁棒性联邦学习研究的最新进展

模型攻击：鲁棒性联邦学习研究的最新进展

机器之心

35+阅读 · 2020年6月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

探秘各种主流周界安防技术产品

探秘各种主流周界安防技术产品

未来产业促进会

12+阅读 · 2018年11月16日

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

数据分析

13+阅读 · 2018年8月15日

深度学习应用于网络空间安全所面临的十大问题与机遇

深度学习应用于网络空间安全所面临的十大问题与机遇

计算机研究与发展

22+阅读 · 2018年6月7日

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

专知

23+阅读 · 2018年1月18日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于被控物理对象监测的核电厂网络空间攻击的检测和响应

国家自然科学基金

2+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

基于大数据分析的犯罪模式挖掘与犯罪预测研究

国家自然科学基金

7+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Adaptive and Explicit safe: Triggering Latent Safety Awareness in Large Reasoning Models

Arxiv

0+阅读 · 6月15日

Cordyceps: Covert Control Attacks on LLMs via Data Poisoning

Arxiv

0+阅读 · 6月15日

SlotGCG: Exploiting the Positional Vulnerability in LLMs for Jailbreak Attacks

Arxiv

0+阅读 · 6月4日

Stateful Online Monitoring Catches Distributed Agent Attacks

Arxiv

0+阅读 · 5月29日

Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models

Arxiv

0+阅读 · 5月19日

Re-Triggering Safeguards within LLMs for Jailbreak Detection

Arxiv

0+阅读 · 5月11日

Searching for Privacy Risks in LLM Agents via Simulation

Arxiv

0+阅读 · 5月8日

SRTJ: Self-Evolving Rule-Driven Training-Free LLM Jailbreaking

Arxiv

0+阅读 · 5月1日

EvoJail: Evolutionary Diverse Jailbreak Prompt Generation for Large Language Models

Arxiv

0+阅读 · 4月22日

Every Picture Tells a Dangerous Story: Memory-Augmented Multi-Agent Jailbreak Attacks on VLMs

Arxiv

0+阅读 · 4月14日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

8+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

11+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

5+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

7+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

7+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

6+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

7+阅读 · 6月16日

相关VIP内容

AI智能体时代大模型安全风险与攻防新挑战

AI智能体时代大模型安全风险与攻防新挑战

专知会员服务

15+阅读 · 2月27日

大语言模型越狱攻击：模型、根因及其攻防演化

大语言模型越狱攻击：模型、根因及其攻防演化

专知会员服务

22+阅读 · 2025年4月28日

大语言模型越狱攻击: 模型、根因及其攻防演化

大语言模型越狱攻击: 模型、根因及其攻防演化

专知会员服务

24+阅读 · 2025年2月16日

多视角看大模型安全及实践

多视角看大模型安全及实践

专知会员服务

70+阅读 · 2024年4月1日

网络靶场《网络威胁可视化：在网络安全演习中提供可视化服务》2023最新59页报告

网络靶场《网络威胁可视化：在网络安全演习中提供可视化服务》2023最新59页报告

专知会员服务

42+阅读 · 2023年10月22日

《多维度剖析大规模网络的网络威胁》83页论文

《多维度剖析大规模网络的网络威胁》83页论文

专知会员服务

33+阅读 · 2023年7月29日

《基于对手网络基础设施发掘来实现自动威胁建模》2023最新79页论文

《基于对手网络基础设施发掘来实现自动威胁建模》2023最新79页论文

专知会员服务

33+阅读 · 2023年5月14日

博士论文《网络攻击组件模型的选择与组合》2022年295页PDF，阿拉巴马大学

博士论文《网络攻击组件模型的选择与组合》2022年295页PDF，阿拉巴马大学

专知会员服务

36+阅读 · 2023年1月28日

深度生成模型如何对抗攻击？中国地大等《深度生成模型的对抗性攻击》综述全面阐述GAN和VAEs安全性和隐私保护

深度生成模型如何对抗攻击？中国地大等《深度生成模型的对抗性攻击》综述全面阐述GAN和VAEs安全性和隐私保护

专知会员服务

22+阅读 · 2021年12月3日

网络攻击模型研究综述

专知会员服务

56+阅读 · 2020年12月28日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

11+阅读 · 2022年10月28日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

模型攻击：鲁棒性联邦学习研究的最新进展

模型攻击：鲁棒性联邦学习研究的最新进展

机器之心

35+阅读 · 2020年6月3日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

探秘各种主流周界安防技术产品

探秘各种主流周界安防技术产品

未来产业促进会

12+阅读 · 2018年11月16日

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

数据分析

13+阅读 · 2018年8月15日

深度学习应用于网络空间安全所面临的十大问题与机遇

深度学习应用于网络空间安全所面临的十大问题与机遇

计算机研究与发展

22+阅读 · 2018年6月7日

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

最新5篇生成对抗网络相关论文推荐—FusedGAN、DeblurGAN、AdvGAN、CipherGAN、MMD GANS

专知

23+阅读 · 2018年1月18日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

相关论文

Adaptive and Explicit safe: Triggering Latent Safety Awareness in Large Reasoning Models

Arxiv

0+阅读 · 6月15日

Cordyceps: Covert Control Attacks on LLMs via Data Poisoning

Arxiv

0+阅读 · 6月15日

SlotGCG: Exploiting the Positional Vulnerability in LLMs for Jailbreak Attacks

Arxiv

0+阅读 · 6月4日

Stateful Online Monitoring Catches Distributed Agent Attacks

Arxiv

0+阅读 · 5月29日

Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models

Arxiv

0+阅读 · 5月19日

Re-Triggering Safeguards within LLMs for Jailbreak Detection

Arxiv

0+阅读 · 5月11日

Searching for Privacy Risks in LLM Agents via Simulation

Arxiv

0+阅读 · 5月8日

SRTJ: Self-Evolving Rule-Driven Training-Free LLM Jailbreaking

Arxiv

0+阅读 · 5月1日

EvoJail: Evolutionary Diverse Jailbreak Prompt Generation for Large Language Models

Arxiv

0+阅读 · 4月22日

Every Picture Tells a Dangerous Story: Memory-Augmented Multi-Agent Jailbreak Attacks on VLMs

Arxiv

0+阅读 · 4月14日

相关基金

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于被控物理对象监测的核电厂网络空间攻击的检测和响应

国家自然科学基金

2+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

基于大数据分析的犯罪模式挖掘与犯罪预测研究

国家自然科学基金

7+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员