Dynamic Target Attack - 专知论文

会员服务 ·

0

攻击 · 动态目标 · 输出 · 语言模型 · 梯度 ·

Dynamic Target Attack

翻译：动态目标攻击

Kedong Xiu,Churui Zeng,Tianhang Zheng,Xinzhe Huang,Xiaojun Jia,Di Wang,Puning Zhao,Zhan Qin,Kui Ren

Existing gradient-based jailbreak attacks typically optimize an adversarial suffix to induce a fixed affirmative response, e.g., ``Sure, here is...''. However, this fixed target usually resides in an extremely low-density region of a safety-aligned LLM's output distribution. Due to the substantial discrepancy between the fixed target and the output distribution, existing attacks require numerous iterations to optimize the adversarial prompt, which might still fail to induce the low-probability target response. To address this limitation, we propose Dynamic Target Attack (DTA), which leverages the target LLM's own responses as adaptive targets. In each optimization round, DTA samples multiple candidates from the output distribution conditioned on the current prompt, and selects the most harmful one as a temporary target for prompt optimization. Extensive experiments demonstrate that, under the white-box setting, DTA achieves over 87% average attack success rate (ASR) within 200 optimization iterations on recent safety-aligned LLMs, exceeding the state-of-the-art baselines by over 15% and reducing wall-clock time by 2-26x. Under the black-box setting, DTA employs a white-box LLM as a surrogate model for gradient-based optimization, achieving an average ASR of 77.5% against black-box models, exceeding prior transfer-based attacks by over 12%.

翻译：现有的基于梯度的越狱攻击通常通过优化一个对抗性后缀来诱导一个固定的肯定性回复，例如“当然，这里是...”。然而，这个固定目标通常位于经过安全对齐的大语言模型输出分布中一个极低密度的区域。由于固定目标与输出分布之间存在显著差异，现有攻击需要大量迭代来优化对抗性提示，并且可能仍然无法诱导出低概率的目标回复。为了解决这一局限性，我们提出了动态目标攻击，该方法利用目标大语言模型自身的回复作为自适应目标。在每一轮优化中，DTA从当前提示条件下的输出分布中采样多个候选回复，并选择其中最具危害性的一个作为提示优化的临时目标。大量实验表明，在白盒设置下，DTA在200次优化迭代内，在最新的安全对齐大语言模型上实现了超过87%的平均攻击成功率，超过了最先进的基线方法超过15%，并将实际运行时间减少了2到26倍。在黑盒设置下，DTA使用一个白盒大语言模型作为基于梯度优化的代理模型，针对黑盒模型实现了77.5%的平均攻击成功率，超过了先前的基于迁移的攻击方法超过12%。

0

相关内容

《利用动态图对网络攻击进行建模与仿真：在云安全评估中的应用》90页

《利用动态图对网络攻击进行建模与仿真：在云安全评估中的应用》90页

专知会员服务

21+阅读 · 2025年12月23日

《战术决策智能：大语言模型驱动的动态武器目标分配》

《战术决策智能：大语言模型驱动的动态武器目标分配》

专知会员服务

57+阅读 · 2025年11月18日

《数据加密战场：勒索软件攻击中动态对抗的深度解析》最新长综述

《数据加密战场：勒索软件攻击中动态对抗的深度解析》最新长综述

专知会员服务

12+阅读 · 2025年5月13日

近十年视觉任务中的对抗攻击研究综述

近十年视觉任务中的对抗攻击研究综述

专知会员服务

31+阅读 · 2024年11月2日

译文-AI赋能军事动态目标定位《动态目标定位场景中间接火力交战过程的系统架构》美国西点军校

译文-AI赋能军事动态目标定位《动态目标定位场景中间接火力交战过程的系统架构》美国西点军校

专知会员服务

160+阅读 · 2023年3月13日

《反力量的连续性和定制化的目标定位：美国核目标定位方法和现代威慑的新视角》美国空军大学2022最新40页报告

《反力量的连续性和定制化的目标定位：美国核目标定位方法和现代威慑的新视角》美国空军大学2022最新40页报告

专知会员服务

19+阅读 · 2022年10月18日

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

专知会员服务

18+阅读 · 2022年4月26日

【书籍】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页，Moving Target Defense II：Application of Game Theory and Adversarial Modeling

【书籍】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页，Moving Target Defense II：Application of Game Theory and Adversarial Modeling

专知会员服务

66+阅读 · 2022年4月14日

印度理工学院《有限观测下目标防御差异博弈的动态网络分析》，23页pdf

印度理工学院《有限观测下目标防御差异博弈的动态网络分析》，23页pdf

专知会员服务

23+阅读 · 2022年4月5日

GeoffreyHinton-ICML2020投稿论文-偏转对抗攻击 Deflecting Adversarial Attacks

GeoffreyHinton-ICML2020投稿论文-偏转对抗攻击 Deflecting Adversarial Attacks

专知会员服务

24+阅读 · 2020年2月22日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

ICLR2019 图上的对抗攻击

ICLR2019 图上的对抗攻击

图与推荐

17+阅读 · 2020年3月15日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

原创 | Attention Modeling for Targeted Sentiment

原创 | Attention Modeling for Targeted Sentiment

黑龙江大学自然语言处理实验室

25+阅读 · 2017年11月5日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

18+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

分布式中继网络中的物理层攻击检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

地面运动装甲目标声震信号精细化特征提取与智能识别技术研究

国家自然科学基金

6+阅读 · 2015年12月31日

复杂战场环境下的几个目标跟踪新问题研究

国家自然科学基金

63+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

临近空间平台载雷达的地面动目标检测方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向网络中心战的动态火力分配问题研究

国家自然科学基金

50+阅读 · 2013年12月31日

Pushing the Frontier of Black-Box LVLM Attacks via Fine-Grained Detail Targeting

Arxiv

0+阅读 · 2月19日

Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs

Arxiv

0+阅读 · 2月18日

Hierarchical Refinement of Universal Multimodal Attacks on Vision-Language Models

Arxiv

0+阅读 · 2月17日

Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks

Arxiv

0+阅读 · 2月16日

Multi-Turn Adaptive Prompting Attack on Large Vision-Language Models

Arxiv

0+阅读 · 2月16日

TrapSuffix: Proactive Defense Against Adversarial Suffixes in Jailbreaking

Arxiv

0+阅读 · 2月6日

Proactive defense against LLM Jailbreak

Arxiv

0+阅读 · 2月2日

Detecting Instruction Fine-tuning Attacks using Influence Function

Arxiv

0+阅读 · 1月30日

Untargeted Jailbreak Attack

Arxiv

0+阅读 · 1月29日

BadDet+: Robust Backdoor Attacks for Object Detection

Arxiv

0+阅读 · 1月28日

VIP会员

文章信息

相关主题

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

7+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

7+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

5+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

5+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

9+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

8+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

4+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

4+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

8+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

7+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

12+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

6+阅读 · 4月20日

相关VIP内容

《利用动态图对网络攻击进行建模与仿真：在云安全评估中的应用》90页

《利用动态图对网络攻击进行建模与仿真：在云安全评估中的应用》90页

专知会员服务

21+阅读 · 2025年12月23日

《战术决策智能：大语言模型驱动的动态武器目标分配》

《战术决策智能：大语言模型驱动的动态武器目标分配》

专知会员服务

57+阅读 · 2025年11月18日

《数据加密战场：勒索软件攻击中动态对抗的深度解析》最新长综述

《数据加密战场：勒索软件攻击中动态对抗的深度解析》最新长综述

专知会员服务

12+阅读 · 2025年5月13日

近十年视觉任务中的对抗攻击研究综述

近十年视觉任务中的对抗攻击研究综述

专知会员服务

31+阅读 · 2024年11月2日

译文-AI赋能军事动态目标定位《动态目标定位场景中间接火力交战过程的系统架构》美国西点军校

译文-AI赋能军事动态目标定位《动态目标定位场景中间接火力交战过程的系统架构》美国西点军校

专知会员服务

160+阅读 · 2023年3月13日

《反力量的连续性和定制化的目标定位：美国核目标定位方法和现代威慑的新视角》美国空军大学2022最新40页报告

《反力量的连续性和定制化的目标定位：美国核目标定位方法和现代威慑的新视角》美国空军大学2022最新40页报告

专知会员服务

19+阅读 · 2022年10月18日

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

【AI+军事】附论文《敏感还是不敏感？如何攻击和捍卫文件安全分类模型》

专知会员服务

18+阅读 · 2022年4月26日

【书籍】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页，Moving Target Defense II：Application of Game Theory and Adversarial Modeling

【书籍】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页，Moving Target Defense II：Application of Game Theory and Adversarial Modeling

专知会员服务

66+阅读 · 2022年4月14日

印度理工学院《有限观测下目标防御差异博弈的动态网络分析》，23页pdf

印度理工学院《有限观测下目标防御差异博弈的动态网络分析》，23页pdf

专知会员服务

23+阅读 · 2022年4月5日

GeoffreyHinton-ICML2020投稿论文-偏转对抗攻击 Deflecting Adversarial Attacks

GeoffreyHinton-ICML2020投稿论文-偏转对抗攻击 Deflecting Adversarial Attacks

专知会员服务

24+阅读 · 2020年2月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

ICLR2019 图上的对抗攻击

ICLR2019 图上的对抗攻击

图与推荐

17+阅读 · 2020年3月15日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

原创 | Attention Modeling for Targeted Sentiment

原创 | Attention Modeling for Targeted Sentiment

黑龙江大学自然语言处理实验室

25+阅读 · 2017年11月5日

相关论文

Pushing the Frontier of Black-Box LVLM Attacks via Fine-Grained Detail Targeting

Arxiv

0+阅读 · 2月19日

Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs

Arxiv

0+阅读 · 2月18日

Hierarchical Refinement of Universal Multimodal Attacks on Vision-Language Models

Arxiv

0+阅读 · 2月17日

Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks

Arxiv

0+阅读 · 2月16日

Multi-Turn Adaptive Prompting Attack on Large Vision-Language Models

Arxiv

0+阅读 · 2月16日

TrapSuffix: Proactive Defense Against Adversarial Suffixes in Jailbreaking

Arxiv

0+阅读 · 2月6日

Proactive defense against LLM Jailbreak

Arxiv

0+阅读 · 2月2日

Detecting Instruction Fine-tuning Attacks using Influence Function

Arxiv

0+阅读 · 1月30日

Untargeted Jailbreak Attack

Arxiv

0+阅读 · 1月29日

BadDet+: Robust Backdoor Attacks for Object Detection

Arxiv

0+阅读 · 1月28日

相关基金

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

18+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

分布式中继网络中的物理层攻击检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

地面运动装甲目标声震信号精细化特征提取与智能识别技术研究

国家自然科学基金

6+阅读 · 2015年12月31日

复杂战场环境下的几个目标跟踪新问题研究

国家自然科学基金

63+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

临近空间平台载雷达的地面动目标检测方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向网络中心战的动态火力分配问题研究

国家自然科学基金

50+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员