Current backdoor defenses assume that neutralizing a known trigger removes the backdoor. We show this trigger-centric view is incomplete: \emph{alternative triggers}, patterns perceptually distinct from training triggers, reliably activate the same backdoor. We estimate the alternative trigger backdoor direction in feature space by contrasting clean and triggered representations, and then develop a feature-guided attack that jointly optimizes target prediction and directional alignment. First, we theoretically prove that alternative triggers exist and are an inevitable consequence of backdoor training. Then, we verify this empirically. Additionally, defenses that remove training triggers often leave backdoors intact, and alternative triggers can exploit the latent backdoor feature-space. Our findings motivate defenses targeting backdoor directions in representation space rather than input-space triggers.


翻译:当前的后门防御假设已知触发器的中和能消除后门。我们证明这种以触发器为中心的观点是不完整的:\emph{替代触发器}——即与训练触发器在感知上截然不同的模式——能够可靠地激活同一后门。我们通过对比干净样本与受触发样本的表征,在特征空间中估计替代触发器的后门方向,并开发了一种联合优化目标预测与方向对齐的特征引导攻击。首先,我们从理论上证明替代触发器的存在是后门训练的必然结果。随后,我们通过实验验证了这一结论。此外,移除训练触发器的防御方法往往使后门保持完整,而替代触发器能够利用潜在的后门特征空间。我们的发现启示了应针对表征空间中的后门方向而非输入空间的触发器进行防御。

0
下载
关闭预览

相关内容

计算机视觉领域的后门攻击与防御:综述
专知会员服务
19+阅读 · 2025年9月13日
深度学习中的架构后门:漏洞、检测与防御综述
专知会员服务
12+阅读 · 2025年7月19日
面向深度学习的后门攻击及防御研究综述
专知会员服务
12+阅读 · 2025年7月4日
通信网络中大型语言模型的后门攻击的综述
专知会员服务
30+阅读 · 2023年9月5日
【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器
专知会员服务
15+阅读 · 2021年1月31日
最全推荐系统Embedding召回算法总结
凡人机器学习
30+阅读 · 2020年7月5日
TheFatRat 一款简易后门工具
黑白之道
36+阅读 · 2019年10月23日
激活函数还是有一点意思的!
计算机视觉战队
12+阅读 · 2019年6月28日
面试时让你手推公式不在害怕 | 梯度下降
计算机视觉life
14+阅读 · 2019年3月27日
React Native 分包哪家强?看这文就够了!
程序人生
13+阅读 · 2019年1月16日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月11日
Arxiv
0+阅读 · 1月31日
VIP会员
最新内容
无人机与反无人机系统(书籍)
专知会员服务
4+阅读 · 今天6:45
乌克兰2026年军用无人机:现代战争如何被改变
专知会员服务
2+阅读 · 今天5:53
美陆军2026条令:安全与机动支援
专知会员服务
1+阅读 · 今天5:49
技术、多域威慑与海上战争(报告)
专知会员服务
7+阅读 · 4月13日
“在云端防御”:提升北约数据韧性(报告)
专知会员服务
4+阅读 · 4月13日
人工智能及其在海军行动中的整合(综述)
专知会员服务
6+阅读 · 4月13日
相关资讯
最全推荐系统Embedding召回算法总结
凡人机器学习
30+阅读 · 2020年7月5日
TheFatRat 一款简易后门工具
黑白之道
36+阅读 · 2019年10月23日
激活函数还是有一点意思的!
计算机视觉战队
12+阅读 · 2019年6月28日
面试时让你手推公式不在害怕 | 梯度下降
计算机视觉life
14+阅读 · 2019年3月27日
React Native 分包哪家强?看这文就够了!
程序人生
13+阅读 · 2019年1月16日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员