BeDKD: Backdoor Defense Based on Directional Mapping Module and Adversarial Knowledge Distillation - 专知论文

会员服务 ·

0

映射 · 蒸馏 · 对抗 · 知识 · 后门防御 ·

BeDKD: Backdoor Defense Based on Directional Mapping Module and Adversarial Knowledge Distillation

翻译：BeDKD：基于方向映射模块与对抗知识蒸馏的后门防御方法

Zhengxian Wu,Juan Wen,Wanli Peng,Yinghan Zhou,Changtong dou,Yiming Xue

Although existing backdoor defenses have gained success in mitigating backdoor attacks, they still face substantial challenges. In particular, most of them rely on large amounts of clean data to weaken the backdoor mapping but generally struggle with residual trigger effects, resulting in persistently high attack success rates (ASR). Therefore, in this paper, we propose a novel \textbf{B}ackdoor d\textbf{e}fense method based on \textbf{D}irectional mapping module and adversarial \textbf{K}nowledge \textbf{D}istillation (BeDKD), which balances the trade-off between defense effectiveness and model performance using a small amount of clean and poisoned data. We first introduce a directional mapping module to identify poisoned data, which destroys clean mapping while keeping backdoor mapping on a small set of flipped clean data. Then, the adversarial knowledge distillation is designed to reinforce clean mapping and suppress backdoor mapping through a cycle iteration mechanism between trust and punish distillations using clean and identified poisoned data. We conduct experiments to mitigate mainstream attacks on three datasets, and experimental results demonstrate that BeDKD surpasses the state-of-the-art defenses and reduces the ASR by 98$\%$ without significantly reducing the CACC. Our code are available in https://github.com/CAU-ISS-Lab/Backdoor-Attack-Defense-LLMs/tree/main/BeDKD.

翻译：尽管现有的后门防御方法在缓解后门攻击方面已取得一定成效，但仍面临重大挑战。特别是，多数方法依赖大量干净数据来削弱后门映射，但普遍难以消除残留的触发器效应，导致攻击成功率（ASR）持续处于高位。为此，本文提出一种基于方向映射模块与对抗知识蒸馏的新型后门防御方法（BeDKD），该方法利用少量干净数据与投毒数据，在防御效果与模型性能之间实现平衡。我们首先引入方向映射模块来识别投毒数据，该模块通过在少量翻转的干净数据上破坏干净映射同时保持后门映射来实现。随后，设计对抗知识蒸馏机制，通过使用干净数据与已识别投毒数据在信任蒸馏与惩罚蒸馏之间的循环迭代，强化干净映射并抑制后门映射。我们在三个数据集上针对主流攻击进行了缓解实验，结果表明BeDKD超越了现有最优防御方法，在未显著降低干净准确率（CACC）的前提下，将ASR降低了98%。代码已开源：https://github.com/CAU-ISS-Lab/Backdoor-Attack-Defense-LLMs/tree/main/BeDKD。

0

相关内容

计算机视觉领域的后门攻击与防御：综述

计算机视觉领域的后门攻击与防御：综述

专知会员服务

19+阅读 · 2025年9月13日

深度学习中的架构后门：漏洞、检测与防御综述

深度学习中的架构后门：漏洞、检测与防御综述

专知会员服务

12+阅读 · 2025年7月19日

面向深度学习的后门攻击及防御研究综述

面向深度学习的后门攻击及防御研究综述

专知会员服务

12+阅读 · 2025年7月4日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

《不同触发位置的多模型选择性后门攻击》韩国陆军士官学校2022最新论文

《不同触发位置的多模型选择性后门攻击》韩国陆军士官学校2022最新论文

专知会员服务

27+阅读 · 2022年11月16日

CVPR2022 | 医学图像分析中基于频率注入的后门攻击

CVPR2022 | 医学图像分析中基于频率注入的后门攻击

专知会员服务

20+阅读 · 2022年7月31日

【书籍】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页，Moving Target Defense II：Application of Game Theory and Adversarial Modeling

【书籍】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页，Moving Target Defense II：Application of Game Theory and Adversarial Modeling

专知会员服务

67+阅读 · 2022年4月14日

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

专知会员服务

15+阅读 · 2021年1月31日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

31+阅读 · 2020年11月21日

宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知会员服务

24+阅读 · 2019年10月20日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

CFGAN：基于生成对抗网络的协同过滤框架

CFGAN：基于生成对抗网络的协同过滤框架

AINLP

11+阅读 · 2020年6月7日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

专知

21+阅读 · 2019年7月11日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

导弹集群智能突防技术的新发展

导弹集群智能突防技术的新发展

无人机

17+阅读 · 2018年11月28日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于结构化压缩感知的穿墙雷达成像技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

复杂海面多波段全极化雷达后向散射机理模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

17+阅读 · 2013年12月31日

雷达系统自适应抗干扰方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

Semantic-level Backdoor Attack against Text-to-Image Diffusion Models

Arxiv

0+阅读 · 2月3日

When Attention Betrays: Erasing Backdoor Attacks in Robotic Policies by Reconstructing Visual Tokens

Arxiv

0+阅读 · 2月3日

Unmasking Backdoors: An Explainable Defense via Gradient-Attention Anomaly Scoring for Pre-trained Language Models

Arxiv

0+阅读 · 1月30日

BadDet+: Robust Backdoor Attacks for Object Detection

Arxiv

0+阅读 · 1月28日

Diffusion-Guided Backdoor Attacks in Real-World Reinforcement Learning

Arxiv

0+阅读 · 1月20日

SoK: On the Survivability of Backdoor Attacks on Unconstrained Face Recognition Systems

Arxiv

0+阅读 · 1月20日

How to Backdoor the Knowledge Distillation

Arxiv

0+阅读 · 1月12日

SteganoBackdoor: Stealthy and Data-Efficient Backdoor Attacks on Language Models

SteganoBackdoor: Stealthy and Data-Efficient Backdoor Attacks on Language Models

Arxiv

0+阅读 · 1月5日

Coward: Collision-based Watermark for Proactive Federated Backdoor Detection

Arxiv

0+阅读 · 1月5日

SLIP: Soft Label Mechanism and Key-Extraction-Guided CoT-based Defense Against Instruction Backdoor in APIs

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

专知会员服务

0+阅读 · 今天15:55

GNN跨域综述：从消息传递到图基础模型

GNN跨域综述：从消息传递到图基础模型

专知会员服务

0+阅读 · 今天15:53

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

11+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

8+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

相关VIP内容

计算机视觉领域的后门攻击与防御：综述

计算机视觉领域的后门攻击与防御：综述

专知会员服务

19+阅读 · 2025年9月13日

深度学习中的架构后门：漏洞、检测与防御综述

深度学习中的架构后门：漏洞、检测与防御综述

专知会员服务

12+阅读 · 2025年7月19日

面向深度学习的后门攻击及防御研究综述

面向深度学习的后门攻击及防御研究综述

专知会员服务

12+阅读 · 2025年7月4日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

《不同触发位置的多模型选择性后门攻击》韩国陆军士官学校2022最新论文

《不同触发位置的多模型选择性后门攻击》韩国陆军士官学校2022最新论文

专知会员服务

27+阅读 · 2022年11月16日

CVPR2022 | 医学图像分析中基于频率注入的后门攻击

CVPR2022 | 医学图像分析中基于频率注入的后门攻击

专知会员服务

20+阅读 · 2022年7月31日

【书籍】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页，Moving Target Defense II：Application of Game Theory and Adversarial Modeling

【书籍】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页，Moving Target Defense II：Application of Game Theory and Adversarial Modeling

专知会员服务

67+阅读 · 2022年4月14日

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器

专知会员服务

15+阅读 · 2021年1月31日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

31+阅读 · 2020年11月21日

宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知会员服务

24+阅读 · 2019年10月20日

热门VIP内容

开通专知VIP会员享更多权益服务

GNN跨域综述：从消息传递到图基础模型

巡飞弹与反无人机系统——现代战场的两大支柱

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

无人机自主控制与人工智能：系统性综述

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

CFGAN：基于生成对抗网络的协同过滤框架

CFGAN：基于生成对抗网络的协同过滤框架

AINLP

11+阅读 · 2020年6月7日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

【清华出品】NLP新方向文本对抗攻击与防御必读论文列表

专知

21+阅读 · 2019年7月11日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

导弹集群智能突防技术的新发展

导弹集群智能突防技术的新发展

无人机

17+阅读 · 2018年11月28日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

相关论文

Semantic-level Backdoor Attack against Text-to-Image Diffusion Models

Arxiv

0+阅读 · 2月3日

When Attention Betrays: Erasing Backdoor Attacks in Robotic Policies by Reconstructing Visual Tokens

Arxiv

0+阅读 · 2月3日

Unmasking Backdoors: An Explainable Defense via Gradient-Attention Anomaly Scoring for Pre-trained Language Models

Arxiv

0+阅读 · 1月30日

BadDet+: Robust Backdoor Attacks for Object Detection

Arxiv

0+阅读 · 1月28日

Diffusion-Guided Backdoor Attacks in Real-World Reinforcement Learning

Arxiv

0+阅读 · 1月20日

SoK: On the Survivability of Backdoor Attacks on Unconstrained Face Recognition Systems

Arxiv

0+阅读 · 1月20日

How to Backdoor the Knowledge Distillation

Arxiv

0+阅读 · 1月12日

SteganoBackdoor: Stealthy and Data-Efficient Backdoor Attacks on Language Models

SteganoBackdoor: Stealthy and Data-Efficient Backdoor Attacks on Language Models

Arxiv

0+阅读 · 1月5日

Coward: Collision-based Watermark for Proactive Federated Backdoor Detection

Arxiv

0+阅读 · 1月5日

SLIP: Soft Label Mechanism and Key-Extraction-Guided CoT-based Defense Against Instruction Backdoor in APIs

Arxiv

0+阅读 · 1月5日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于结构化压缩感知的穿墙雷达成像技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

复杂海面多波段全极化雷达后向散射机理模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于Markov博弈的计算机网络对抗行动策略分析与建模研究

国家自然科学基金

17+阅读 · 2013年12月31日

雷达系统自适应抗干扰方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员