Backdoor detection is currently the mainstream defense against backdoor attacks in federated learning (FL), where a small number of malicious clients can upload poisoned updates to compromise the federated global model. Existing backdoor detection techniques fall into two categories, passive and proactive, depending on whether the server proactively intervenes in the training process. However, both of them have inherent limitations in practice: passive detection methods are disrupted by common non-i.i.d. data distributions and random participation of FL clients, whereas current proactive detection methods are misled by an inevitable out-of-distribution (OOD) bias because they rely on backdoor coexistence effects. To address these issues, we introduce a novel proactive detection method dubbed Coward, inspired by our discovery of multi-backdoor collision effects, in which consecutively planted, distinct backdoors significantly suppress earlier ones. Correspondingly, we modify the federated global model by injecting a carefully designed backdoor-collided watermark, implemented via regulated dual-mapping learning on OOD data. This design not only enables an inverted detection paradigm compared to existing proactive methods, thereby naturally counteracting the adverse impact of OOD prediction bias, but also introduces a low-disruptive training intervention that inherently limits the strength of OOD bias, leading to significantly fewer misjudgments. Extensive experiments on benchmark datasets show that Coward achieves state-of-the-art detection performance, effectively alleviates OOD prediction bias, and remains robust against potential adaptive attacks. The code for our method is available at https://github.com/still2009/cowardFL.


翻译:后门检测是目前联邦学习(FL)中防御后门攻击的主流方法,其中少数恶意客户端可能上传被投毒的更新以破坏联邦全局模型。现有的后门检测技术根据服务器是否主动干预训练过程,可分为被动式与主动式两类。然而,这两类方法在实践中均存在固有局限:被动检测方法受到常见的非独立同分布数据分布和联邦客户端随机参与的干扰,而当前的主动检测方法则因依赖于后门共存效应,被不可避免的分布外(OOD)偏差所误导。为解决这些问题,我们提出了一种新颖的主动检测方法,命名为Coward,其灵感来源于我们对多后门碰撞效应的发现——即连续植入的不同后门会显著抑制较早的后门。相应地,我们通过注入一个精心设计的后门碰撞水印来修改联邦全局模型,该水印通过在OOD数据上进行受调控的双映射学习来实现。这一设计不仅实现了与现有主动方法相反的检测范式,从而自然地抵消了OOD预测偏差的不利影响,还引入了一种低干扰的训练干预,其本身限制了OOD偏差的强度,从而显著减少了误判。在基准数据集上的大量实验表明,Coward实现了最先进的检测性能,有效缓解了OOD预测偏差,并对潜在的自适应攻击保持鲁棒性。本方法的代码可在 https://github.com/still2009/cowardFL 获取。

0
下载
关闭预览

相关内容

计算机视觉领域的后门攻击与防御:综述
专知会员服务
19+阅读 · 2025年9月13日
深度学习中的架构后门:漏洞、检测与防御综述
专知会员服务
12+阅读 · 2025年7月19日
面向深度学习的后门攻击及防御研究综述
专知会员服务
12+阅读 · 2025年7月4日
《基于高斯混合流和入包的异常检测》2023最新57页论文
专知会员服务
28+阅读 · 2023年5月15日
CVPR2022 | 医学图像分析中基于频率注入的后门攻击
专知会员服务
20+阅读 · 2022年7月31日
【ICML2022】Neurotoxin:联邦学习的持久后门
专知会员服务
18+阅读 · 2022年6月26日
【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器
专知会员服务
15+阅读 · 2021年1月31日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
TheFatRat 一款简易后门工具
黑白之道
35+阅读 · 2019年10月23日
Xsser 一款自动检测XSS漏洞工具
黑白之道
14+阅读 · 2019年8月26日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
计算机视觉领域的后门攻击与防御:综述
专知会员服务
19+阅读 · 2025年9月13日
深度学习中的架构后门:漏洞、检测与防御综述
专知会员服务
12+阅读 · 2025年7月19日
面向深度学习的后门攻击及防御研究综述
专知会员服务
12+阅读 · 2025年7月4日
《基于高斯混合流和入包的异常检测》2023最新57页论文
专知会员服务
28+阅读 · 2023年5月15日
CVPR2022 | 医学图像分析中基于频率注入的后门攻击
专知会员服务
20+阅读 · 2022年7月31日
【ICML2022】Neurotoxin:联邦学习的持久后门
专知会员服务
18+阅读 · 2022年6月26日
【ICLR2021】神经元注意力蒸馏消除DNN中的后门触发器
专知会员服务
15+阅读 · 2021年1月31日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员