Backdoor attacks on federated learning (FL) are most often evaluated with synthetic corner patches or out-of-distribution (OOD) patterns that are unlikely to arise in practice. In this paper, we revisit the backdoor threat to standard FL (a single global model) under a more realistic setting where triggers must be semantically meaningful, in-distribution, and visually plausible. We propose SABLE, a Semantics-Aware Backdoor for LEarning in federated settings, which constructs natural, content-consistent triggers (e.g., semantic attribute changes such as sunglasses) and optimizes an aggregation-aware malicious objective with feature separation and parameter regularization to keep attacker updates close to benign ones. We instantiate SABLE on CelebA hair-color classification and the German Traffic Sign Recognition Benchmark (GTSRB), poisoning only a small, interpretable subset of each malicious client's local data while otherwise following the standard FL protocol. Across heterogeneous client partitions and multiple aggregation rules (FedAvg, Trimmed Mean, MultiKrum, and FLAME), our semantics-driven triggers achieve high targeted attack success rates while preserving benign test accuracy. These results show that semantics-aligned backdoors remain a potent and practical threat in federated learning, and that robustness claims based solely on synthetic patch triggers can be overly optimistic.


翻译:联邦学习中的后门攻击通常使用合成角块补丁或分布外模式进行评估,这些模式在实践中不太可能出现。本文在更现实的场景下重新审视了对标准联邦学习(单一全局模型)的后门威胁,其中触发器必须具有语义意义、分布内且视觉上合理。我们提出SABLE(Semantics-Aware Backdoor for LEarning),一种用于联邦环境下的语义感知后门攻击方法,该方法构建自然、内容一致的触发器(例如太阳镜等语义属性变化),并通过特征分离和参数正则化优化聚合感知的恶意目标,使攻击者的更新接近良性更新。我们在CelebA发色分类任务和德国交通标志识别基准(GTSRB)上实例化SABLE,仅毒化每个恶意客户端局部数据中一小部分可解释的子集,同时遵循标准联邦学习协议。在异构客户端分区和多种聚合规则(FedAvg、Trimmed Mean、MultiKrum 和 FLAME)下,我们的语义驱动触发器实现了高目标攻击成功率,同时保持了良性测试准确率。这些结果表明,语义对齐的后门仍然是联邦学习中强大且实际存在的威胁,而仅基于合成块触发器的鲁棒性声明可能过于乐观。

0
下载
关闭预览

相关内容

计算机视觉领域的后门攻击与防御:综述
专知会员服务
19+阅读 · 2025年9月13日
深度学习中的架构后门:漏洞、检测与防御综述
专知会员服务
12+阅读 · 2025年7月19日
面向深度学习的后门攻击及防御研究综述
专知会员服务
12+阅读 · 2025年7月4日
联邦学习中的成员推断攻击与防御:综述
专知会员服务
17+阅读 · 2024年12月15日
通信网络中大型语言模型的后门攻击的综述
专知会员服务
30+阅读 · 2023年9月5日
「联邦学习系统攻击与防御技术」最新2023研究综述
专知会员服务
41+阅读 · 2023年3月12日
【ICML2022】Neurotoxin:联邦学习的持久后门
专知会员服务
18+阅读 · 2022年6月26日
「联邦学习隐私保护 」最新2022研究综述
专知
16+阅读 · 2022年4月1日
联邦学习研究综述
专知
11+阅读 · 2021年12月25日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
模型攻击:鲁棒性联邦学习研究的最新进展
机器之心
35+阅读 · 2020年6月3日
联邦学习或将助力IoT走出“数据孤岛”?
中国计算机学会
20+阅读 · 2019年3月16日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
VIP会员
相关主题
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 今天16:48
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
7+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关VIP内容
计算机视觉领域的后门攻击与防御:综述
专知会员服务
19+阅读 · 2025年9月13日
深度学习中的架构后门:漏洞、检测与防御综述
专知会员服务
12+阅读 · 2025年7月19日
面向深度学习的后门攻击及防御研究综述
专知会员服务
12+阅读 · 2025年7月4日
联邦学习中的成员推断攻击与防御:综述
专知会员服务
17+阅读 · 2024年12月15日
通信网络中大型语言模型的后门攻击的综述
专知会员服务
30+阅读 · 2023年9月5日
「联邦学习系统攻击与防御技术」最新2023研究综述
专知会员服务
41+阅读 · 2023年3月12日
【ICML2022】Neurotoxin:联邦学习的持久后门
专知会员服务
18+阅读 · 2022年6月26日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员