Federated Instruction Tuning (FIT) enables collaborative instruction tuning of large language models across multiple organizations (clients) in a cross-silo setting without requiring the sharing of private instructions. Recent findings on natural backdoors and the existing training data collection method suggest that poisoned samples may be pervasive and inadvertently embedded in real-world datasets, potentially distributed across all clients, even if the clients are benign. This work systematically examine this threat in FIT, demonstrating that existing defenses are ineffective when poisoned data is interspersed among all clients. Addressing this challenge entails two major difficulties: identifying the distinctive characteristics of poisoned samples at each client and enabling collaborative defense when some clients are heavily dominated by poisoned samples. To address these difficulties, we identify gradients in the frequency domain as a robust signal to distinguish poisoned data. We further propose a global secondary clustering mechanism that facilitates collaborative identification of poisoned samples across clients. In summary, this paper introduces ProtegoFed, the first backdoor-free FIT framework that accurately detects, removes, and even purifies interspersed poisoned data across clients during the training. Experimental results on four FL datasets show that ProtegoFed identifies $92.00\% \sim 100.00\%$ of poisoned samples, reduces the attack success rate to almost zero, and maintains utility on the main task. Code is available at https://github.com/dongdongzhaoUP/ProtegoFed.


翻译:联邦指令调优(FIT)支持跨多个组织(客户端)在跨孤岛环境中协作进行大语言模型的指令调优,而无需共享私有指令。关于自然后门的最新研究及现有训练数据收集方法表明,污染样本可能普遍存在且无意中嵌入现实数据集,即使客户端均为良性,这些污染数据仍可能分布于所有客户端。本研究系统性地探讨了FIT中的这一威胁,证明当污染数据交错分布于所有客户端时,现有防御机制均告失效。应对该挑战面临两大难点:识别各客户端污染样本的独有特征,以及在部分客户端被污染样本严重主导时实现协同防御。针对这些难点,我们识别出频域梯度可作为区分污染数据的鲁棒信号。进一步提出全局二次聚类机制,促进跨客户端的污染样本协同识别。综上所述,本文提出首个无后门FIT框架ProtegoFed,能够在训练过程中准确检测、清除甚至净化跨客户端交错分布的污染数据。在四个联邦学习数据集上的实验结果表明,ProtegoFed可识别$92.00\% \sim 100.00\%$的污染样本,将攻击成功率降至接近零,同时保持主任务的性能。代码发布于https://github.com/dongdongzhaoUP/ProtegoFed。

0
下载
关闭预览

相关内容

多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
《大型语言模型指令调优》综述
专知会员服务
74+阅读 · 2023年8月27日
TheFatRat 一款简易后门工具
黑白之道
36+阅读 · 2019年10月23日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
基于机器学习的KPI自动化异常检测系统
运维帮
13+阅读 · 2017年8月16日
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
VIP会员
最新内容
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
8+阅读 · 今天8:10
《军用自主人工智能系统的治理与安全》
专知会员服务
5+阅读 · 今天8:02
《系统簇式多域作战规划范畴论框架》
专知会员服务
9+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
4+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
8+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
7+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
6+阅读 · 4月20日
相关VIP内容
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
《大型语言模型指令调优》综述
专知会员服务
74+阅读 · 2023年8月27日
相关基金
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员