Federated learning (FL) addresses privacy and data-silo issues in the training of large language models (LLMs). Most prior work focuses on improving the efficiency of federated learning for LLMs (FedLLM). However, security in open federated environments, particularly defenses against malicious clients, remains underexplored. To investigate the security of FedLLM, we conduct a preliminary study to analyze potential attack surfaces and defensive characteristics from the perspective of LoRA updates. We find two key properties of FedLLM: 1) LLMs are vulnerable to attacks from malicious clients in FL, and 2) LoRA updates exhibit distinct behavioral patterns that can be effectively distinguished by lightweight classifiers. Based on these properties, we propose Safe-FedLLM, a probe-based defense framework for FedLLM, which constructs defenses across three levels: Step-Level, Client-Level, and Shadow-Level. The core concept of Safe-FedLLM is to perform probe-based discrimination on each client's local LoRA updates, treating them as high-dimensional behavioral features and using a lightweight classifier to determine whether they are malicious. Extensive experiments demonstrate that Safe-FedLLM effectively improves FedLLM's robustness against malicious clients while maintaining competitive performance on benign data. Notably, our method effectively suppresses the impact of malicious data without significantly affecting training speed, and remains effective even under high malicious client ratios.


翻译:联邦学习解决了大语言模型训练中的隐私和数据孤岛问题。现有研究大多聚焦于提升联邦学习对大语言模型(FedLLM)的效率,然而开放联邦环境下的安全性问题,尤其是针对恶意客户端的防御机制,仍缺乏深入探索。为探究FedLLM的安全性,我们开展初步研究,从LoRA更新的视角分析潜在攻击面与防御特征,发现两个关键特性:1)大语言模型易受联邦学习中恶意客户端的攻击;2)LoRA更新呈现可通过轻量化分类器有效区分的独特行为模式。基于此,我们提出Safe-FedLLM——一种面向FedLLM的探针式防御框架,该框架构建了三层防御机制:步骤级、客户端级和影子级。其核心思想是对每个客户端的本地LoRA更新进行探针式判别,将其视为高维行为特征,利用轻量化分类器判断是否存在恶意行为。大量实验表明,Safe-FedLLM在保持良性数据竞争力的同时,有效提升了FedLLM抵御恶意客户端的鲁棒性。值得注意的是,本方法在不显著影响训练速度的前提下,可有效抑制恶意数据的影响,即使在高恶意客户端比例场景下仍保持有效性。

0
下载
关闭预览

相关内容

探索大型语言模型在网络安全中的作用:一项系统综述
专知会员服务
21+阅读 · 2025年4月27日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
大语言模型安全现状与挑战
专知会员服务
88+阅读 · 2024年1月14日
「联邦学习模型安全与隐私」研究进展
专知会员服务
69+阅读 · 2022年9月24日
专知会员服务
113+阅读 · 2020年11月16日
专知会员服务
127+阅读 · 2020年8月7日
「联邦学习隐私保护 」最新2022研究综述
专知
16+阅读 · 2022年4月1日
联邦学习研究综述
专知
11+阅读 · 2021年12月25日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
【资源】联邦学习相关文献资源大列表
专知
10+阅读 · 2020年2月25日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月9日
VIP会员
最新内容
美国军方使用的10种反无人机武器(2026年更新)
专知会员服务
1+阅读 · 50分钟前
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关VIP内容
探索大型语言模型在网络安全中的作用:一项系统综述
专知会员服务
21+阅读 · 2025年4月27日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
大语言模型安全现状与挑战
专知会员服务
88+阅读 · 2024年1月14日
「联邦学习模型安全与隐私」研究进展
专知会员服务
69+阅读 · 2022年9月24日
专知会员服务
113+阅读 · 2020年11月16日
专知会员服务
127+阅读 · 2020年8月7日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员