Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs - 专知论文

会员服务 ·

0

LoRA · 记忆效应 · 联邦学习 · 语言模型 · 训练数据 ·

Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs

翻译：基于LoRA的联邦学习缓解大型语言模型中的意外记忆效应

Thierry Bossy,Julien Vignoud,Tahseen Rabbani,Juan R. Troncoso Pastoriza,Martin Jaggi

Federated learning (FL) is a popular paradigm for collaborative training which avoids direct data exposure between clients. However, data privacy issues still remain: FL-trained large language models are capable of memorizing and completing phrases and sentences contained in training data when given their prefixes. Thus, it is possible for adversarial and honest- but-curious clients to recover training data of other participants simply through targeted prompting. In this work, we demonstrate that a popular and simple fine-tuning strategy, low-rank adaptation (LoRA), reduces memorization during FL by a factor of up to 10 without significant performance cost. We study this effect by performing fine-tuning tasks in high-risk domains such as medicine, law, and finance. We observe a reduction in memorization for a wide variety of model families, from 1B to 70B parameters. We find that LoRA can reduce memorization in centralized learning as well, and we compare how the memorization patterns differ. Furthermore, we study the effect of hyperparameters and show that LoRA can be combined with other privacy-preserving techniques such as gradient clipping and Gaussian noise, secure aggregation, and Goldfish loss to further improve record-level privacy while maintaining performance.

翻译：联邦学习（FL）是一种避免客户端间直接数据暴露的协同训练范式。然而，数据隐私问题依然存在：经过联邦学习训练的大型语言模型在给定训练数据中短语或句子的前缀时，能够记忆并补全这些内容。因此，恶意或诚实但好奇的客户端仅通过针对性提示即可恢复其他参与者的训练数据。本研究证明，一种流行且简单的微调策略——低秩自适应（LoRA）——能在不显著影响性能的前提下，将联邦学习过程中的记忆效应降低高达10倍。我们通过在医学、法律和金融等高风险领域执行微调任务来研究这一效应，观察到从10亿到700亿参数的各种模型家族均出现记忆减少现象。我们发现LoRA在集中式学习中同样能降低记忆效应，并比较了两种场景下记忆模式的差异。此外，我们研究了超参数的影响，证明LoRA可与梯度裁剪、高斯噪声、安全聚合及Goldfish损失等其他隐私保护技术结合，在保持性能的同时进一步提升记录级隐私保护能力。

0

相关内容

LoRA

《联邦学习在网络安全中的应用：性能、鲁棒性与对抗性威胁》2025最新145页

《联邦学习在网络安全中的应用：性能、鲁棒性与对抗性威胁》2025最新145页

专知会员服务

19+阅读 · 2025年9月18日

《联邦军事大语言模型中潜在提示注入攻击的探索与缓解对策》

《联邦军事大语言模型中潜在提示注入攻击的探索与缓解对策》

专知会员服务

15+阅读 · 2025年5月22日

探索联邦军事大型语言模型中的潜在提示注入攻击及其缓解方法

探索联邦军事大型语言模型中的潜在提示注入攻击及其缓解方法

专知会员服务

37+阅读 · 2025年2月4日

【剑桥大学博士论文】联邦自监督学习，141页pdf

【剑桥大学博士论文】联邦自监督学习，141页pdf

专知会员服务

19+阅读 · 2024年6月15日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知会员服务

43+阅读 · 2022年12月1日

【2022新书】联邦学习：方法和应用的综合概述

【2022新书】联邦学习：方法和应用的综合概述

专知会员服务

149+阅读 · 2022年7月14日

联邦学习中的隐私和鲁棒性:攻击和防御, 杨强等学者最新综述论文，16页pdf

联邦学习中的隐私和鲁棒性:攻击和防御, 杨强等学者最新综述论文，16页pdf

专知会员服务

104+阅读 · 2021年2月3日

最新《联邦学习Federated Learning》报告，Federated Learning

最新《联邦学习Federated Learning》报告，Federated Learning

专知会员服务

92+阅读 · 2020年12月2日

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

专知会员服务

79+阅读 · 2020年3月19日

【综述】联邦学习的威胁，Threats to Federated Learning: A Survey

【综述】联邦学习的威胁，Threats to Federated Learning: A Survey

专知会员服务

81+阅读 · 2020年3月4日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

专知

28+阅读 · 2022年7月14日

联邦学习研究综述

联邦学习研究综述

专知

11+阅读 · 2021年12月25日

联邦学习如何用于医疗？Deakin最新《联邦学习智慧医疗》综述论文全面阐述联邦学习在医疗的应用

联邦学习如何用于医疗？Deakin最新《联邦学习智慧医疗》综述论文全面阐述联邦学习在医疗的应用

专知

14+阅读 · 2021年11月27日

最新《联邦学习Federated Learning》报告，47页ppt

最新《联邦学习Federated Learning》报告，47页ppt

专知

48+阅读 · 2020年12月2日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

【资源】联邦学习相关文献资源大列表

【资源】联邦学习相关文献资源大列表

专知

10+阅读 · 2020年2月25日

【重磅】联邦学习FL进展与开放问题万字综述论文，58位学者25家机构联合出品，105页pdf438篇文献

【重磅】联邦学习FL进展与开放问题万字综述论文，58位学者25家机构联合出品，105页pdf438篇文献

专知

33+阅读 · 2019年12月15日

【联邦学习】联邦学习的研究及应用、联邦学习的多种可能性

【联邦学习】联邦学习的研究及应用、联邦学习的多种可能性

产业智能官

30+阅读 · 2019年5月24日

联邦机器学习-概念与应用，【附19页论文下载】

联邦机器学习-概念与应用，【附19页论文下载】

专知

80+阅读 · 2019年3月9日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

FedPLT: Scalable, Resource-Efficient, and Heterogeneity-Aware Federated Learning via Partial Layer Training

Arxiv

0+阅读 · 5月4日

Understanding Communication Backends in Cross-Silo Federated Learning

Arxiv

0+阅读 · 4月12日

Dynamic Meta-Layer Aggregation for Byzantine-Robust Federated Learning

Dynamic Meta-Layer Aggregation for Byzantine-Robust Federated Learning

Arxiv

0+阅读 · 3月17日

FedPBS: Proximal-Balanced Scaling Federated Learning Model for Robust Personalized Training for Non-IID Data

Arxiv

0+阅读 · 3月14日

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

Arxiv

0+阅读 · 3月9日

Protection against Source Inference Attacks in Federated Learning

Arxiv

0+阅读 · 3月2日

FedDAG: Clustered Federated Learning via Global Data and Gradient Integration for Heterogeneous Environments

Arxiv

0+阅读 · 2月26日

Heterogeneity-Aware Client Selection Methodology For Efficient Federated Learning

Arxiv

0+阅读 · 2月24日

Rethinking LoRA for Privacy-Preserving Federated Learning in Large Models

Arxiv

0+阅读 · 2月23日

Characterizing Impacts of Heterogeneity in Federated Learning upon Large-Scale Smartphone Data

Arxiv

12+阅读 · 2021年2月21日

VIP会员

文章信息

相关主题

最新内容

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

9+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

5+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

5+阅读 · 5月5日

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

专知会员服务

6+阅读 · 5月5日

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

专知会员服务

9+阅读 · 5月5日

《美空军条令出版物 2-0：情报（2026版）》

《美空军条令出版物 2-0：情报（2026版）》

专知会员服务

14+阅读 · 5月5日

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

专知会员服务

6+阅读 · 5月5日

帕兰提尔 Gotham：一个游戏规则改变器

帕兰提尔 Gotham：一个游戏规则改变器

专知会员服务

9+阅读 · 5月5日

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

3+阅读 · 5月5日

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

专知会员服务

3+阅读 · 5月5日

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

8+阅读 · 5月4日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

12+阅读 · 5月4日

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

9+阅读 · 5月4日

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

9+阅读 · 5月4日

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

7+阅读 · 5月4日

相关VIP内容

《联邦学习在网络安全中的应用：性能、鲁棒性与对抗性威胁》2025最新145页

《联邦学习在网络安全中的应用：性能、鲁棒性与对抗性威胁》2025最新145页

专知会员服务

19+阅读 · 2025年9月18日

《联邦军事大语言模型中潜在提示注入攻击的探索与缓解对策》

《联邦军事大语言模型中潜在提示注入攻击的探索与缓解对策》

专知会员服务

15+阅读 · 2025年5月22日

探索联邦军事大型语言模型中的潜在提示注入攻击及其缓解方法

探索联邦军事大型语言模型中的潜在提示注入攻击及其缓解方法

专知会员服务

37+阅读 · 2025年2月4日

【剑桥大学博士论文】联邦自监督学习，141页pdf

【剑桥大学博士论文】联邦自监督学习，141页pdf

专知会员服务

19+阅读 · 2024年6月15日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知会员服务

43+阅读 · 2022年12月1日

【2022新书】联邦学习：方法和应用的综合概述

【2022新书】联邦学习：方法和应用的综合概述

专知会员服务

149+阅读 · 2022年7月14日

联邦学习中的隐私和鲁棒性:攻击和防御, 杨强等学者最新综述论文，16页pdf

联邦学习中的隐私和鲁棒性:攻击和防御, 杨强等学者最新综述论文，16页pdf

专知会员服务

104+阅读 · 2021年2月3日

最新《联邦学习Federated Learning》报告，Federated Learning

最新《联邦学习Federated Learning》报告，Federated Learning

专知会员服务

92+阅读 · 2020年12月2日

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

专知会员服务

79+阅读 · 2020年3月19日

【综述】联邦学习的威胁，Threats to Federated Learning: A Survey

【综述】联邦学习的威胁，Threats to Federated Learning: A Survey

专知会员服务

81+阅读 · 2020年3月4日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

DeepSeek 版Claude Code，免费小白安装教程来了！

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

相关资讯

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

专知

28+阅读 · 2022年7月14日

联邦学习研究综述

联邦学习研究综述

专知

11+阅读 · 2021年12月25日

联邦学习如何用于医疗？Deakin最新《联邦学习智慧医疗》综述论文全面阐述联邦学习在医疗的应用

联邦学习如何用于医疗？Deakin最新《联邦学习智慧医疗》综述论文全面阐述联邦学习在医疗的应用

专知

14+阅读 · 2021年11月27日

最新《联邦学习Federated Learning》报告，47页ppt

最新《联邦学习Federated Learning》报告，47页ppt

专知

48+阅读 · 2020年12月2日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

【资源】联邦学习相关文献资源大列表

【资源】联邦学习相关文献资源大列表

专知

10+阅读 · 2020年2月25日

【重磅】联邦学习FL进展与开放问题万字综述论文，58位学者25家机构联合出品，105页pdf438篇文献

【重磅】联邦学习FL进展与开放问题万字综述论文，58位学者25家机构联合出品，105页pdf438篇文献

专知

33+阅读 · 2019年12月15日

【联邦学习】联邦学习的研究及应用、联邦学习的多种可能性

【联邦学习】联邦学习的研究及应用、联邦学习的多种可能性

产业智能官

30+阅读 · 2019年5月24日

联邦机器学习-概念与应用，【附19页论文下载】

联邦机器学习-概念与应用，【附19页论文下载】

专知

80+阅读 · 2019年3月9日

相关论文

FedPLT: Scalable, Resource-Efficient, and Heterogeneity-Aware Federated Learning via Partial Layer Training

Arxiv

0+阅读 · 5月4日

Understanding Communication Backends in Cross-Silo Federated Learning

Arxiv

0+阅读 · 4月12日

Dynamic Meta-Layer Aggregation for Byzantine-Robust Federated Learning

Dynamic Meta-Layer Aggregation for Byzantine-Robust Federated Learning

Arxiv

0+阅读 · 3月17日

FedPBS: Proximal-Balanced Scaling Federated Learning Model for Robust Personalized Training for Non-IID Data

Arxiv

0+阅读 · 3月14日

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

Arxiv

0+阅读 · 3月9日

Protection against Source Inference Attacks in Federated Learning

Arxiv

0+阅读 · 3月2日

FedDAG: Clustered Federated Learning via Global Data and Gradient Integration for Heterogeneous Environments

Arxiv

0+阅读 · 2月26日

Heterogeneity-Aware Client Selection Methodology For Efficient Federated Learning

Arxiv

0+阅读 · 2月24日

Rethinking LoRA for Privacy-Preserving Federated Learning in Large Models

Arxiv

0+阅读 · 2月23日

Characterizing Impacts of Heterogeneity in Federated Learning upon Large-Scale Smartphone Data

Arxiv

12+阅读 · 2021年2月21日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员