Large Language Models are increasingly trained on proprietary or sensitive data, from private healthcare and financial records to user conversations containing secrets. Ensuring the privacy of such data against extraction attacks has become a central concern. In this paper, we ask whether an attacker who can poison a portion of the training data can facilitate the leakage of a separate target record they have no access to. We answer in the affirmative and show that such leakage can be induced by a poisoning mechanism that reshapes the model's local loss landscape around the target completion. Our key insight is that poisoning to create a sharp loss minimum at the target, surrounded by elevated loss on nearby alternatives, forces the model to memorize the target as the unique low-loss solution in its neighborhood. The attack requires no architectural changes, and generalizes across centralized and federated learning settings. We demonstrate that the attack amplifies privacy leakage across language (up to 100% successful extraction), and vision-language models (up 90% successful extraction). We show that the attack is thwarted when the model is trained to be differentially private. However, we introduce a new attack that directly probes the loss landscape bypassing even differential privacy defenses.


翻译:大型语言模型越来越多地使用专有或敏感数据进行训练,涵盖从私人医疗和财务记录到包含秘密的用户对话。确保此类数据免受提取攻击的隐私保护已成为核心关切。在本文中,我们研究了一个问题:能够对部分训练数据进行投毒的攻击者,是否能够促使他们无法访问的单独目标记录发生泄露。我们给出了肯定回答,并表明这种泄露可以通过一种重塑目标完成周围模型局部损失景观的投毒机制来诱导。我们的关键见解是:通过投毒在目标处创建一个尖锐的损失最小值,同时提高附近替代位置的损失,迫使模型将目标记忆为其邻域内唯一的低损失解。该攻击无需修改架构,并且适用于集中式和联邦式学习场景。我们证明,该攻击能放大语言模型(最高100%成功提取)和视觉-语言模型(最高90%成功提取)的隐私泄露。研究显示,当模型经过差分隐私训练时,该攻击会被阻止。然而,我们引入了一种直接探测损失景观的新攻击,能够绕过包括差分隐私在内的防御机制。

0
下载
关闭预览

相关内容

大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
中文版 | 数据投毒:AI驱动战争中优势地位的隐蔽武器
深度学习中的数据投毒:综述
专知会员服务
29+阅读 · 2025年4月1日
大语言模型训练数据
专知会员服务
72+阅读 · 2024年11月22日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
训练数据多少才够用
专知
16+阅读 · 2019年5月4日
实战经验分享-少量数据NLP场景下进行深度学习训练的建议
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
46+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月16日
Arxiv
0+阅读 · 5月28日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
4+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关VIP内容
大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
中文版 | 数据投毒:AI驱动战争中优势地位的隐蔽武器
深度学习中的数据投毒:综述
专知会员服务
29+阅读 · 2025年4月1日
大语言模型训练数据
专知会员服务
72+阅读 · 2024年11月22日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
46+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员