Loss Landscape Poisoning: Targeted Extraction of Unseen Training Data from LLMs - 专知论文

会员服务 ·

0

损失 · 攻击 · 提取 · 语言模型 · 训练数据 ·

Loss Landscape Poisoning: Targeted Extraction of Unseen Training Data from LLMs

翻译：损失景观投毒：从大语言模型中定向提取未见训练数据

Md Abdullah Al Mamun,Ngoc Phu Doan,Pedram Zaree,Ihsen Alouani,Nael Abu-Ghazaleh

Large Language Models are increasingly trained on proprietary or sensitive data, from private healthcare and financial records to user conversations containing secrets. Ensuring the privacy of such data against extraction attacks has become a central concern. In this paper, we ask whether an attacker who can poison a portion of the training data can facilitate the leakage of a separate target record they have no access to. We answer in the affirmative and show that such leakage can be induced by a poisoning mechanism that reshapes the model's local loss landscape around the target completion. Our key insight is that poisoning to create a sharp loss minimum at the target, surrounded by elevated loss on nearby alternatives, forces the model to memorize the target as the unique low-loss solution in its neighborhood. The attack requires no architectural changes, and generalizes across centralized and federated learning settings. We demonstrate that the attack amplifies privacy leakage across language (up to 100% successful extraction), and vision-language models (up 90% successful extraction). We show that the attack is thwarted when the model is trained to be differentially private. However, we introduce a new attack that directly probes the loss landscape bypassing even differential privacy defenses.

翻译：大型语言模型越来越多地使用专有或敏感数据进行训练，涵盖从私人医疗和财务记录到包含秘密的用户对话。确保此类数据免受提取攻击的隐私保护已成为核心关切。在本文中，我们研究了一个问题：能够对部分训练数据进行投毒的攻击者，是否能够促使他们无法访问的单独目标记录发生泄露。我们给出了肯定回答，并表明这种泄露可以通过一种重塑目标完成周围模型局部损失景观的投毒机制来诱导。我们的关键见解是：通过投毒在目标处创建一个尖锐的损失最小值，同时提高附近替代位置的损失，迫使模型将目标记忆为其邻域内唯一的低损失解。该攻击无需修改架构，并且适用于集中式和联邦式学习场景。我们证明，该攻击能放大语言模型（最高100%成功提取）和视觉-语言模型（最高90%成功提取）的隐私泄露。研究显示，当模型经过差分隐私训练时，该攻击会被阻止。然而，我们引入了一种直接探测损失景观的新攻击，能够绕过包括差分隐私在内的防御机制。

0

相关内容

【CMU博士论文】Web 尺度数据在基础模型训练中的负责任且高效利用

【CMU博士论文】Web 尺度数据在基础模型训练中的负责任且高效利用

专知会员服务

11+阅读 · 1月19日

《美国防部大语言模型应用中的网络安全挑战与缓解措施》报告

《美国防部大语言模型应用中的网络安全挑战与缓解措施》报告

专知会员服务

24+阅读 · 2025年12月9日

大语言模型机器遗忘综述

大语言模型机器遗忘综述

专知会员服务

18+阅读 · 2025年11月2日

中文版 | 数据投毒：AI驱动战争中优势地位的隐蔽武器

中文版 | 数据投毒：AI驱动战争中优势地位的隐蔽武器

专知会员服务

25+阅读 · 2025年7月6日

深度学习中的数据投毒：综述

深度学习中的数据投毒：综述

专知会员服务

30+阅读 · 2025年4月1日

大语言模型训练数据

大语言模型训练数据

专知会员服务

72+阅读 · 2024年11月22日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

【ICML2024】PrE-Text：在大规模语言模型（LLM）时代对私人联邦数据进行语言模型训练

【ICML2024】PrE-Text：在大规模语言模型（LLM）时代对私人联邦数据进行语言模型训练

专知会员服务

19+阅读 · 2024年6月6日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

专知会员服务

12+阅读 · 2020年4月16日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

56+阅读 · 2022年6月2日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

训练数据多少才够用

训练数据多少才够用

专知

16+阅读 · 2019年5月4日

实战经验分享-少量数据NLP场景下进行深度学习训练的建议

实战经验分享-少量数据NLP场景下进行深度学习训练的建议

深度学习与NLP

14+阅读 · 2018年12月30日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

基于密集快速特征提取的可视媒体篡改检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

大数据环境下稀有类数据挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向军事情报的多媒体大数据分析与展示

国家自然科学基金

46+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Loss Landscape Poisoning: Targeted Extraction of Unseen Training Data from LLMs

Arxiv

0+阅读 · 6月22日

Combating Data Laundering in LLM Training

Arxiv

0+阅读 · 6月16日

Cordyceps: Covert Control Attacks on LLMs via Data Poisoning

Arxiv

0+阅读 · 6月15日

Let Them Steal: Trapping Large Language Model Extraction Attacks with Knowledge Honeypot

Arxiv

0+阅读 · 6月14日

From Prompts to Responses: Dual-Sided Data Leakage and Defense in Split Large Language Models

Arxiv

0+阅读 · 6月12日

Alignment Defends LLMs from Property Inference Attacks

Arxiv

0+阅读 · 6月8日

Now You (Still) See Me: Detecting Evasive Steganographic Payloads in LLMs

Arxiv

0+阅读 · 6月8日

Certified Robustness to Data Poisoning in Gradient-Based Training

Arxiv

0+阅读 · 6月5日

Combating Data Laundering in LLM Training

Arxiv

0+阅读 · 5月28日

Hidden in Memory: Sleeper Memory Poisoning in LLM Agents

Arxiv

0+阅读 · 5月18日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

【CMU博士论文】Web 尺度数据在基础模型训练中的负责任且高效利用

【CMU博士论文】Web 尺度数据在基础模型训练中的负责任且高效利用

专知会员服务

11+阅读 · 1月19日

《美国防部大语言模型应用中的网络安全挑战与缓解措施》报告

《美国防部大语言模型应用中的网络安全挑战与缓解措施》报告

专知会员服务

24+阅读 · 2025年12月9日

大语言模型机器遗忘综述

大语言模型机器遗忘综述

专知会员服务

18+阅读 · 2025年11月2日

中文版 | 数据投毒：AI驱动战争中优势地位的隐蔽武器

中文版 | 数据投毒：AI驱动战争中优势地位的隐蔽武器

专知会员服务

25+阅读 · 2025年7月6日

深度学习中的数据投毒：综述

深度学习中的数据投毒：综述

专知会员服务

30+阅读 · 2025年4月1日

大语言模型训练数据

大语言模型训练数据

专知会员服务

72+阅读 · 2024年11月22日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

【ICML2024】PrE-Text：在大规模语言模型（LLM）时代对私人联邦数据进行语言模型训练

【ICML2024】PrE-Text：在大规模语言模型（LLM）时代对私人联邦数据进行语言模型训练

专知会员服务

19+阅读 · 2024年6月6日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

专知会员服务

12+阅读 · 2020年4月16日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

56+阅读 · 2022年6月2日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

训练数据多少才够用

训练数据多少才够用

专知

16+阅读 · 2019年5月4日

实战经验分享-少量数据NLP场景下进行深度学习训练的建议

实战经验分享-少量数据NLP场景下进行深度学习训练的建议

深度学习与NLP

14+阅读 · 2018年12月30日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

相关论文

Loss Landscape Poisoning: Targeted Extraction of Unseen Training Data from LLMs

Arxiv

0+阅读 · 6月22日

Combating Data Laundering in LLM Training

Arxiv

0+阅读 · 6月16日

Cordyceps: Covert Control Attacks on LLMs via Data Poisoning

Arxiv

0+阅读 · 6月15日

Let Them Steal: Trapping Large Language Model Extraction Attacks with Knowledge Honeypot

Arxiv

0+阅读 · 6月14日

From Prompts to Responses: Dual-Sided Data Leakage and Defense in Split Large Language Models

Arxiv

0+阅读 · 6月12日

Alignment Defends LLMs from Property Inference Attacks

Arxiv

0+阅读 · 6月8日

Now You (Still) See Me: Detecting Evasive Steganographic Payloads in LLMs

Arxiv

0+阅读 · 6月8日

Certified Robustness to Data Poisoning in Gradient-Based Training

Arxiv

0+阅读 · 6月5日

Combating Data Laundering in LLM Training

Arxiv

0+阅读 · 5月28日

Hidden in Memory: Sleeper Memory Poisoning in LLM Agents

Arxiv

0+阅读 · 5月18日

相关基金

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

基于密集快速特征提取的可视媒体篡改检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

大数据环境下稀有类数据挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向军事情报的多媒体大数据分析与展示

国家自然科学基金

46+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员