Large language models (LLMs) are increasingly deployed in privacy-sensitive domains, where users must balance the risk of data exposure through external APIs against the high computational cost of local deployment. Split learning has therefore emerged as a promising paradigm for LLM fine-tuning and inference under limited local resources. However, it introduces new privacy risks. Prior work primarily studies leakage of private input prompts, typically via inversion attacks on intermediate representations, while the potential for sensitive information leakage through generative response outputs remains largely unexplored. In this work, we unveil novel vulnerabilities of Split-LLM by presenting Patched Model Inversion with Dual-Sided Initialization (PIDI), a two-stage attack that simultaneously targets both private input prompts and output responses in Split-LLM settings. It combines dual-sided initialization with a patched inversion strategy to tackle long sequences, substantially outperforming prior inversion methods. To counter threats from both sides, we further propose the Adapter-based DualGuard with Mutual Information Defense (ADMI), which integrates an adapter-based local warmup strategy and mutual information regularization to provide a strong empirical privacy protection with minimal impact on task performance. Extensive experiments across diverse tasks and models demonstrate that ADMI effectively defends against PIDI and other state-of-the-art inversion attacks. Our code is publicly available at https://github.com/FLAIR-THU/VFLAIR-LLM.


翻译:大语言模型日益部署于隐私敏感领域,用户需在通过外部API暴露数据风险与本地部署高昂计算成本之间寻求平衡。因此,分割学习成为本地资源受限场景下大语言模型微调与推理的有前景范式,但同时也引入了新的隐私风险。现有研究主要关注私有输入提示的泄露,通常通过中间表示的逆向攻击实现,而通过生成式响应输出泄露敏感信息的可能性仍鲜有探讨。本工作通过提出"补丁化模型逆向攻击与双向初始化"(PIDI),揭示了分割大语言模型的新漏洞:该两阶段攻击同时针对分割语言模型中的私有输入提示和输出响应,结合双向初始化与补丁化逆向策略处理长序列,显著优于现有逆向方法。为抵御双向威胁,我们进一步提出"基于适配器的双向守护与互信息防御"(ADMI),整合基于适配器的本地预热策略与互信息正则化,在最小化任务性能影响的前提下实现强实证隐私保护。跨多种任务与模型的广泛实验表明,ADMI能有效防御PIDI及其他最先进的逆向攻击。我们的代码公开于https://github.com/FLAIR-THU/VFLAIR-LLM。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
通信网络中大型语言模型的后门攻击的综述
专知会员服务
30+阅读 · 2023年9月5日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
35+阅读 · 2019年6月21日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
51+阅读 · 2018年12月27日
NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿
中国人工智能学会
12+阅读 · 2018年11月15日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关VIP内容
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
通信网络中大型语言模型的后门攻击的综述
专知会员服务
30+阅读 · 2023年9月5日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员