The rapid development of large language models (LLMs) has driven the widespread adoption of cloud-based LLM inference services, while also bringing prominent privacy risks associated with the transmission and processing of private data in remote inference. For privacy-preserving LLM inference technologies to be practically applied in industrial scenarios, three core requirements must be satisfied simultaneously: (1) Accuracy and efficiency losses should be minimized to mitigate degradation in service experience. (2) The inference process can be run on large-scale clusters consist of heterogeneous legacy xPUs. (3) Compatibility with existing LLM infrastructures should be ensured to reuse their engineering optimizations. To the best of our knowledge, none of the existing privacy-preserving LLM inference methods satisfy all the above constraints while delivering meaningful privacy guarantees. In this paper, we propose AloePri, the first privacy-preserving LLM inference method for industrial applications. AloePri protects both the input and output data by covariant obfuscation, which jointly transforms data and model parameters to achieve better accuracy and privacy. We carefully design the transformation for each model component to ensure inference accuracy and data privacy while keeping full compatibility with existing infrastructures of Language Model as a Service. AloePri has been integrated into an industrial system for the evaluation of mainstream LLMs. The evaluation on Deepseek-V3.1-Terminus model (671B parameters) demonstrates that AloePri causes accuracy loss of 0.0%~3.5% and exhibits efficiency equivalent to that of plaintext inference. Meanwhile, AloePri successfully resists state-of-the-art attacks, with less than 5\% of tokens recovered. To the best of our knowledge, AloePri is the first method to exhibit practical applicability to large-scale models in real-world systems.


翻译:大语言模型(LLM)的快速发展推动了基于云端的LLM推理服务的广泛应用,同时也带来了远程推理中私有数据传输与处理的显著隐私风险。要使隐私保护的LLM推理技术在实际工业场景中得到应用,必须同时满足三个核心要求:(1)应最小化准确性与效率损失,以减轻服务体验的下降。(2)推理过程能够在由异构传统xPU组成的大规模集群上运行。(3)应确保与现有LLM基础设施的兼容性,以复用其工程优化。据我们所知,现有的隐私保护LLM推理方法均无法在提供有意义的隐私保障的同时满足上述所有约束。本文提出AloePri,首个面向工业应用的隐私保护LLM推理方法。AloePri通过协变量混淆同时保护输入和输出数据,该方法联合变换数据和模型参数以实现更好的准确性与隐私性。我们精心设计了每个模型组件的变换,在确保推理准确性和数据隐私的同时,保持与现有语言模型即服务基础设施的完全兼容。AloePri已集成到一个工业系统中,用于评估主流LLM。在Deepseek-V3.1-Terminus模型(6710亿参数)上的评估表明,AloePri导致的准确率损失为0.0%至3.5%,并展现出与明文推理相当的效率。同时,AloePri成功抵御了最先进的攻击,被恢复的token少于5%。据我们所知,AloePri是首个在实际系统中展现出对大规模模型具有实际适用性的方法。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
大型语言模型代理的安全与隐私综述
专知会员服务
30+阅读 · 2024年8月5日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
「联邦学习隐私保护 」最新2022研究综述
专知
16+阅读 · 2022年4月1日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
综述——隐私保护集合交集计算技术研究
计算机研究与发展
22+阅读 · 2017年10月24日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
Palantir AIP平台:连接智能体与决策
专知会员服务
4+阅读 · 今天1:22
《美海军软件测试战略》90页slides
专知会员服务
6+阅读 · 今天1:00
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
6+阅读 · 4月30日
相关VIP内容
大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
大型语言模型代理的安全与隐私综述
专知会员服务
30+阅读 · 2024年8月5日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
大型语言模型高效推理综述
专知会员服务
64+阅读 · 2024年4月23日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员