Beyond Theoretical Bounds: Empirical Privacy Loss Calibration for Text Rewriting Under Local Differential Privacy - 专知论文

会员服务 ·

0

差分 · 差分隐私 · 损失 · 形式化 · 文本数据 ·

Beyond Theoretical Bounds: Empirical Privacy Loss Calibration for Text Rewriting Under Local Differential Privacy

翻译：超越理论界限：局部差分隐私下文本重写的经验隐私损失校准

Weijun Li,Arnaud Grivet Sébert,Qiongkai Xu,Annabelle McIver,Mark Dras

from arxiv, 22 pages, 11 figures, 5 tables

The growing use of large language models has increased interest in sharing textual data in a privacy-preserving manner. One prominent line of work addresses this challenge through text rewriting under Local Differential Privacy (LDP), where input texts are locally obfuscated before release with formal privacy guarantees. These guarantees are typically expressed by a parameter $\varepsilon$ that upper bounds the worst-case privacy loss. However, nominal $\varepsilon$ values are often difficult to interpret and compare across mechanisms. In this work, we investigate how to empirically calibrate across text rewriting mechanisms under LDP. We propose TeDA, which formulates calibration via a hypothesis-testing framework that instantiates text distinguishability audits in both surface and embedding spaces, enabling empirical assessment of indistinguishability from privatized texts. Applying this calibration to several representative mechanisms, we demonstrate that similar nominal $\varepsilon$ bounds can imply very different levels of distinguishability. Empirical calibration thus provides a more comparable footing for evaluating privacy-utility trade-offs, as well as a practical tool for mechanism comparison and analysis in real-world LDP text rewriting deployments.

翻译：大型语言模型的广泛应用增加了对隐私保护方式下共享文本数据的兴趣。一条主要研究路线通过局部差分隐私下的文本重写来解决这一挑战，其中输入文本在发布前进行本地模糊处理，并附带形式化的隐私保证。这些保证通常由参数 ε 表示，该参数限定了最坏情况下的隐私损失上界。然而，名义上的 ε 值往往难以解释，且难以在不同机制间进行比较。在本工作中，我们研究了如何在局部差分隐私下对文本重写机制进行经验校准。我们提出了 TeDA，该方法通过假设检验框架形式化校准过程，在表面空间和嵌入空间中实例化文本可区分性审计，从而能够从隐私化文本中经验性地评估不可区分性。将该校准应用于几种代表性机制后，我们证明相似的名义 ε 界限可能对应截然不同的可区分性水平。因此，经验校准为评估隐私-效用权衡提供了更具可比性的基础，也为现实世界局部差分隐私文本重写部署中的机制比较与分析提供了实用工具。

0

相关内容

差分隐私全指南：从理论基础到用户期望

差分隐私全指南：从理论基础到用户期望

专知会员服务

13+阅读 · 2025年9月8日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

【斯坦福博士论文】隐私数据实用分析，200页pdf

【斯坦福博士论文】隐私数据实用分析，200页pdf

专知会员服务

24+阅读 · 2024年7月14日

【斯坦福博士论文】有效的差分隐私深度学习，153页pdf

【斯坦福博士论文】有效的差分隐私深度学习，153页pdf

专知会员服务

19+阅读 · 2024年7月10日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

专知会员服务

23+阅读 · 2022年12月21日

【2022干货书】动手学差分隐私，106页pdf

【2022干货书】动手学差分隐私，106页pdf

专知会员服务

65+阅读 · 2022年11月10日

【CVPR 2022】基于本地正则化和稀疏化差分隐私的联邦学习，Differentially Private Federated Learning with Local Regularization and Sparsification

【CVPR 2022】基于本地正则化和稀疏化差分隐私的联邦学习，Differentially Private Federated Learning with Local Regularization and Sparsification

专知会员服务

17+阅读 · 2022年3月19日

最新《分布式差分隐私》报告，65页ppt

专知会员服务

41+阅读 · 2020年12月1日

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

专知会员服务

36+阅读 · 2020年3月19日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

「联邦学习隐私保护」最新2022研究综述

「联邦学习隐私保护」最新2022研究综述

专知

16+阅读 · 2022年4月1日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

专知

59+阅读 · 2020年8月6日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

40+阅读 · 2019年8月18日

差分隐私保护：从入门到脱坑

差分隐私保护：从入门到脱坑

FreeBuf

17+阅读 · 2018年9月10日

ML通用指南：文本分类详细教程（上）

ML通用指南：文本分类详细教程（上）

论智

19+阅读 · 2018年7月29日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

深度学习在文本分类中的应用

深度学习在文本分类中的应用

AI研习社

13+阅读 · 2018年1月7日

基于自媒体处理中的极坐标下的非线性理论及超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于负调查的云数据隐私保护关键问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

The Art of Mixology: Mixup-based Obfuscation for Privacy-Preserving Split Learning in Large Language Models

Arxiv

0+阅读 · 6月15日

Beyond Retrieval: Learning Compact User Representations for Scalable LLM Personalization

Arxiv

0+阅读 · 6月13日

Closing the Reflection Gap: A Free Calibration Bonus for Agentic RL

Arxiv

0+阅读 · 6月12日

Mitigating Disparate Impact of Differentially Private Learning through Bounded Adaptive Clipping

Arxiv

0+阅读 · 6月10日

Unveiling Privacy Risks in Multi-modal Large Language Models: Task-specific Vulnerabilities and Mitigation Challenges

Arxiv

0+阅读 · 6月8日

The Utility and Complexity of in- and out-of-Distribution Machine Unlearning

Arxiv

0+阅读 · 6月5日

Publishing Below-Threshold Triangle Counts under Local Weight Differential Privacy

Arxiv

0+阅读 · 6月2日

Differentially Private Datastore Generation for Retrieval-Augmented Inference

Arxiv

0+阅读 · 5月31日

Convex Optimization with Local Label Differential Privacy: Tight Bounds in All Privacy Regimes

Arxiv

0+阅读 · 5月11日

Modular Verification of Differential Privacy in Probabilistic Higher-Order Separation Logic (Extended Version)

Arxiv

0+阅读 · 4月14日

VIP会员

文章信息

相关主题

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

2+阅读 · 今天16:54

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

1+阅读 · 今天16:52

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

相关VIP内容

差分隐私全指南：从理论基础到用户期望

差分隐私全指南：从理论基础到用户期望

专知会员服务

13+阅读 · 2025年9月8日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

【斯坦福博士论文】隐私数据实用分析，200页pdf

【斯坦福博士论文】隐私数据实用分析，200页pdf

专知会员服务

24+阅读 · 2024年7月14日

【斯坦福博士论文】有效的差分隐私深度学习，153页pdf

【斯坦福博士论文】有效的差分隐私深度学习，153页pdf

专知会员服务

19+阅读 · 2024年7月10日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

《匿名保密通信框架：基于区块链的概念验证》美海军2022最新154页论文

专知会员服务

23+阅读 · 2022年12月21日

【2022干货书】动手学差分隐私，106页pdf

【2022干货书】动手学差分隐私，106页pdf

专知会员服务

65+阅读 · 2022年11月10日

【CVPR 2022】基于本地正则化和稀疏化差分隐私的联邦学习，Differentially Private Federated Learning with Local Regularization and Sparsification

【CVPR 2022】基于本地正则化和稀疏化差分隐私的联邦学习，Differentially Private Federated Learning with Local Regularization and Sparsification

专知会员服务

17+阅读 · 2022年3月19日

最新《分布式差分隐私》报告，65页ppt

专知会员服务

41+阅读 · 2020年12月1日

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

专知会员服务

36+阅读 · 2020年3月19日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

「联邦学习隐私保护」最新2022研究综述

「联邦学习隐私保护」最新2022研究综述

专知

16+阅读 · 2022年4月1日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

专知

59+阅读 · 2020年8月6日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

40+阅读 · 2019年8月18日

差分隐私保护：从入门到脱坑

差分隐私保护：从入门到脱坑

FreeBuf

17+阅读 · 2018年9月10日

ML通用指南：文本分类详细教程（上）

ML通用指南：文本分类详细教程（上）

论智

19+阅读 · 2018年7月29日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

深度学习在文本分类中的应用

深度学习在文本分类中的应用

AI研习社

13+阅读 · 2018年1月7日

相关论文

The Art of Mixology: Mixup-based Obfuscation for Privacy-Preserving Split Learning in Large Language Models

Arxiv

0+阅读 · 6月15日

Beyond Retrieval: Learning Compact User Representations for Scalable LLM Personalization

Arxiv

0+阅读 · 6月13日

Closing the Reflection Gap: A Free Calibration Bonus for Agentic RL

Arxiv

0+阅读 · 6月12日

Mitigating Disparate Impact of Differentially Private Learning through Bounded Adaptive Clipping

Arxiv

0+阅读 · 6月10日

Unveiling Privacy Risks in Multi-modal Large Language Models: Task-specific Vulnerabilities and Mitigation Challenges

Arxiv

0+阅读 · 6月8日

The Utility and Complexity of in- and out-of-Distribution Machine Unlearning

Arxiv

0+阅读 · 6月5日

Publishing Below-Threshold Triangle Counts under Local Weight Differential Privacy

Arxiv

0+阅读 · 6月2日

Differentially Private Datastore Generation for Retrieval-Augmented Inference

Arxiv

0+阅读 · 5月31日

Convex Optimization with Local Label Differential Privacy: Tight Bounds in All Privacy Regimes

Arxiv

0+阅读 · 5月11日

Modular Verification of Differential Privacy in Probabilistic Higher-Order Separation Logic (Extended Version)

Arxiv

0+阅读 · 4月14日

相关基金

基于自媒体处理中的极坐标下的非线性理论及超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于负调查的云数据隐私保护关键问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

大规模在线社会网络社区发现及隐私保护研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员