Sanitizing sensitive text data typically involves removing personally identifiable information (PII) or generating synthetic data under the assumption that these methods adequately protect privacy; however, their effectiveness is often only assessed by measuring the leakage of explicit identifiers but ignoring nuanced textual markers that can lead to re-identification. We challenge the above illusion of privacy by proposing a new framework that evaluates re-identification attacks to quantify individual privacy risks upon data release. Our approach shows that seemingly innocuous auxiliary information -- such as routine social activities -- can be used to infer sensitive attributes like age or substance use history from sanitized data. For instance, we demonstrate that Azure's commercial PII removal tool fails to protect 74\% of information in the MedQA dataset. Although differential privacy mitigates these risks to some extent, it significantly reduces the utility of the sanitized text for downstream tasks. Our findings indicate that current sanitization techniques offer a \textit{false sense of privacy}, highlighting the need for more robust methods that protect against semantic-level information leakage.


翻译:文本敏感数据脱敏通常涉及移除个人可识别信息(PII)或生成合成数据,其前提假设是这些方法能充分保护隐私;然而,现有评估往往仅通过测量显式标识符的泄露来衡量效果,却忽略了可能导致重新识别的细微文本标记。我们通过提出一个评估重新识别攻击的新框架来挑战上述隐私假象,该框架可量化数据发布时的个体隐私风险。我们的研究表明,看似无害的辅助信息——例如日常社交活动——可用于从脱敏数据中推断年龄或药物使用史等敏感属性。例如,我们证明Azure商用PII移除工具未能保护MedQA数据集中74%的信息。虽然差分隐私能在一定程度上缓解这些风险,但会显著降低脱敏文本在下游任务中的可用性。我们的发现表明,当前脱敏技术仅提供一种\textit{虚假的隐私感},这凸显了需要开发更鲁棒的方法来防范语义层面的信息泄露。

0
下载
关闭预览

相关内容

【斯坦福博士论文】有效的差分隐私深度学习,153页pdf
专知会员服务
19+阅读 · 2024年7月10日
《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
41+阅读 · 2023年10月29日
专知会员服务
28+阅读 · 2021年8月15日
专知会员服务
19+阅读 · 2021年6月10日
专知会员服务
41+阅读 · 2020年12月1日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
再谈人脸识别损失函数综述
人工智能前沿讲习班
14+阅读 · 2019年5月7日
热点! 虚假新闻检测综述
专知
111+阅读 · 2019年2月26日
一文看懂虚假新闻检测(附数据集 & 论文推荐)
PaperWeekly
36+阅读 · 2019年2月19日
差分隐私保护:从入门到脱坑
FreeBuf
17+阅读 · 2018年9月10日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月4日
VIP会员
最新内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
8+阅读 · 5月1日
Palantir AIP平台:连接智能体与决策
专知会员服务
15+阅读 · 5月1日
《美海军软件测试战略》90页slides
专知会员服务
11+阅读 · 5月1日
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
11+阅读 · 4月30日
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员