We present STAMP (Selective Task-Aware Mechanism for Text Privacy), a new framework for task-aware text privatization that achieves an improved privacy-utility trade-off. STAMP selectively allocates privacy budgets across tokens by jointly considering (i) each token's importance to the downstream task (as measured via a task- or query-specific representation), and (ii) its privacy sensitivity (e.g., names, dates, identifiers). This token-level partitioning enables fine-grained, group-wise control over the level of noise applied to different parts of the input, balancing privacy protection with task relevance. To privatize individual token embeddings, we introduce the polar mechanism, which perturbs only the direction of embeddings on the unit sphere while preserving their magnitude. Decoding is performed via cosine nearest-neighbor search, aligning the perturbation geometry with the decoding geometry. Unlike isotropic noise mechanisms, the polar mechanism maintains semantic neighborhoods in the embedding space and better preserves downstream utility. Experimental evaluations on SQuAD, Yelp, and AG News datasets demonstrate that STAMP, when combined with the normalized polar mechanism, consistently achieves superior privacy-utility trade-offs across varying per-token privacy budgets.


翻译:本文提出STAMP(面向文本隐私的选择性任务感知机制),这是一种实现更优隐私-效用权衡的任务感知文本隐私化新框架。STAMP通过联合考量以下两个因素,在词元间选择性分配隐私预算:(i) 每个词元对下游任务的重要性(通过任务或查询特定的表征进行度量),(ii) 其隐私敏感性(例如姓名、日期、标识符)。这种词元级别的划分实现了对输入不同部分所施加噪声程度的细粒度、分组式控制,从而平衡隐私保护与任务相关性。为了对单个词元嵌入进行隐私化处理,我们引入了极坐标机制,该机制仅扰动单位球面上嵌入向量的方向,同时保持其模长不变。解码通过余弦最近邻搜索执行,使扰动几何与解码几何保持一致。与各向同性噪声机制不同,极坐标机制保持了嵌入空间中的语义邻域,从而更好地保留了下游任务的效用。在SQuAD、Yelp和AG News数据集上的实验评估表明,STAMP与归一化极坐标机制结合时,在不同词元隐私预算下均能持续实现更优的隐私-效用权衡。

0
下载
关闭预览

相关内容

【ECCV2024】边缘感知Transformer的场景文本分割
专知会员服务
15+阅读 · 2024年7月25日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
【斯坦福博士论文】有效的差分隐私深度学习,153页pdf
专知会员服务
19+阅读 · 2024年7月10日
开源OCR文本检测器,基于TextBoxes++和RetinaNet
专知
11+阅读 · 2019年11月15日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员