The de-anonymization of users from anonymized microdata through matching or aligning with publicly-available correlated databases has been of scientific interest recently. While most of the rigorous analyses of database matching have focused on random-distortion models, the adversarial-distortion models have been wanting in the relevant literature. In this work, motivated by synchronization errors in the sampling of time-indexed microdata, matching (alignment) of random databases under adversarial column deletions is investigated. It is assumed that a constrained adversary, which observes the anonymized database, can delete up to a $\delta$ fraction of the columns (attributes) to hinder matching and preserve privacy. Column histograms of the two databases are utilized as permutation-invariant features to detect the column deletion pattern chosen by the adversary. The detection of the column deletion pattern is then followed by an exact row (user) matching scheme. The worst-case analysis of this two-phase scheme yields a sufficient condition for the successful matching of the two databases, under the near-perfect recovery condition. A more detailed investigation of the error probability leads to a tight necessary condition on the database growth rate, and in turn, to a single-letter characterization of the adversarial matching capacity. This adversarial matching capacity is shown to be significantly lower than the random matching capacity, where the column deletions occur randomly. Overall, our results analytically demonstrate the privacy-wise advantages of adversarial mechanisms over random ones during the publication of anonymized time-indexed data.


翻译:从匿名化微观数据中通过匹配或对齐公开可获取的相关数据库来去匿名化用户,近年引起科学界关注。尽管大多数数据库匹配的严格分析均聚焦于随机失真模型,但相关文献中对抗性失真模型的研究仍显不足。本文受时间索引微观数据采样过程中同步误差的启发,研究了对抗性列删除下随机数据库的匹配(对齐)问题。我们假设一个可观测匿名化数据库的受限对手,能够删除最多$\delta$比例的列(属性)以阻碍匹配并保护隐私。利用两个数据库的列直方图作为排列不变特征,检测对手选择的列删除模式。列删除模式检测后,再执行精确的行(用户)匹配方案。该两阶段方案在最坏情况下的分析,得出了在近完美恢复条件下成功匹配两个数据库的充分条件。对错误概率的进一步详细研究,导出了数据库增长率的紧致必要条件,进而得到对抗性匹配容量的单字母刻画。该对抗性匹配容量明显低于列随机删除时的随机匹配容量。总体而言,我们的结果从理论上证明了在匿名化时间索引数据发布过程中,对抗性机制相较于随机机制具有隐私保护优势。

0
下载
关闭预览

相关内容

【2023新书】分布测试的主题和技术,163页pdf
专知会员服务
17+阅读 · 2023年1月19日
不可错过!《机器学习100讲》课程,UBC Mark Schmidt讲授
专知会员服务
76+阅读 · 2022年6月28日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
代码推荐 | 轻松实现各种图匹配 Graph matching.
图与推荐
3+阅读 · 2022年10月22日
征稿 | International Joint Conference on Knowledge Graphs (IJCKG)
开放知识图谱
2+阅读 · 2022年5月20日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
已删除
德先生
53+阅读 · 2019年4月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年5月12日
Arxiv
12+阅读 · 2021年6月29日
Arxiv
12+阅读 · 2020年12月10日
Arxiv
38+阅读 · 2020年3月10日
Generative Adversarial Networks: A Survey and Taxonomy
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员