The Synthetic Minority Over-sampling Technique (SMOTE) is one of the most widely used methods for addressing class imbalance and generating synthetic data. Despite its popularity, little attention has been paid to its privacy implications; yet, it is used in the wild in many privacy-sensitive applications. In this work, we conduct the first systematic study of privacy leakage in SMOTE: We begin by showing that prevailing evaluation practices, i.e., naive distinguishing and distance-to-closest-record metrics, completely fail to detect any leakage and that membership inference attacks (MIAs) can be instantiated with high accuracy. Then, by exploiting SMOTE's geometric properties, we build two novel attacks with very limited assumptions: DistinSMOTE, which perfectly distinguishes real from synthetic records in augmented datasets, and ReconSMOTE, which reconstructs real minority records from synthetic datasets with perfect precision and recall approaching one under realistic imbalance ratios. We also provide theoretical guarantees for both attacks. Experiments on eight standard imbalanced datasets confirm the practicality and effectiveness of these attacks. Overall, our work reveals that SMOTE is inherently non-private and disproportionately exposes minority records, highlighting the need to reconsider its use in privacy-sensitive applications.


翻译:合成少数类过采样技术(SMOTE)是解决类别不平衡和生成合成数据最广泛使用的方法之一。尽管其应用广泛,其隐私影响却鲜受关注;然而,该技术在实际中已被应用于许多隐私敏感场景。本研究首次对SMOTE中的隐私泄露问题进行了系统性探究:我们首先证明,当前主流的评估方法(即朴素区分法和最近记录距离度量)完全无法检测到任何泄露,而成员推理攻击(MIAs)却能够以高精度实现。进而,通过利用SMOTE的几何特性,我们构建了两种仅需极弱假设的新型攻击:DistinSMOTE——可在增强数据集中完美区分真实记录与合成记录;ReconSMOTE——可从合成数据集中以完美精度重构真实少数类记录,且在现实不平衡比例下召回率趋近于1。我们同时为两种攻击提供了理论保证。在八个标准不平衡数据集上的实验验证了这些攻击的实用性与有效性。总体而言,我们的工作揭示了SMOTE本质上不具备隐私保护性,且会不成比例地暴露少数类记录,这凸显了在隐私敏感应用中重新审视其使用必要性的迫切需求。

0
下载
关闭预览

相关内容

《图像数据隐藏技术综述》
专知会员服务
42+阅读 · 2023年3月26日
图数据上的隐私攻击与防御技术
专知会员服务
28+阅读 · 2022年4月28日
专知会员服务
12+阅读 · 2021年9月10日
专知会员服务
41+阅读 · 2020年12月1日
【Mila】通用表示Transformer少样本图像分类
专知会员服务
33+阅读 · 2020年9月7日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
【专题】美国隐私立法进展的总体分析
蚂蚁金服评论
11+阅读 · 2019年4月25日
差分隐私保护:从入门到脱坑
FreeBuf
17+阅读 · 2018年9月10日
综述——隐私保护集合交集计算技术研究
计算机研究与发展
22+阅读 · 2017年10月24日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员