SMOTE and Mirrors: Exposing Privacy Leakage from Synthetic Minority Oversampling - 专知论文

会员服务 ·

0

合成 · 攻击 · 过采样 · 不平衡 · 数据集 ·

SMOTE and Mirrors: Exposing Privacy Leakage from Synthetic Minority Oversampling

翻译：SMOTE与镜像：揭示合成少数类过采样中的隐私泄露

Georgi Ganev,Reza Nazari,Rees Davison,Amir Dizche,Xinmin Wu,Ralph Abbey,Jorge Silva,Emiliano De Cristofaro

from arxiv, To appear in the 14th International Conference on Learning Representations (ICLR 2026). Please cite the ICLR version

The Synthetic Minority Over-sampling Technique (SMOTE) is one of the most widely used methods for addressing class imbalance and generating synthetic data. Despite its popularity, little attention has been paid to its privacy implications; yet, it is used in the wild in many privacy-sensitive applications. In this work, we conduct the first systematic study of privacy leakage in SMOTE: We begin by showing that prevailing evaluation practices, i.e., naive distinguishing and distance-to-closest-record metrics, completely fail to detect any leakage and that membership inference attacks (MIAs) can be instantiated with high accuracy. Then, by exploiting SMOTE's geometric properties, we build two novel attacks with very limited assumptions: DistinSMOTE, which perfectly distinguishes real from synthetic records in augmented datasets, and ReconSMOTE, which reconstructs real minority records from synthetic datasets with perfect precision and recall approaching one under realistic imbalance ratios. We also provide theoretical guarantees for both attacks. Experiments on eight standard imbalanced datasets confirm the practicality and effectiveness of these attacks. Overall, our work reveals that SMOTE is inherently non-private and disproportionately exposes minority records, highlighting the need to reconsider its use in privacy-sensitive applications.

翻译：合成少数类过采样技术（SMOTE）是解决类别不平衡和生成合成数据最广泛使用的方法之一。尽管其应用广泛，其隐私影响却鲜受关注；然而，该技术在实际中已被应用于许多隐私敏感场景。本研究首次对SMOTE中的隐私泄露问题进行了系统性探究：我们首先证明，当前主流的评估方法（即朴素区分法和最近记录距离度量）完全无法检测到任何泄露，而成员推理攻击（MIAs）却能够以高精度实现。进而，通过利用SMOTE的几何特性，我们构建了两种仅需极弱假设的新型攻击：DistinSMOTE——可在增强数据集中完美区分真实记录与合成记录；ReconSMOTE——可从合成数据集中以完美精度重构真实少数类记录，且在现实不平衡比例下召回率趋近于1。我们同时为两种攻击提供了理论保证。在八个标准不平衡数据集上的实验验证了这些攻击的实用性与有效性。总体而言，我们的工作揭示了SMOTE本质上不具备隐私保护性，且会不成比例地暴露少数类记录，这凸显了在隐私敏感应用中重新审视其使用必要性的迫切需求。

0

相关内容

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

专知会员服务

18+阅读 · 2月25日

《图像数据隐藏技术综述》

《图像数据隐藏技术综述》

专知会员服务

43+阅读 · 2023年3月26日

如何理解对抗鲁棒性和差分隐私？【MIT】鲁棒性意味着统计估计中的隐私，87页pdf

如何理解对抗鲁棒性和差分隐私？【MIT】鲁棒性意味着统计估计中的隐私，87页pdf

专知会员服务

17+阅读 · 2023年1月11日

图数据上的隐私攻击与防御技术

图数据上的隐私攻击与防御技术

专知会员服务

28+阅读 · 2022年4月28日

【ICML2021】基于卷积神经网络的隐私保护视频分类

专知会员服务

12+阅读 · 2021年9月10日

最新《分布式差分隐私》报告，65页ppt

专知会员服务

41+阅读 · 2020年12月1日

【Mila】通用表示Transformer少样本图像分类

【Mila】通用表示Transformer少样本图像分类

专知会员服务

33+阅读 · 2020年9月7日

图像分类半监督自监督无监督学习综述，A survey on Semi-, Self- and Unsupervised Learning for Image Classification

图像分类半监督自监督无监督学习综述，A survey on Semi-, Self- and Unsupervised Learning for Image Classification

专知会员服务

46+阅读 · 2020年7月29日

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

专知会员服务

36+阅读 · 2020年3月19日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

【专题】美国隐私立法进展的总体分析

【专题】美国隐私立法进展的总体分析

蚂蚁金服评论

11+阅读 · 2019年4月25日

差分隐私保护：从入门到脱坑

差分隐私保护：从入门到脱坑

FreeBuf

17+阅读 · 2018年9月10日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

综述——隐私保护集合交集计算技术研究

综述——隐私保护集合交集计算技术研究

计算机研究与发展

22+阅读 · 2017年10月24日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

全景聚焦合成孔径成像及其遮挡目标提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

几类密码方案的格分析优化技术

国家自然科学基金

1+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

用隐身方法对散射介质后物体非侵入式成像

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于光学扫描全息的多图像加密原理及方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Efficient privacy loss accounting for subsampling and random allocation

Efficient privacy loss accounting for subsampling and random allocation

Arxiv

0+阅读 · 2月19日

Reveal-or-Obscure: A Differentially Private Sampling Algorithm for Discrete Distributions

Arxiv

0+阅读 · 2月17日

RAPID: Risk of Attribute Prediction-Induced Disclosure in Synthetic Microdata

Arxiv

0+阅读 · 2月9日

Two-Stage Data Synthesization: A Statistics-Driven Restricted Trade-off between Privacy and Prediction

Arxiv

0+阅读 · 2月9日

$f$-Differential Privacy Filters: Validity and Approximate Solutions

Arxiv

0+阅读 · 2月6日

Differentially Private Sampling via Reveal-or-Obscure

Arxiv

0+阅读 · 2月4日

Minimax optimal differentially private synthetic data for smooth queries

Arxiv

0+阅读 · 2月2日

Rethinking Anonymity Claims in Synthetic Data Generation: A Model-Centric Privacy Attack Perspective

Arxiv

0+阅读 · 1月30日

Differential Privacy Image Generation with Reconstruction Loss and Noise Injection Using an Error Feedback SGD

Arxiv

0+阅读 · 1月21日

PrivCode: When Code Generation Meets Differential Privacy

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

《数据创新：桥接传统方法与大型语言模型以应对罕见高影响事件》最新报告

专知会员服务

18+阅读 · 2月25日

《图像数据隐藏技术综述》

《图像数据隐藏技术综述》

专知会员服务

43+阅读 · 2023年3月26日

如何理解对抗鲁棒性和差分隐私？【MIT】鲁棒性意味着统计估计中的隐私，87页pdf

如何理解对抗鲁棒性和差分隐私？【MIT】鲁棒性意味着统计估计中的隐私，87页pdf

专知会员服务

17+阅读 · 2023年1月11日

图数据上的隐私攻击与防御技术

图数据上的隐私攻击与防御技术

专知会员服务

28+阅读 · 2022年4月28日

【ICML2021】基于卷积神经网络的隐私保护视频分类

专知会员服务

12+阅读 · 2021年9月10日

最新《分布式差分隐私》报告，65页ppt

专知会员服务

41+阅读 · 2020年12月1日

【Mila】通用表示Transformer少样本图像分类

【Mila】通用表示Transformer少样本图像分类

专知会员服务

33+阅读 · 2020年9月7日

图像分类半监督自监督无监督学习综述，A survey on Semi-, Self- and Unsupervised Learning for Image Classification

图像分类半监督自监督无监督学习综述，A survey on Semi-, Self- and Unsupervised Learning for Image Classification

专知会员服务

46+阅读 · 2020年7月29日

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

专知会员服务

36+阅读 · 2020年3月19日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

【专题】美国隐私立法进展的总体分析

【专题】美国隐私立法进展的总体分析

蚂蚁金服评论

11+阅读 · 2019年4月25日

差分隐私保护：从入门到脱坑

差分隐私保护：从入门到脱坑

FreeBuf

17+阅读 · 2018年9月10日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

综述——隐私保护集合交集计算技术研究

综述——隐私保护集合交集计算技术研究

计算机研究与发展

22+阅读 · 2017年10月24日

相关论文

Efficient privacy loss accounting for subsampling and random allocation

Efficient privacy loss accounting for subsampling and random allocation

Arxiv

0+阅读 · 2月19日

Reveal-or-Obscure: A Differentially Private Sampling Algorithm for Discrete Distributions

Arxiv

0+阅读 · 2月17日

RAPID: Risk of Attribute Prediction-Induced Disclosure in Synthetic Microdata

Arxiv

0+阅读 · 2月9日

Two-Stage Data Synthesization: A Statistics-Driven Restricted Trade-off between Privacy and Prediction

Arxiv

0+阅读 · 2月9日

$f$-Differential Privacy Filters: Validity and Approximate Solutions

Arxiv

0+阅读 · 2月6日

Differentially Private Sampling via Reveal-or-Obscure

Arxiv

0+阅读 · 2月4日

Minimax optimal differentially private synthetic data for smooth queries

Arxiv

0+阅读 · 2月2日

Rethinking Anonymity Claims in Synthetic Data Generation: A Model-Centric Privacy Attack Perspective

Arxiv

0+阅读 · 1月30日

Differential Privacy Image Generation with Reconstruction Loss and Noise Injection Using an Error Feedback SGD

Arxiv

0+阅读 · 1月21日

PrivCode: When Code Generation Meets Differential Privacy

Arxiv

0+阅读 · 1月14日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

全景聚焦合成孔径成像及其遮挡目标提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

几类密码方案的格分析优化技术

国家自然科学基金

1+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

用隐身方法对散射介质后物体非侵入式成像

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于光学扫描全息的多图像加密原理及方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员