Differentially private (DP) contrastive learning aims to learn general-purpose representations from sensitive data, alleviating the privacy leakage concerns of organizations deploying or sharing embedding models trained on private user content. However, existing approaches suffer from severe utility degradation due to the over-strong inter-sample dependency inherent in standard contrastive objectives, where each sample's gradient depends on all other samples in the batch, amplifying the impact of DP noise. In this work, we argue that effective DP contrastive learning requires explicitly reducing such intrinsic inter-sample reliance. To this end, we propose DP-GCL, a principled DP contrastive learning framework that structurally limits gradient dependency through bounding group-level contribution. DP-GCL partitions each batch into small, disjoint groups and restricts available negative samples to within-group samples, thereby localizing gradient influence and reducing sensitivity. To counteract the resulting loss of negative sample diversity, we further introduce intra-group augmentation, which generates additional negative views without increasing privacy cost. Extensive experiments across eight datasets demonstrate that DP-GCL consistently advances the state of the art in both uni-modal and multi-modal contrastive learning under practical privacy budgets: it improves image classification accuracy by 5.6% and image-text retrieval accuracy by 20.1% over existing DP contrastive methods.


翻译:差分隐私对比学习旨在从敏感数据中学习通用表征,从而缓解组织在部署或共享基于用户隐私内容训练的嵌入模型时面临的隐私泄露问题。然而,现有方法因标准对比目标中固有的过强样本间依赖性而遭受严重的效用退化——每个样本的梯度依赖于批处理中的所有其他样本,放大了差分隐私噪声的影响。本研究提出,有效的差分隐私对比学习需要显式降低此类内在的样本间依赖。为此,我们提出DP-GCL,一种通过约束分组贡献来结构性地限制梯度依赖性的原则性差分隐私对比学习框架。DP-GCL将每个批次划分为多个互不相交的小组,并将可用负样本限制在组内样本,从而定位梯度影响并降低灵敏度。为抵消由此导致的负样本多样性损失,我们进一步引入组内增强技术,在不增加隐私成本的情况下生成额外负视图。跨八个数据集的广泛实验表明,DP-GCL在实际隐私预算下持续推动单模态与多模态对比学习的最新进展:与现有差分隐私对比方法相比,图像分类准确率提升5.6%,图像-文本检索准确率提升20.1%。

0
下载
关闭预览

相关内容

差分隐私全指南:从理论基础到用户期望
专知会员服务
13+阅读 · 2025年9月8日
【斯坦福博士论文】有效的差分隐私深度学习,153页pdf
专知会员服务
19+阅读 · 2024年7月10日
「机器学习中差分隐私」最新2022进展综述
专知会员服务
53+阅读 · 2022年9月9日
专知会员服务
14+阅读 · 2021年9月14日
专知会员服务
41+阅读 · 2020年12月1日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
半监督深度学习小结:类协同训练和一致性正则化
差分隐私保护:从入门到脱坑
FreeBuf
17+阅读 · 2018年9月10日
【干货】监督学习与无监督学习简介
专知
14+阅读 · 2018年4月4日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员