Gaussian Mixture Models (GMMs) are widely used statistical models for representing multi-modal data distributions, with numerous applications in data mining, pattern recognition, data simulation, and machine learning. However, recent research has shown that releasing GMM parameters poses significant privacy risks, potentially exposing sensitive information about the underlying data. In this paper, we address the challenge of releasing GMM parameters while ensuring differential privacy (DP) guarantees. Specifically, we focus on the privacy protection of mixture weights, component means, and covariance matrices. We propose to use Kullback-Leibler (KL) divergence as a utility metric to assess the accuracy of the released GMM, as it captures the joint impact of noise perturbation on all the model parameters. To achieve privacy, we introduce a DP mechanism that adds carefully calibrated random perturbations to the GMM parameters. Through theoretical analysis, we quantify the effects of privacy budget allocation and perturbation statistics on the DP guarantee, and derive a tractable expression for evaluating KL divergence. We formulate and solve an optimization problem to minimize the KL divergence between the released and original models, subject to a given $(ε, δ)$-DP constraint. Extensive experiments on both synthetic and real-world datasets demonstrate that our approach achieves strong privacy guarantees while maintaining high utility.


翻译:高斯混合模型(GMM)是广泛应用于表示多模态数据分布的统计模型,在数据挖掘、模式识别、数据模拟和机器学习等领域具有众多应用。然而,近期研究表明,发布GMM参数会带来显著的隐私风险,可能泄露底层数据的敏感信息。本文旨在解决在确保差分隐私(DP)保证的前提下发布GMM参数的挑战性问题。具体而言,我们聚焦于混合权重、分量均值和协方差矩阵的隐私保护。我们提出使用Kullback-Leibler(KL)散度作为效用度量来评估所发布GMM的准确性,因为该指标能够捕获噪声扰动对所有模型参数的综合影响。为实现隐私保护,我们设计了一种差分隐私机制,通过向GMM参数添加经过精心校准的随机扰动。通过理论分析,我们量化了隐私预算分配和扰动统计量对差分隐私保证的影响,并推导出用于评估KL散度的易处理表达式。我们构建并求解了一个优化问题,在给定$(ε, δ)$-DP约束下,最小化发布模型与原始模型之间的KL散度。在合成数据集和真实数据集上的大量实验表明,我们的方法在保持高可用性的同时实现了强有力的隐私保证。

0
下载
关闭预览

相关内容

差分隐私全指南:从理论基础到用户期望
专知会员服务
13+阅读 · 2025年9月8日
【斯坦福博士论文】有效的差分隐私深度学习,153页pdf
专知会员服务
19+阅读 · 2024年7月10日
【斯坦福博士论文】基础模型的数据分布视角,321页pdf
专知会员服务
42+阅读 · 2024年7月8日
专知会员服务
41+阅读 · 2020年12月1日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
差分隐私保护:从入门到脱坑
FreeBuf
17+阅读 · 2018年9月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月24日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员