Differential privacy (DP) has become the de facto standard for protecting sensitive data, providing strong guarantees that published statistics or models reveal limited information about any individual. However, privacy noise and restricted data access make it increasingly difficult to assess the fairness and reliability of private datasets. In this paper, we propose a formal framework for quantifying data unfairness under DP. We identify three core desiderata for unfairness measures based on previous work: positivity, monotonicity, and DP computability. We further instantiate them through three complementary measures: (1) a mutual information-based measure with a total variation distance proxy suitable for DP, (2) a data repair-based measure approximated via a reduction to weighted MaxSAT, and (3) a top-$k$ tuple contribution measure that isolates the most influential records in fairness violations. We design privacy-preserving algorithms and analyze their sensitivity, accuracy, and efficiency. Extensive experiments on multiple real-world datasets demonstrate that our proposed measures faithfully approximate their non-private counterparts, effectively quantify bias under privacy constraints, and provide insights for data management.


翻译:差分隐私(DP)已成为保护敏感数据的事实标准,它能提供强有力的保证,确保所发布的统计结果或模型仅泄露关于任何个体的有限信息。然而,隐私噪声和受限的数据访问使得评估私有数据集的公平性和可靠性愈发困难。本文提出了一种在差分隐私条件下量化数据不公平性的形式化框架。基于先前工作,我们确定了不公平性度量的三个核心需求:积极性、单调性和差分隐私可计算性。我们进一步通过三种互补的度量实例化这些需求:(1)基于互信息的度量,采用适用于差分隐私的全变差距离代理;(2)基于数据修复的度量,通过归约到加权最大可满足性问题进行近似求解;(3)基于前k元组贡献的度量,用于隔离公平性违规中最具影响力的记录。我们设计了隐私保护算法,并分析了其敏感性、准确性和效率。在多个真实数据集上的大量实验表明,我们提出的度量能够忠实地近似非隐私对应物,有效量化隐私约束下的偏差,并为数据管理提供洞见。

0
下载
关闭预览

相关内容

差分隐私全指南:从理论基础到用户期望
专知会员服务
13+阅读 · 2025年9月8日
【新书】差分隐私,246页pdf
专知会员服务
27+阅读 · 2025年4月5日
【斯坦福博士论文】隐私数据实用分析,200页pdf
专知会员服务
24+阅读 · 2024年7月14日
【斯坦福博士论文】有效的差分隐私深度学习,153页pdf
专知会员服务
19+阅读 · 2024年7月10日
专知会员服务
14+阅读 · 2021年9月14日
专知会员服务
41+阅读 · 2020年12月1日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
【专题】美国隐私立法进展的总体分析
蚂蚁金服评论
11+阅读 · 2019年4月25日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
差分隐私保护:从入门到脱坑
FreeBuf
17+阅读 · 2018年9月10日
关于处理样本不平衡问题的Trick整理
机器学习算法与Python学习
14+阅读 · 2017年12月3日
综述——隐私保护集合交集计算技术研究
计算机研究与发展
22+阅读 · 2017年10月24日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关资讯
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
【专题】美国隐私立法进展的总体分析
蚂蚁金服评论
11+阅读 · 2019年4月25日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
差分隐私保护:从入门到脱坑
FreeBuf
17+阅读 · 2018年9月10日
关于处理样本不平衡问题的Trick整理
机器学习算法与Python学习
14+阅读 · 2017年12月3日
综述——隐私保护集合交集计算技术研究
计算机研究与发展
22+阅读 · 2017年10月24日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员