Differential privacy (DP) enables safe data release, with synthetic data generation emerging as a common approach in recent years. Yet standard synthesizers preserve all dependencies in the data, including spurious correlations between sensitive attributes and outcomes. In fairness-critical settings, this reproduces unwanted bias. A principled remedy is to enforce conditional independence (CI) constraints, which encode domain knowledge or legal requirements that outcomes be independent of sensitive attributes once admissible factors are accounted for. DP synthesis typically proceeds in two phases: (i) a measure- ment step that privatizes selected marginals, often structured via maximum spanning trees (MSTs), and (ii) a reconstruction step that fits a probabilistic model consistent with the noisy marginals. We propose PrivCI, which enforces CI during the measurement step via a CI-aware greedy MST algorithm that integrates feasibility checks into Kruskal's construction under the exponential mechanism, improving accuracy over competing methods. Experiments on standard fairness benchmarks show that PrivCI achieves stronger fidelity and predictive accuracy than prior baselines while satisfying the specified CI constraints.


翻译:差分隐私(DP)能够实现安全的数据发布,其中合成数据生成已成为近年来的常用方法。然而,标准合成器会保留数据中的所有依赖关系,包括敏感属性与结果之间的伪相关性。在公平性关键场景中,这会重现不希望的偏差。一种原则性的解决方案是强制执行条件独立性(CI)约束,这些约束编码了领域知识或法律要求,即一旦考虑可接受因素,结果应与敏感属性相互独立。DP合成通常包含两个阶段:(i)测量步骤,对选定的边际分布进行隐私化处理,通常通过最大生成树(MST)进行结构化;(ii)重建步骤,拟合与噪声边际分布一致的概率模型。我们提出PrivCI方法,在测量步骤中通过CI感知的贪心MST算法强制执行CI约束,该算法在指数机制下将可行性检查集成到Kruskal构建过程中,相比现有方法提高了准确性。在标准公平性基准测试上的实验表明,PrivCI在满足指定CI约束的同时,比现有基线方法实现了更强的保真度和预测准确性。

0
下载
关闭预览

相关内容

差分隐私全指南:从理论基础到用户期望
专知会员服务
13+阅读 · 2025年9月8日
【新书】差分隐私,246页pdf
专知会员服务
27+阅读 · 2025年4月5日
【斯坦福博士论文】有效的差分隐私深度学习,153页pdf
专知会员服务
19+阅读 · 2024年7月10日
【NeurIPS2023】稀疏保留的差分隐私大型嵌入模型训练
专知会员服务
15+阅读 · 2023年11月18日
专知会员服务
14+阅读 · 2021年9月14日
专知会员服务
41+阅读 · 2020年12月1日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
【专题】美国隐私立法进展的总体分析
蚂蚁金服评论
11+阅读 · 2019年4月25日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
差分隐私保护:从入门到脱坑
FreeBuf
17+阅读 · 2018年9月10日
机器学习的Pytorch实现资源集合
专知
11+阅读 · 2018年9月1日
综述——隐私保护集合交集计算技术研究
计算机研究与发展
22+阅读 · 2017年10月24日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
7+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
13+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
7+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
11+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员