We revisit the fairness notion of disparate impact for synthetic data generation (SDG), that assesses whether the utility of generated records is the same across sensitive groups. Our approach departs from existing work on fair SDG, that address the problem of correcting for undue biases in the observed distribution, hence redefining SDG as learning a distribution that is not that of the real data. By contrast, non-disparate impact is notably achieved when the synthetic and real distributions are the same. We expose reasons why SDG may fail to reach that solution and discuss why approximation and estimation errors occur and can be disparate across groups. We notably look into the expressive power of SDG methods relative to distribution complexity, sampling errors due to group proportions, and estimation errors induced by differential privacy mechanisms. We illustrate cases of disparate impact on both artificial and real-world data, focusing on SDG methods that rely on probabilistic graphical models. We also introduce a strategy of learning group-wise SDG models and illustrate how it can improve both the overall utility and its parity in many settings.


翻译:我们重新审视了合成数据生成中关于差异化影响的公平性概念,该概念评估生成记录在不同敏感群体间是否具有相同的效用。我们的方法与现有关于公平合成数据生成的研究不同,后者旨在修正观测分布中的不当偏差,从而将合成数据生成重新定义为学习一个非真实数据分布的分布。相比之下,当合成分布与真实分布相同时,则显著实现了无差异化影响。我们揭示了合成数据生成可能无法达到这一解决方案的原因,并讨论了近似误差和估计误差为何会出现以及如何在群体间产生差异。我们特别关注了合成数据生成方法的表达能力相对于分布复杂性、群体比例导致的抽样误差以及差分隐私机制引发的估计误差。我们以依赖概率图模型的合成数据生成方法为例,在人工和真实数据上展示了差异化影响的实例。我们还引入了一种按群体学习合成数据生成模型的策略,并说明它如何在多种场景下提升整体效用及其均等性。

0
下载
关闭预览

相关内容

多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
《利用合成数据生成加强军事决策支持》
专知会员服务
43+阅读 · 2024年12月30日
【MIT博士论文】合成数据的视觉表示学习
专知会员服务
27+阅读 · 2024年8月25日
《文本到图像跨模态生成》一项系统性综述
专知会员服务
32+阅读 · 2024年1月26日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员