Supervised learning systems are trained using historical data and, if the data was tainted by discrimination, they may unintentionally learn to discriminate against protected groups. We propose that fair learning methods, despite training on potentially discriminatory datasets, shall perform well on fair test datasets. Such dataset shifts crystallize application scenarios for specific fair learning methods. For instance, the removal of direct discrimination can be represented as a particular dataset shift problem. For this scenario, we propose a learning method that provably minimizes model error on fair datasets, while blindly training on datasets poisoned with direct additive discrimination. The method is compatible with existing legal systems and provides a solution to the widely discussed issue of protected groups' intersectionality by striking a balance between the protected groups. Technically, the method applies probabilistic interventions, has causal and counterfactual formulations, and is computationally lightweight - it can be used with any supervised learning model to prevent direct and indirect discrimination via proxies while maximizing model accuracy for business necessity.


翻译:监督学习系统使用历史数据进行训练,如果数据受到歧视性影响,这些系统可能会无意中学会对受保护群体产生歧视。我们提出,公平学习方法尽管在可能存在歧视的数据集上进行训练,但应在公平测试数据集上表现良好。此类数据集偏移具体体现了特定公平学习方法的适用场景。例如,消除直接歧视可被表述为一种特定的数据集偏移问题。针对这一场景,我们提出一种学习方法,可证明在公平数据集上最小化模型误差,同时仅使用受直接加性歧视污染的数据集进行训练。该方法与现有法律体系兼容,通过在受保护群体间取得平衡,为广泛讨论的受保护群体交叉性问题提供了解决方案。在技术上,该方法采用概率干预机制,具有因果与反事实的数学表述,且计算轻量——可与任何监督学习模型结合使用,在满足商业必要性最大化模型精度的同时,通过代理变量防止直接与间接歧视。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【牛津大学博士论文】从多模态数据中学习表示,258页pdf
【AAAI2022】通过自训练加强反事实分类
专知会员服务
25+阅读 · 2021年12月10日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
91+阅读 · 2020年7月4日
【NeurIPS2019报告推荐】公平与表示学习—UIUC Sanmi Koyejo教授
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月13日
VIP会员
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员