Machine learning algorithms permeate the day-to-day aspects of our lives and therefore studying the fairness of these algorithms before implementation is crucial. One way in which bias can manifest in a dataset is through missing values. Missing data are often assumed to be missing completely randomly; in reality the propensity of data being missing is often tied to the demographic characteristics of individuals. There is limited research into how missing values and the handling thereof can impact the fairness of an algorithm. Most researchers either apply listwise deletion or tend to use simpler methods of imputation (e.g. mean or mode) compared to more advanced approaches (e.g. multiple imputation). This study considers the fairness of various classification algorithms after a range of missing data handling strategies is applied. Missing values are generated (i.e. amputed) in three popular datasets for classification fairness, by creating a high percentage of missing values using three missing data mechanisms. The results show that the missing data mechanism does not significantly impact fairness; across the missing data handling techniques listwise deletion gives the highest fairness on average and amongst the classification algorithms random forests leads to the highest fairness on average. The interaction effect of the missing data handling technique and the classification algorithm is also often significant.


翻译:机器学习算法已渗透到我们日常生活的方方面面,因此在算法实施前研究其公平性至关重要。数据集中可能通过缺失值体现偏差。缺失数据通常被假定为完全随机缺失;然而现实中,数据缺失的倾向性往往与个体的社会人口特征相关。目前关于缺失值及其处理方法如何影响算法公平性的研究较为有限。与更先进的方法(如多重插补)相比,大多数研究者要么采用列表删除法,要么倾向于使用更简单的插补方法(如均值或众数插补)。本研究考察了应用一系列缺失数据处理策略后,各种分类算法的公平性表现。通过在三个常用的分类公平性数据集中,采用三种缺失数据机制生成高比例缺失值(即人为制造缺失)。结果表明:缺失数据机制对公平性无显著影响;在各类缺失数据处理技术中,列表删除法平均能获得最高的公平性;在分类算法中,随机森林平均能实现最高的公平性。缺失数据处理技术与分类算法之间的交互效应也往往具有显著性。

0
下载
关闭预览

相关内容

在统计调查的过程中,由于受访者对问题的遗漏、拒绝,或是调查员与调查问卷本身存在的一些疏忽,使得记录经常会出现 缺失数据 (Missing Data) 的问题。但是,几乎所有标准统计方法都假设每个个案具有可用于分析的所有变量信息,因此缺失数据就成为进行统计研究或问卷调查的工作人员所必须解决的一个问题。
不平衡数据学习的全面综述
专知会员服务
44+阅读 · 2025年2月15日
专知会员服务
38+阅读 · 2021年5月10日
可信机器学习的公平性综述
专知会员服务
69+阅读 · 2021年2月23日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
缺失数据统计分析,第三版,462页pdf
专知
50+阅读 · 2020年2月28日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
11+阅读 · 2019年6月2日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月4日
VIP会员
相关资讯
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
缺失数据统计分析,第三版,462页pdf
专知
50+阅读 · 2020年2月28日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
11+阅读 · 2019年6月2日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员