The influence of missing data mechanisms and simple missing data handling techniques on fairness - 专知论文

会员服务 ·

0

缺失数据 · 公平性 · 算法 · 缺失值 · 分类算法 ·

The influence of missing data mechanisms and simple missing data handling techniques on fairness

翻译：缺失数据机制与简单缺失数据处理技术对公平性的影响

Aeysha Bhatti,Trudie Sandrock,Johane Nienkemper-Swanepoel

Machine learning algorithms permeate the day-to-day aspects of our lives and therefore studying the fairness of these algorithms before implementation is crucial. One way in which bias can manifest in a dataset is through missing values. Missing data are often assumed to be missing completely randomly; in reality the propensity of data being missing is often tied to the demographic characteristics of individuals. There is limited research into how missing values and the handling thereof can impact the fairness of an algorithm. Most researchers either apply listwise deletion or tend to use simpler methods of imputation (e.g. mean or mode) compared to more advanced approaches (e.g. multiple imputation). This study considers the fairness of various classification algorithms after a range of missing data handling strategies is applied. Missing values are generated (i.e. amputed) in three popular datasets for classification fairness, by creating a high percentage of missing values using three missing data mechanisms. The results show that the missing data mechanism does not significantly impact fairness; across the missing data handling techniques listwise deletion gives the highest fairness on average and amongst the classification algorithms random forests leads to the highest fairness on average. The interaction effect of the missing data handling technique and the classification algorithm is also often significant.

翻译：机器学习算法已渗透到我们日常生活的方方面面，因此在算法实施前研究其公平性至关重要。数据集中可能通过缺失值体现偏差。缺失数据通常被假定为完全随机缺失；然而现实中，数据缺失的倾向性往往与个体的社会人口特征相关。目前关于缺失值及其处理方法如何影响算法公平性的研究较为有限。与更先进的方法（如多重插补）相比，大多数研究者要么采用列表删除法，要么倾向于使用更简单的插补方法（如均值或众数插补）。本研究考察了应用一系列缺失数据处理策略后，各种分类算法的公平性表现。通过在三个常用的分类公平性数据集中，采用三种缺失数据机制生成高比例缺失值（即人为制造缺失）。结果表明：缺失数据机制对公平性无显著影响；在各类缺失数据处理技术中，列表删除法平均能获得最高的公平性；在分类算法中，随机森林平均能实现最高的公平性。缺失数据处理技术与分类算法之间的交互效应也往往具有显著性。

0

相关内容

缺失数据

在统计调查的过程中，由于受访者对问题的遗漏、拒绝，或是调查员与调查问卷本身存在的一些疏忽，使得记录经常会出现缺失数据 (Missing Data) 的问题。但是，几乎所有标准统计方法都假设每个个案具有可用于分析的所有变量信息，因此缺失数据就成为进行统计研究或问卷调查的工作人员所必须解决的一个问题。

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

专知会员服务

13+阅读 · 5月12日

【EPFL博士论文】决策系统中的机器学习：公平性、鲁棒性与数据偏差

【EPFL博士论文】决策系统中的机器学习：公平性、鲁棒性与数据偏差

专知会员服务

26+阅读 · 2025年5月19日

不平衡数据学习的全面综述

不平衡数据学习的全面综述

专知会员服务

44+阅读 · 2025年2月15日

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

专知会员服务

33+阅读 · 2022年3月10日

【MIT-ICLR2022】在机器学习模型中注入公平性, Injecting fairness into machine-learning models

【MIT-ICLR2022】在机器学习模型中注入公平性, Injecting fairness into machine-learning models

专知会员服务

22+阅读 · 2022年3月7日

缺失数据处理方法研究综述

专知会员服务

38+阅读 · 2021年5月10日

可信机器学习的公平性综述

可信机器学习的公平性综述

专知会员服务

69+阅读 · 2021年2月23日

【卡内基梅隆大学-CMU】机器学习中的公平性，Learning Fair Representations

【卡内基梅隆大学-CMU】机器学习中的公平性，Learning Fair Representations

专知会员服务

38+阅读 · 2020年2月29日

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

专知会员服务

22+阅读 · 2020年1月15日

《机器学习与公平性》（Fairness and Machine Learning）新书发布，附181页PDF下载

《机器学习与公平性》（Fairness and Machine Learning）新书发布，附181页PDF下载

专知会员服务

80+阅读 · 2019年10月26日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

缺失数据统计分析，第三版，462页pdf

缺失数据统计分析，第三版，462页pdf

专知

50+阅读 · 2020年2月28日

《机器学习与公平性》新书发布，附127页PDF下载

《机器学习与公平性》新书发布，附127页PDF下载

专知

25+阅读 · 2019年9月13日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

一文教你如何处理不平衡数据集（附代码）

一文教你如何处理不平衡数据集（附代码）

大数据文摘

12+阅读 · 2019年6月2日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

稀疏性的3个优势 -《稀疏统计学习及其应用》

稀疏性的3个优势 -《稀疏统计学习及其应用》

遇见数学

15+阅读 · 2018年10月24日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

FCS 论坛 | 孟德宇：误差建模原理

FCS 论坛 | 孟德宇：误差建模原理

FCS

15+阅读 · 2017年8月17日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

An Interdisciplinary and Cross-Task Review on Missing Data Imputation

Arxiv

0+阅读 · 4月24日

Data (in)equities in data science: Dissecting systemic and systematic biases in pulse oximetry

Arxiv

0+阅读 · 4月20日

Causal Inference with Missing Exposures and Missing Outcomes

Arxiv

0+阅读 · 4月14日

Database Querying under Missing Values Governed by Missingness Mechanisms

Arxiv

0+阅读 · 4月7日

Enforcing Fair Predicted Scores on Intervals of Percentiles by Difference-of-Convex Constraints

Arxiv

0+阅读 · 4月5日

Fair Data Pre-Processing with Imperfect Attribute Space

Arxiv

0+阅读 · 3月27日

Prediction with Missing Data: Target Probabilities and Missingness Mechanisms

Arxiv

0+阅读 · 3月18日

High-dimensional estimation with missing data: Statistical and computational limits

Arxiv

0+阅读 · 3月17日

Causality Is Key to Understand and Balance Multiple Goals in Trustworthy ML and Foundation Models

Causality Is Key to Understand and Balance Multiple Goals in Trustworthy ML and Foundation Models

Arxiv

0+阅读 · 3月13日

Measuring Perceptions of Fairness in AI Systems: The Effects of Infra-marginality

Arxiv

0+阅读 · 3月6日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

1+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

3+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

人工智能解释公平性：统一框架、公理与负责任AI的未来方向

专知会员服务

13+阅读 · 5月12日

【EPFL博士论文】决策系统中的机器学习：公平性、鲁棒性与数据偏差

【EPFL博士论文】决策系统中的机器学习：公平性、鲁棒性与数据偏差

专知会员服务

26+阅读 · 2025年5月19日

不平衡数据学习的全面综述

不平衡数据学习的全面综述

专知会员服务

44+阅读 · 2025年2月15日

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

专知会员服务

33+阅读 · 2022年3月10日

【MIT-ICLR2022】在机器学习模型中注入公平性, Injecting fairness into machine-learning models

【MIT-ICLR2022】在机器学习模型中注入公平性, Injecting fairness into machine-learning models

专知会员服务

22+阅读 · 2022年3月7日

缺失数据处理方法研究综述

专知会员服务

38+阅读 · 2021年5月10日

可信机器学习的公平性综述

可信机器学习的公平性综述

专知会员服务

69+阅读 · 2021年2月23日

【卡内基梅隆大学-CMU】机器学习中的公平性，Learning Fair Representations

【卡内基梅隆大学-CMU】机器学习中的公平性，Learning Fair Representations

专知会员服务

38+阅读 · 2020年2月29日

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

专知会员服务

22+阅读 · 2020年1月15日

《机器学习与公平性》（Fairness and Machine Learning）新书发布，附181页PDF下载

《机器学习与公平性》（Fairness and Machine Learning）新书发布，附181页PDF下载

专知会员服务

80+阅读 · 2019年10月26日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

缺失数据统计分析，第三版，462页pdf

缺失数据统计分析，第三版，462页pdf

专知

50+阅读 · 2020年2月28日

《机器学习与公平性》新书发布，附127页PDF下载

《机器学习与公平性》新书发布，附127页PDF下载

专知

25+阅读 · 2019年9月13日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

一文教你如何处理不平衡数据集（附代码）

一文教你如何处理不平衡数据集（附代码）

大数据文摘

12+阅读 · 2019年6月2日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

稀疏性的3个优势 -《稀疏统计学习及其应用》

稀疏性的3个优势 -《稀疏统计学习及其应用》

遇见数学

15+阅读 · 2018年10月24日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

FCS 论坛 | 孟德宇：误差建模原理

FCS 论坛 | 孟德宇：误差建模原理

FCS

15+阅读 · 2017年8月17日

相关论文

An Interdisciplinary and Cross-Task Review on Missing Data Imputation

Arxiv

0+阅读 · 4月24日

Data (in)equities in data science: Dissecting systemic and systematic biases in pulse oximetry

Arxiv

0+阅读 · 4月20日

Causal Inference with Missing Exposures and Missing Outcomes

Arxiv

0+阅读 · 4月14日

Database Querying under Missing Values Governed by Missingness Mechanisms

Arxiv

0+阅读 · 4月7日

Enforcing Fair Predicted Scores on Intervals of Percentiles by Difference-of-Convex Constraints

Arxiv

0+阅读 · 4月5日

Fair Data Pre-Processing with Imperfect Attribute Space

Arxiv

0+阅读 · 3月27日

Prediction with Missing Data: Target Probabilities and Missingness Mechanisms

Arxiv

0+阅读 · 3月18日

High-dimensional estimation with missing data: Statistical and computational limits

Arxiv

0+阅读 · 3月17日

Causality Is Key to Understand and Balance Multiple Goals in Trustworthy ML and Foundation Models

Causality Is Key to Understand and Balance Multiple Goals in Trustworthy ML and Foundation Models

Arxiv

0+阅读 · 3月13日

Measuring Perceptions of Fairness in AI Systems: The Effects of Infra-marginality

Arxiv

0+阅读 · 3月6日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

排序集抽样下随机删失数据的非参数估计

国家自然科学基金

1+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员