Machine learning models trained on real-world data may inadvertently make biased predictions that negatively impact marginalized communities. Reweighting, which assigns a weight to each data point used during model training, can mitigate such bias, though sometimes at the cost of predictive accuracy. In this paper, we investigated this trade-off by comparing three methods for generating these weights: (1) evolving them using a Genetic Algorithm (GA), (2) computing them using only dataset characteristics, and (3) assigning equal weights to all data points. Model performance under each strategy was evaluated using paired predictive and fairness metrics. We used two predictive metrics (accuracy and area under the Receiver Operating Characteristic curve) and two fairness metrics (demographic parity and subgroup false negative fairness). By conducting experiments on eleven publicly available datasets (including two medical datasets), we show that evolved sample weights can produce models that achieve better trade-offs between fairness and predictive performance than alternative weighting methods. However, the magnitude of these benefits depends strongly on the choice of fairness objective. Our experiments reveal that the evolved weights were most effective when optimizing for demographic parity-independent of choice of the performance objective-yielding better performance than other weighting strategies on the largest number of datasets.


翻译:在真实世界数据上训练的机器学习模型可能会无意中产生对边缘化群体产生负面影响的偏差预测。重加权(为模型训练过程中使用的每个数据点分配权重)可以缓解这种偏差,尽管有时会牺牲预测准确性。在本文中,我们通过比较三种生成这些权重的方法来研究这种权衡:(1)使用遗传算法(GA)进化权重,(2)仅使用数据集特征计算权重,以及(3)为所有数据点分配相等权重。每种策略下的模型性能使用配对预测指标和公平性指标进行评估。我们使用了两个预测指标(准确性和受试者工作特征曲线下面积)和两个公平性指标(人口统计均等性和子组假阴性公平性)。通过在十一个公开数据集(包括两个医学数据集)上进行实验,我们表明进化样本权重可以产生比替代加权方法在公平性与预测性能之间实现更好权衡的模型。然而,这些益处的程度在很大程度上取决于公平性目标的选择。我们的实验揭示,在优化人口统计均等性时——与性能目标的选择无关——进化权重最为有效,在数量最多的数据集上比其他加权策略获得了更好的性能。

0
下载
关闭预览

相关内容

多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
【MIT博士论文】序列决策中的算法公平性,134页pdf
专知会员服务
25+阅读 · 2023年5月20日
专知会员服务
21+阅读 · 2021年8月17日
多因素问题分析时,如何确立各因素权重?
人人都是产品经理
75+阅读 · 2020年3月4日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
神经网络中的权重初始化一览:从基础到Kaiming
大数据文摘
12+阅读 · 2019年4月18日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
AutoScientists:自组织智能体团队驱动长期科学实验
战略前沿人工智能的再思考(中文)
专知会员服务
2+阅读 · 今天14:53
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
2+阅读 · 今天14:51
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 今天14:38
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
【MIT博士论文】序列决策中的算法公平性,134页pdf
专知会员服务
25+阅读 · 2023年5月20日
专知会员服务
21+阅读 · 2021年8月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员