Evolved Sample Weights for Bias Mitigation: Effectiveness Depends on the Fairness Objective - 专知论文

会员服务 ·

0

公平性 · 偏差 · 数据集 · 样本 · 重用 ·

Evolved Sample Weights for Bias Mitigation: Effectiveness Depends on the Fairness Objective

翻译：进化样本权重用于偏差缓解：有效性取决于公平性目标

Anil K. Saini,Jose Guadalupe Hernandez,Emily F. Wong,Debanshi Misra,Tiffani J. Bright,Jason H. Moore

Machine learning models trained on real-world data may inadvertently make biased predictions that negatively impact marginalized communities. Reweighting, which assigns a weight to each data point used during model training, can mitigate such bias, though sometimes at the cost of predictive accuracy. In this paper, we investigated this trade-off by comparing three methods for generating these weights: (1) evolving them using a Genetic Algorithm (GA), (2) computing them using only dataset characteristics, and (3) assigning equal weights to all data points. Model performance under each strategy was evaluated using paired predictive and fairness metrics. We used two predictive metrics (accuracy and area under the Receiver Operating Characteristic curve) and two fairness metrics (demographic parity and subgroup false negative fairness). By conducting experiments on eleven publicly available datasets (including two medical datasets), we show that evolved sample weights can produce models that achieve better trade-offs between fairness and predictive performance than alternative weighting methods. However, the magnitude of these benefits depends strongly on the choice of fairness objective. Our experiments reveal that the evolved weights were most effective when optimizing for demographic parity-independent of choice of the performance objective-yielding better performance than other weighting strategies on the largest number of datasets.

翻译：在真实世界数据上训练的机器学习模型可能会无意中产生对边缘化群体产生负面影响的偏差预测。重加权（为模型训练过程中使用的每个数据点分配权重）可以缓解这种偏差，尽管有时会牺牲预测准确性。在本文中，我们通过比较三种生成这些权重的方法来研究这种权衡：（1）使用遗传算法（GA）进化权重，（2）仅使用数据集特征计算权重，以及（3）为所有数据点分配相等权重。每种策略下的模型性能使用配对预测指标和公平性指标进行评估。我们使用了两个预测指标（准确性和受试者工作特征曲线下面积）和两个公平性指标（人口统计均等性和子组假阴性公平性）。通过在十一个公开数据集（包括两个医学数据集）上进行实验，我们表明进化样本权重可以产生比替代加权方法在公平性与预测性能之间实现更好权衡的模型。然而，这些益处的程度在很大程度上取决于公平性目标的选择。我们的实验揭示，在优化人口统计均等性时——与性能目标的选择无关——进化权重最为有效，在数量最多的数据集上比其他加权策略获得了更好的性能。

0

相关内容

公平性

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

【ETHZ博士论文】算法补救的进展：确保因果一致性、公平性和鲁棒性，233页pdf

【ETHZ博士论文】算法补救的进展：确保因果一致性、公平性和鲁棒性，233页pdf

专知会员服务

29+阅读 · 2023年11月26日

【MIT博士论文】序列决策中的算法公平性，134页pdf

【MIT博士论文】序列决策中的算法公平性，134页pdf

专知会员服务

25+阅读 · 2023年5月20日

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

专知会员服务

69+阅读 · 2023年1月29日

2022最新MIT成果【ICML 2022】：一种提高人工智能的公平性和准确性的技术，Selective Regression Under Fairness Criteria

2022最新MIT成果【ICML 2022】：一种提高人工智能的公平性和准确性的技术，Selective Regression Under Fairness Criteria

专知会员服务

11+阅读 · 2022年7月26日

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

专知会员服务

31+阅读 · 2022年3月11日

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

专知会员服务

33+阅读 · 2022年3月10日

【MIT-ICLR2022】在机器学习模型中注入公平性, Injecting fairness into machine-learning models

【MIT-ICLR2022】在机器学习模型中注入公平性, Injecting fairness into machine-learning models

专知会员服务

22+阅读 · 2022年3月7日

【ACL2021】Weight Distillation：神经网络权重知识迁移方法

专知会员服务

21+阅读 · 2021年8月17日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

多因素问题分析时，如何确立各因素权重？

多因素问题分析时，如何确立各因素权重？

人人都是产品经理

75+阅读 · 2020年3月4日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

神经网络中的权重初始化一览：从基础到Kaiming

神经网络中的权重初始化一览：从基础到Kaiming

大数据文摘

12+阅读 · 2019年4月18日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

微进化机制中群体基因组数据分析的新方法研究

国家自然科学基金

0+阅读 · 2016年12月31日

处理效应差异中位数的有效估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

Generative Adaptation of Dynamics to Environmental Shifts via Weight-space Diffusion

Arxiv

0+阅读 · 5月4日

Data Balancing Strategies: A Systematic Survey of Resampling and Augmentation Methods

Arxiv

0+阅读 · 4月28日

Measuring the Sensitivity of Classification Models with the Error Sensitivity Profile

Arxiv

0+阅读 · 4月28日

A Divergence-Based Method for Weighting and Averaging Model Predictions

Arxiv

0+阅读 · 4月27日

Estimator-Aligned Prospective Sample Size Determination for Designs Using Inverse Probability of Treatment Weighting

Arxiv

0+阅读 · 4月23日

A Sensitivity Approach to Causal Inference Under Limited Overlap

Arxiv

0+阅读 · 4月18日

A Mechanism Study of Delayed Loss Spikes in Batch-Normalized Linear Models

Arxiv

0+阅读 · 4月18日

Enforcing Fair Predicted Scores on Intervals of Percentiles by Difference-of-Convex Constraints

Arxiv

0+阅读 · 4月5日

Fair Data Pre-Processing with Imperfect Attribute Space

Arxiv

0+阅读 · 3月27日

Instance-optimal stochastic convex optimization: Can we improve upon sample-average and robust stochastic approximation?

Arxiv

0+阅读 · 3月26日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

4+阅读 · 今天15:21

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

0+阅读 · 今天15:12

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

2+阅读 · 今天15:06

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

4+阅读 · 今天14:55

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

9+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

7+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

9+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

6+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

9+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

9+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

5+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

3+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

7+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

5+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

6+阅读 · 7月17日

相关VIP内容

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

【ETHZ博士论文】算法补救的进展：确保因果一致性、公平性和鲁棒性，233页pdf

【ETHZ博士论文】算法补救的进展：确保因果一致性、公平性和鲁棒性，233页pdf

专知会员服务

29+阅读 · 2023年11月26日

【MIT博士论文】序列决策中的算法公平性，134页pdf

【MIT博士论文】序列决策中的算法公平性，134页pdf

专知会员服务

25+阅读 · 2023年5月20日

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

专知会员服务

69+阅读 · 2023年1月29日

2022最新MIT成果【ICML 2022】：一种提高人工智能的公平性和准确性的技术，Selective Regression Under Fairness Criteria

2022最新MIT成果【ICML 2022】：一种提高人工智能的公平性和准确性的技术，Selective Regression Under Fairness Criteria

专知会员服务

11+阅读 · 2022年7月26日

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集？哈佛、MIT专家为你解读

专知会员服务

31+阅读 · 2022年3月11日

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

【ICLR 2022 paper解读】将公平性注入机器学习模型，降低模型偏差，即使用于训练模型的数据集是不平衡的

专知会员服务

33+阅读 · 2022年3月10日

【MIT-ICLR2022】在机器学习模型中注入公平性, Injecting fairness into machine-learning models

【MIT-ICLR2022】在机器学习模型中注入公平性, Injecting fairness into machine-learning models

专知会员服务

22+阅读 · 2022年3月7日

【ACL2021】Weight Distillation：神经网络权重知识迁移方法

专知会员服务

21+阅读 · 2021年8月17日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

多因素问题分析时，如何确立各因素权重？

多因素问题分析时，如何确立各因素权重？

人人都是产品经理

75+阅读 · 2020年3月4日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

神经网络中的权重初始化一览：从基础到Kaiming

神经网络中的权重初始化一览：从基础到Kaiming

大数据文摘

12+阅读 · 2019年4月18日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

机器学习中如何处理不平衡数据？

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

相关论文

Generative Adaptation of Dynamics to Environmental Shifts via Weight-space Diffusion

Arxiv

0+阅读 · 5月4日

Data Balancing Strategies: A Systematic Survey of Resampling and Augmentation Methods

Arxiv

0+阅读 · 4月28日

Measuring the Sensitivity of Classification Models with the Error Sensitivity Profile

Arxiv

0+阅读 · 4月28日

A Divergence-Based Method for Weighting and Averaging Model Predictions

Arxiv

0+阅读 · 4月27日

Estimator-Aligned Prospective Sample Size Determination for Designs Using Inverse Probability of Treatment Weighting

Arxiv

0+阅读 · 4月23日

A Sensitivity Approach to Causal Inference Under Limited Overlap

Arxiv

0+阅读 · 4月18日

A Mechanism Study of Delayed Loss Spikes in Batch-Normalized Linear Models

Arxiv

0+阅读 · 4月18日

Enforcing Fair Predicted Scores on Intervals of Percentiles by Difference-of-Convex Constraints

Arxiv

0+阅读 · 4月5日

Fair Data Pre-Processing with Imperfect Attribute Space

Arxiv

0+阅读 · 3月27日

Instance-optimal stochastic convex optimization: Can we improve upon sample-average and robust stochastic approximation?

Arxiv

0+阅读 · 3月26日

相关基金

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

微进化机制中群体基因组数据分析的新方法研究

国家自然科学基金

0+阅读 · 2016年12月31日

处理效应差异中位数的有效估计

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员