Optimal Fair Aggregation of Crowdsourced Noisy Labels using Demographic Parity Constraints - 专知论文

会员服务 ·

0

公平性 · 约束 · 噪声 · 最优 · 基准 ·

Optimal Fair Aggregation of Crowdsourced Noisy Labels using Demographic Parity Constraints

翻译：基于人口统计奇偶约束的众包噪声标签最优公平聚合

Gabriel Singer,Samuel Gruffaz,Olivier Vo Van,Nicolas Vayatis,Argyris Kalogeratos

As acquiring reliable ground-truth labels is usually costly, or infeasible, crowdsourcing and aggregation of noisy human annotations is the typical resort. Aggregating subjective labels, though, may amplify individual biases, particularly regarding sensitive features, raising fairness concerns. Nonetheless, fairness in crowdsourced aggregation remains largely unexplored, with no existing convergence guarantees and only limited post-processing approaches for enforcing $\varepsilon$-fairness under demographic parity. We address this gap by analyzing the fairness s of crowdsourced aggregation methods within the $\varepsilon$-fairness framework, for Majority Vote and Optimal Bayesian aggregation. In the small-crowd regime, we derive an upper bound on the fairness gap of Majority Vote in terms of the fairness gaps of the individual annotators. We further show that the fairness gap of the aggregated consensus converges exponentially fast to that of the ground-truth under interpretable conditions. Since ground-truth itself may still be unfair, we generalize a state-of-the-art multiclass fairness post-processing algorithm from the continuous to the discrete setting, which enforces strict demographic parity constraints to any aggregation rule. Experiments on synthetic and real datasets demonstrate the effectiveness of our approach and corroborate the theoretical insights.

翻译：由于获取可靠的基准真值标签通常成本高昂或不可行，众包和聚合带噪声的人工标注成为典型解决方案。然而，聚合主观标签可能放大个体偏见，特别是在敏感特征方面，从而引发公平性担忧。尽管如此，众包聚合中的公平性问题在很大程度上仍未得到探索，目前既缺乏收敛性保证，也仅有有限的后处理方法能在人口统计奇偶性下强制执行$\varepsilon$-公平性。我们通过分析多数投票和最优贝叶斯聚合方法在$\varepsilon$-公平性框架下的公平性来填补这一空白。在小规模众包场景中，我们推导出多数投票公平性差距的上界，该上界由个体标注者的公平性差距表示。我们进一步证明，在可解释的条件下，聚合共识的公平性差距会以指数级速度收敛到基准真值的公平性差距。由于基准真值本身可能仍存在不公平性，我们将最先进的多类公平性后处理算法从连续设置推广到离散设置，该算法能对任何聚合规则强制执行严格的人口统计奇偶约束。在合成和真实数据集上的实验证明了我们方法的有效性，并验证了理论见解。

0

相关内容

公平性

【ICML2025】通过概念对齐与混淆感知校准边界处理视觉-语言模型中的伪标签不平衡问题

【ICML2025】通过概念对齐与混淆感知校准边界处理视觉-语言模型中的伪标签不平衡问题

专知会员服务

11+阅读 · 2025年5月6日

可解释聚类综述

可解释聚类综述

专知会员服务

38+阅读 · 2024年9月8日

【SIGMOD教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

【SIGMOD教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

专知会员服务

11+阅读 · 2022年10月20日

监督和半监督学习下的多标签分类综述

监督和半监督学习下的多标签分类综述

专知会员服务

46+阅读 · 2022年8月3日

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

专知会员服务

42+阅读 · 2022年7月7日

香港浸会大学最新《标签噪声表示学习》综述论文，全面阐述LNRL的数据、目标函数与优化策略

香港浸会大学最新《标签噪声表示学习》综述论文，全面阐述LNRL的数据、目标函数与优化策略

专知会员服务

32+阅读 · 2022年2月15日

【WWW2021】对众包系统的数据中毒攻击和防御

【WWW2021】对众包系统的数据中毒攻击和防御

专知会员服务

21+阅读 · 2021年2月22日

最新《标签噪声表示学习的研究:过去、现在和将来》2020综述论文，24页pdf

最新《标签噪声表示学习的研究:过去、现在和将来》2020综述论文，24页pdf

专知会员服务

37+阅读 · 2020年11月11日

最新《深度学习噪声标签学习》综述论文，14页pdf

专知会员服务

101+阅读 · 2020年7月20日

【CVPR2020-上海交大】自组织记忆模块来解决网络图片中的标签噪声和背景噪声

【CVPR2020-上海交大】自组织记忆模块来解决网络图片中的标签噪声和背景噪声

专知会员服务

28+阅读 · 2020年3月18日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

标签间相关性在多标签分类问题中的应用

标签间相关性在多标签分类问题中的应用

人工智能前沿讲习班

23+阅读 · 2019年6月5日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

开放知识图谱

29+阅读 · 2019年1月17日

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

开放知识图谱

16+阅读 · 2018年12月2日

Polygon-RNN++图像分割数据集自动标注

Polygon-RNN++图像分割数据集自动标注

论智

10+阅读 · 2018年8月16日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

AAAI 2018 | 南京大学提出SSWL：从半监督弱标注数据中学习多标签学习问题

AAAI 2018 | 南京大学提出SSWL：从半监督弱标注数据中学习多标签学习问题

机器之心

21+阅读 · 2018年1月7日

机器学习之确定最佳聚类数目的10种方法

机器学习之确定最佳聚类数目的10种方法

炼数成金订阅号

13+阅读 · 2017年10月12日

移动社会网络中众包系统的可信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

群智感知中基于可信交互的细粒度众包机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

求解一类公平疏散问题的高性能混合算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标签降维中的多重代价敏感学习问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于众包的群体智慧涌现及创新效应研究

国家自然科学基金

3+阅读 · 2014年12月31日

An assessment of data-centric methods for label noise identification in remote sensing data sets

Arxiv

0+阅读 · 3月17日

Structure Selection for Fairness-Constrained Differentially Private Data Synthesis

Arxiv

0+阅读 · 3月16日

Label Noise Cleaning for Supervised Classification via Bernoulli Random Sampling

Arxiv

0+阅读 · 3月15日

Fair Model-based Clustering

Arxiv

0+阅读 · 2月25日

Improved Rank Aggregation under Fairness Constraint

Arxiv

0+阅读 · 2月24日

AuditoryHuM: Auditory Scene Label Generation and Clustering using Human-MLLM Collaboration

Arxiv

0+阅读 · 2月23日

The Majority Vote Paradigm Shift: When Popular Meets Optimal

Arxiv

0+阅读 · 2月13日

Leveraging Noisy Manual Labels as Useful Information: An Information Fusion Approach for Enhanced Variable Selection in Penalized Logistic Regression

Arxiv

0+阅读 · 2月13日

Probabilistic Label Spreading: Efficient and Consistent Estimation of Soft Labels with Epistemic Uncertainty on Graphs

Arxiv

0+阅读 · 2月4日

Optimal Transport under Group Fairness Constraints

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

4+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

2+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

2+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

3+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

4+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

3+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

【ICML2025】通过概念对齐与混淆感知校准边界处理视觉-语言模型中的伪标签不平衡问题

【ICML2025】通过概念对齐与混淆感知校准边界处理视觉-语言模型中的伪标签不平衡问题

专知会员服务

11+阅读 · 2025年5月6日

可解释聚类综述

可解释聚类综述

专知会员服务

38+阅读 · 2024年9月8日

【SIGMOD教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

【SIGMOD教程】高效数据标签的众包实践:聚合、增量重标签和定价，附180页slides

专知会员服务

11+阅读 · 2022年10月20日

监督和半监督学习下的多标签分类综述

监督和半监督学习下的多标签分类综述

专知会员服务

46+阅读 · 2022年8月3日

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

专知会员服务

42+阅读 · 2022年7月7日

香港浸会大学最新《标签噪声表示学习》综述论文，全面阐述LNRL的数据、目标函数与优化策略

香港浸会大学最新《标签噪声表示学习》综述论文，全面阐述LNRL的数据、目标函数与优化策略

专知会员服务

32+阅读 · 2022年2月15日

【WWW2021】对众包系统的数据中毒攻击和防御

【WWW2021】对众包系统的数据中毒攻击和防御

专知会员服务

21+阅读 · 2021年2月22日

最新《标签噪声表示学习的研究:过去、现在和将来》2020综述论文，24页pdf

最新《标签噪声表示学习的研究:过去、现在和将来》2020综述论文，24页pdf

专知会员服务

37+阅读 · 2020年11月11日

最新《深度学习噪声标签学习》综述论文，14页pdf

专知会员服务

101+阅读 · 2020年7月20日

【CVPR2020-上海交大】自组织记忆模块来解决网络图片中的标签噪声和背景噪声

【CVPR2020-上海交大】自组织记忆模块来解决网络图片中的标签噪声和背景噪声

专知会员服务

28+阅读 · 2020年3月18日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

标签间相关性在多标签分类问题中的应用

标签间相关性在多标签分类问题中的应用

人工智能前沿讲习班

23+阅读 · 2019年6月5日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

开放知识图谱

29+阅读 · 2019年1月17日

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

开放知识图谱

16+阅读 · 2018年12月2日

Polygon-RNN++图像分割数据集自动标注

Polygon-RNN++图像分割数据集自动标注

论智

10+阅读 · 2018年8月16日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

AAAI 2018 | 南京大学提出SSWL：从半监督弱标注数据中学习多标签学习问题

AAAI 2018 | 南京大学提出SSWL：从半监督弱标注数据中学习多标签学习问题

机器之心

21+阅读 · 2018年1月7日

机器学习之确定最佳聚类数目的10种方法

机器学习之确定最佳聚类数目的10种方法

炼数成金订阅号

13+阅读 · 2017年10月12日

相关论文

An assessment of data-centric methods for label noise identification in remote sensing data sets

Arxiv

0+阅读 · 3月17日

Structure Selection for Fairness-Constrained Differentially Private Data Synthesis

Arxiv

0+阅读 · 3月16日

Label Noise Cleaning for Supervised Classification via Bernoulli Random Sampling

Arxiv

0+阅读 · 3月15日

Fair Model-based Clustering

Arxiv

0+阅读 · 2月25日

Improved Rank Aggregation under Fairness Constraint

Arxiv

0+阅读 · 2月24日

AuditoryHuM: Auditory Scene Label Generation and Clustering using Human-MLLM Collaboration

Arxiv

0+阅读 · 2月23日

The Majority Vote Paradigm Shift: When Popular Meets Optimal

Arxiv

0+阅读 · 2月13日

Leveraging Noisy Manual Labels as Useful Information: An Information Fusion Approach for Enhanced Variable Selection in Penalized Logistic Regression

Arxiv

0+阅读 · 2月13日

Probabilistic Label Spreading: Efficient and Consistent Estimation of Soft Labels with Epistemic Uncertainty on Graphs

Arxiv

0+阅读 · 2月4日

Optimal Transport under Group Fairness Constraints

Arxiv

0+阅读 · 1月30日

相关基金

移动社会网络中众包系统的可信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

群智感知中基于可信交互的细粒度众包机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

求解一类公平疏散问题的高性能混合算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标签降维中的多重代价敏感学习问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

低密度奇偶校验码的误码平层和迭代译码算法的混沌特性分析

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于众包的群体智慧涌现及创新效应研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员