The Majority Vote Paradigm Shift: When Popular Meets Optimal - 专知论文

会员服务 ·

0

最优 · 最优性 · 标注 · 类别 · 注释（编程） ·

The Majority Vote Paradigm Shift: When Popular Meets Optimal

翻译：多数投票范式转变：当流行性遇见最优性

Antonio Purificato,Maria Sofia Bucarelli,Anil Kumar Nelakanti,Andrea Bacciu,Fabrizio Silvestri,Amin Mantrach

from arxiv, 33 pages, 7 figures

Reliably labelling data typically requires annotations from multiple human workers. However, humans are far from being perfect. Hence, it is a common practice to aggregate labels gathered from multiple annotators to make a more confident estimate of the true label. Among many aggregation methods, the simple and well known Majority Vote (MV) selects the class label polling the highest number of votes. However, despite its importance, the optimality of MV's label aggregation has not been extensively studied. We address this gap in our work by characterising the conditions under which MV achieves the theoretically optimal lower bound on label estimation error. Our results capture the tolerable limits on annotation noise under which MV can optimally recover labels for a given class distribution. This certificate of optimality provides a more principled approach to model selection for label aggregation as an alternative to otherwise inefficient practices that sometimes include higher experts, gold labels, etc., that are all marred by the same human uncertainty despite huge time and monetary costs. Experiments on both synthetic and real world data corroborate our theoretical findings.

翻译：可靠的数据标注通常需要多位人工标注者的注释。然而，人类远非完美。因此，聚合来自多位标注者的标签以对真实标签做出更有信心的估计，已成为一种常见做法。在众多聚合方法中，简单且广为人知的多数投票法选择获得最高票数的类别标签。然而，尽管其重要性不言而喻，多数投票在标签聚合方面的最优性尚未得到深入研究。我们在工作中通过刻画多数投票达到标签估计误差理论最优下界的条件，来填补这一空白。我们的结果揭示了在给定类别分布下，多数投票能够最优恢复标签所能容忍的标注噪声极限。这一最优性证明为标签聚合的模型选择提供了一种更具原则性的方法，替代了那些有时包含更高级专家、黄金标准标签等低效做法——尽管耗费巨大时间和金钱成本，这些做法同样受制于相同的人类不确定性。在合成数据和真实数据上的实验均证实了我们的理论发现。

0

相关内容

【ICML2025】利用多样本推理优化语言模型的温度参数

【ICML2025】利用多样本推理优化语言模型的温度参数

专知会员服务

9+阅读 · 2025年5月3日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

【牛津大学博士论文】从多模态数据中学习表示，258页pdf

【牛津大学博士论文】从多模态数据中学习表示，258页pdf

专知会员服务

52+阅读 · 2024年7月28日

《不完全多标签学习综述：最新进展与未来趋势》

《不完全多标签学习综述：最新进展与未来趋势》

专知会员服务

26+阅读 · 2024年6月11日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

《深度学习多标签学习》最新综述

《深度学习多标签学习》最新综述

专知会员服务

47+阅读 · 2024年1月31日

监督和半监督学习下的多标签分类综述

监督和半监督学习下的多标签分类综述

专知会员服务

46+阅读 · 2022年8月3日

复旦大学邱锡鹏等《自然语言处理范式迁移综述》论文，详述7大NLP范式：分类、匹配、SeqLab, MRC, Seq2Seq等

专知会员服务

54+阅读 · 2021年9月29日

WWW21最新「比较学习」教程，135页PPT阐述从排名数据中学习

专知会员服务

37+阅读 · 2021年4月27日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

置信学习：让样本中的"脏数据"原形毕露 ( 附开源实现 )

置信学习：让样本中的"脏数据"原形毕露 ( 附开源实现 )

DataFunTalk

12+阅读 · 2020年7月3日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

多因素问题分析时，如何确立各因素权重？

多因素问题分析时，如何确立各因素权重？

人人都是产品经理

75+阅读 · 2020年3月4日

标签间相关性在多标签分类问题中的应用

标签间相关性在多标签分类问题中的应用

人工智能前沿讲习班

23+阅读 · 2019年6月5日

小样本学习（Few-shot Learning）综述

小样本学习（Few-shot Learning）综述

机器之心

18+阅读 · 2019年4月1日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

推荐策略产品经理：剖析协同过滤（千人千面推荐的核心）

推荐策略产品经理：剖析协同过滤（千人千面推荐的核心）

PMCAFF

10+阅读 · 2019年3月14日

Transformer-XL：释放注意力模型的潜力

Transformer-XL：释放注意力模型的潜力

谷歌开发者

31+阅读 · 2019年2月19日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

机器学习之确定最佳聚类数目的10种方法

机器学习之确定最佳聚类数目的10种方法

炼数成金订阅号

13+阅读 · 2017年10月12日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

复杂网络视角下基于非二元偏好的投票理论与方法

国家自然科学基金

0+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

多项式优化的最优性条件与最优化算法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

Characterizations of voting rules based on majority margins

Arxiv

0+阅读 · 3月10日

Generalizing Fair Top-$k$ Selection: An Integrative Approach

Arxiv

0+阅读 · 3月5日

It Takes So Little to Change So Much: Investigating the Robustness of a Danish Voting Advice Algorithm

Arxiv

0+阅读 · 3月3日

Improved Rank Aggregation under Fairness Constraint

Arxiv

0+阅读 · 2月24日

Conjugating Variational Inference for Large Mixed Multinomial Logit Models and Consumer Choice

Arxiv

0+阅读 · 2月19日

On Minimal Achievable Quotas in Multiwinner Voting

Arxiv

0+阅读 · 2月17日

Simpler Than You Think: The Practical Dynamics of Ranked Choice Voting

Arxiv

0+阅读 · 2月15日

Conjugate Variational Inference for Large Mixed Multinomial Logit Models and Consumer Choice

Arxiv

0+阅读 · 2月13日

Maximizing Index Diversity in Committee Elections

Arxiv

0+阅读 · 2月11日

Optimal Fair Aggregation of Crowdsourced Noisy Labels using Demographic Parity Constraints

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

注释（编程）

最新内容

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

7+阅读 · 今天12:11

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

4+阅读 · 今天12:07

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

6+阅读 · 今天10:06

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

3+阅读 · 今天9:11

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

10+阅读 · 今天8:18

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

9+阅读 · 今天8:03

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

6+阅读 · 今天7:39

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

5+阅读 · 今天6:58

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

5+阅读 · 今天6:54

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

9+阅读 · 今天6:48

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

5+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

7+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

5+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

7+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

6+阅读 · 今天6:09

相关VIP内容

【ICML2025】利用多样本推理优化语言模型的温度参数

【ICML2025】利用多样本推理优化语言模型的温度参数

专知会员服务

9+阅读 · 2025年5月3日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

【牛津大学博士论文】从多模态数据中学习表示，258页pdf

【牛津大学博士论文】从多模态数据中学习表示，258页pdf

专知会员服务

52+阅读 · 2024年7月28日

《不完全多标签学习综述：最新进展与未来趋势》

《不完全多标签学习综述：最新进展与未来趋势》

专知会员服务

26+阅读 · 2024年6月11日

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

谷歌最新《大语言模型合成数据的最佳实践和经验教训》

专知会员服务

66+阅读 · 2024年4月17日

《深度学习多标签学习》最新综述

《深度学习多标签学习》最新综述

专知会员服务

47+阅读 · 2024年1月31日

监督和半监督学习下的多标签分类综述

监督和半监督学习下的多标签分类综述

专知会员服务

46+阅读 · 2022年8月3日

复旦大学邱锡鹏等《自然语言处理范式迁移综述》论文，详述7大NLP范式：分类、匹配、SeqLab, MRC, Seq2Seq等

专知会员服务

54+阅读 · 2021年9月29日

WWW21最新「比较学习」教程，135页PPT阐述从排名数据中学习

专知会员服务

37+阅读 · 2021年4月27日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

热门VIP内容

开通专知VIP会员享更多权益服务

《强化学习数学基础》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

2026“人工智能+”行业发展蓝皮书（附下载）

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

相关资讯

置信学习：让样本中的"脏数据"原形毕露 ( 附开源实现 )

置信学习：让样本中的"脏数据"原形毕露 ( 附开源实现 )

DataFunTalk

12+阅读 · 2020年7月3日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

多因素问题分析时，如何确立各因素权重？

多因素问题分析时，如何确立各因素权重？

人人都是产品经理

75+阅读 · 2020年3月4日

标签间相关性在多标签分类问题中的应用

标签间相关性在多标签分类问题中的应用

人工智能前沿讲习班

23+阅读 · 2019年6月5日

小样本学习（Few-shot Learning）综述

小样本学习（Few-shot Learning）综述

机器之心

18+阅读 · 2019年4月1日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知

127+阅读 · 2019年3月31日

推荐策略产品经理：剖析协同过滤（千人千面推荐的核心）

推荐策略产品经理：剖析协同过滤（千人千面推荐的核心）

PMCAFF

10+阅读 · 2019年3月14日

Transformer-XL：释放注意力模型的潜力

Transformer-XL：释放注意力模型的潜力

谷歌开发者

31+阅读 · 2019年2月19日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

机器学习之确定最佳聚类数目的10种方法

机器学习之确定最佳聚类数目的10种方法

炼数成金订阅号

13+阅读 · 2017年10月12日

相关论文

Characterizations of voting rules based on majority margins

Arxiv

0+阅读 · 3月10日

Generalizing Fair Top-$k$ Selection: An Integrative Approach

Arxiv

0+阅读 · 3月5日

It Takes So Little to Change So Much: Investigating the Robustness of a Danish Voting Advice Algorithm

Arxiv

0+阅读 · 3月3日

Improved Rank Aggregation under Fairness Constraint

Arxiv

0+阅读 · 2月24日

Conjugating Variational Inference for Large Mixed Multinomial Logit Models and Consumer Choice

Arxiv

0+阅读 · 2月19日

On Minimal Achievable Quotas in Multiwinner Voting

Arxiv

0+阅读 · 2月17日

Simpler Than You Think: The Practical Dynamics of Ranked Choice Voting

Arxiv

0+阅读 · 2月15日

Conjugate Variational Inference for Large Mixed Multinomial Logit Models and Consumer Choice

Arxiv

0+阅读 · 2月13日

Maximizing Index Diversity in Committee Elections

Arxiv

0+阅读 · 2月11日

Optimal Fair Aggregation of Crowdsourced Noisy Labels using Demographic Parity Constraints

Arxiv

0+阅读 · 1月30日

相关基金

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

复杂网络视角下基于非二元偏好的投票理论与方法

国家自然科学基金

0+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

多项式优化的最优性条件与最优化算法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员