In machine learning, "ground truth" refers to the assumed correct labels used to train and evaluate models. However, the foundational "ground truth" paradigm rests on a positivistic fallacy that treats human disagreement as technical noise rather than a vital sociotechnical signal. This systematic literature review analyzes research published between 2020 and 2025 across seven premier venues: ACL, AIES, CHI, CSCW, EAAMO, FAccT, and NeurIPS, investigating the mechanisms in data annotation practices that facilitate this "consensus trap". Our identification phase captured 30,897 records, which were refined via a tiered keyword filtration schema to a high-recall corpus of 3,042 records for manual screening, resulting in a final included corpus of 346 papers for qualitative synthesis. Our reflexive thematic analysis reveals that systemic failures in positional legibility, combined with the recent architectural shift toward human-as-verifier models, specifically the reliance on model-mediated annotations, introduce deep-seated anchoring bias and effectively remove human voices from the loop. We further demonstrate how geographic hegemony imposes Western norms as universal benchmarks, often enforced by the performative alignment of precarious data workers who prioritize requester compliance over honest subjectivity to avoid economic penalties. Critiquing the "noisy sensor" fallacy, where statistical models misdiagnose cultural pluralism as random error, we argue for reclaiming disagreement as a high-fidelity signal essential for building culturally competent models. To address these systemic tensions, we propose a roadmap for pluralistic annotation infrastructures that shift the objective from discovering a singular "right" answer to mapping the diversity of human experience.


翻译:在机器学习中,“真实标签”指用于训练和评估模型的假定正确标签。然而,这一基础的“真实标签”范式建立在实证主义谬误之上,它将人类分歧视为技术噪声而非关键的社会技术信号。本系统性文献综述分析了2020年至2025年间发表于七大顶级会议(ACL、AIES、CHI、CSCW、EAAMO、FAccT、NeurIPS)的研究,探究了数据标注实践中促成这种“共识陷阱”的机制。我们的识别阶段捕获了30,897条记录,通过分层关键词过滤方案精炼为包含3,042条记录的高召回率语料库用于人工筛选,最终得到包含346篇论文的语料库用于定性综合。我们的反思性主题分析表明,位置可读性的系统性失效,结合近期向“人类作为验证者”模型(特别是依赖模型介导标注)的架构转变,引入了根深蒂固的锚定偏见,并实质上将人类声音排除在循环之外。我们进一步论证了地理霸权如何将西方规范强加为普适基准,这通常通过不稳定数据工作者为规避经济惩罚而优先满足请求者合规性而非诚实表达主观性的表演性对齐得以强化。通过批判将文化多元性误诊为随机误差的“噪声传感器”谬误,我们主张将分歧重新视为构建具备文化胜任力模型所必需的高保真信号。为应对这些系统性张力,我们提出了一个多元化标注基础设施的路线图,其目标从发现单一的“正确”答案转向映射人类经验的多样性。

0
下载
关闭预览

相关内容

《不完全多标签学习综述:最新进展与未来趋势》
专知会员服务
26+阅读 · 2024年6月11日
《深度学习多标签学习》最新综述
专知会员服务
47+阅读 · 2024年1月31日
专知会员服务
101+阅读 · 2020年7月20日
数据标注研究综述,软件学报,19页pdf
专知会员服务
96+阅读 · 2020年2月20日
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
【推荐】伪标签学习导论 - 一种半监督学习方法
机器学习研究会
12+阅读 · 2017年10月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
4+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
9+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
10+阅读 · 4月22日
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员