Data annotation is essential for supervised learning, yet producing accurate, unbiased, and scalable labels remains challenging as datasets grow in size and modality. Traditional human-centric pipelines are costly, slow, and prone to annotator variability, motivating reliability-aware automated annotation. We present AURA (Agentic AI for Unified Reliability Modeling and Annotation Aggregation), an agentic AI framework for large-scale, multi-modal data annotation. AURA coordinates multiple AI agents to generate and validate labels without requiring ground truth. At its core, AURA adapts a classical probabilistic model that jointly infers latent true labels and annotator reliability via confusion matrices, using Expectation-Maximization to reconcile conflicting annotations and aggregate noisy predictions. Across the four benchmark datasets evaluated, AURA achieves accuracy improvements of up to 5.8% over baseline. In more challenging settings with poor quality annotators, the improvement is up to 50% over baseline. AURA also accurately estimates the reliability of annotators, allowing assessment of annotator quality even without any pre-validation steps.


翻译:数据标注对于监督学习至关重要,然而随着数据集规模和模态的增长,生成准确、无偏且可扩展的标签仍然具有挑战性。传统以人为中心的标注流程成本高昂、速度缓慢且易受标注者差异性的影响,这促使了面向可靠性的自动化标注方法的发展。本文提出AURA(用于统一可靠性建模与标注聚合的智能体人工智能框架),这是一个用于大规模多模态数据标注的智能体人工智能框架。AURA协调多个AI智能体来生成和验证标签,且无需依赖真实标注。其核心在于,AURA采用了一个经典的联合推断潜在真实标签与标注者可靠性的概率模型,该模型通过混淆矩阵,并利用期望最大化算法来调和冲突标注并聚合噪声预测。在评估的四个基准数据集上,AURA相比基线方法实现了高达5.8%的准确率提升。在标注者质量较差的更具挑战性的场景中,其提升幅度可达50%。AURA还能准确估计标注者的可靠性,从而无需任何预验证步骤即可评估标注者质量。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
谷歌《智能体Agent》白皮书,42页pdf
专知会员服务
108+阅读 · 2025年1月5日
生成式人工智能数据标注安全规范
专知会员服务
52+阅读 · 2024年4月10日
标签高效深度学习的医学图像分析:挑战与未来方向
专知会员服务
35+阅读 · 2023年4月3日
监督和半监督学习下的多标签分类综述
专知会员服务
46+阅读 · 2022年8月3日
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 1月22日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员