Supervised learning relies on data annotation which usually is time-consuming and therefore expensive. A longstanding strategy to reduce annotation costs is active learning, an iterative process, in which a human annotates only data instances deemed informative by a model. Research in active learning has made considerable progress, especially with the rise of large language models (LLMs). However, we still know little about how these remarkable advances have translated into real-world applications, or contributed to removing key barriers to active learning adoption. To fill in this gap, we conduct an online survey in the NLP community to collect previously intangible insights on current implementation practices, common obstacles in application, and future prospects in active learning. We also reassess the perceived relevance of data annotation and active learning as fundamental assumptions. Our findings show that data annotation is expected to remain important and active learning to stay relevant while benefiting from LLMs. Consistent with a community survey from over 15 years ago, three key challenges yet persist -- setup complexity, uncertain cost reduction, and tooling -- for which we propose alleviation strategies. We publish an anonymized version of the dataset.


翻译:监督学习依赖于数据标注,而数据标注通常耗时且成本高昂。为降低标注成本,一种长期采用的策略是主动学习——一种迭代过程,其中人工仅标注被模型判定为信息量大的数据实例。随着大语言模型(LLMs)的兴起,主动学习研究已取得显著进展。然而,我们对这些卓越进展如何转化为实际应用,或在多大程度上有助于消除主动学习采用的关键障碍,仍知之甚少。为填补这一空白,我们在自然语言处理社区开展了一项在线调查,以收集关于当前实施实践、应用中常见障碍以及主动学习未来前景等先前难以获取的见解。我们还重新评估了数据标注和主动学习作为基本假设的感知相关性。我们的研究结果表明,数据标注预计仍将保持其重要性,主动学习在受益于大语言模型的同时也将持续具有相关性。与15年前的一项社区调查结果一致,三个关键挑战依然存在——设置复杂性、不确定的成本降低以及工具支持——对此我们提出了相应的缓解策略。我们发布了该数据集的匿名版本。

0
下载
关闭预览

相关内容

【MIT博士论文】弱监督学习:理论、方法与应用
专知会员服务
33+阅读 · 2025年12月21日
《视觉Transformers自监督学习机制综述》
专知会员服务
29+阅读 · 2024年9月2日
基于主动学习的图像分类技术:现状与未来
专知会员服务
37+阅读 · 2024年1月8日
237页ppt《主动学习》最新概述,Stefano Teso讲授!
专知会员服务
66+阅读 · 2022年8月28日
【经典书】主动学习理论,226页pdf,Theory of Active Learning
专知会员服务
129+阅读 · 2021年7月14日
【AACL2020】自监督学习的自然语言处理
专知会员服务
52+阅读 · 2020年12月12日
西北大学等最新《深度主动学习》全面综述论文,30页pdf
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员