Deep learning models for natural language processing rely heavily on high-quality labeled datasets. However, existing labeling approaches often struggle to balance label quality with labeling cost. To address this challenge, we propose DALL, a text labeling framework that integrates data programming, active learning, and large language models. DALL introduces a structured specification that allows users and large language models to define labeling functions via configuration, rather than code. Active learning identifies informative instances for review, and the large language model analyzes these instances to help users correct labels and to refine or suggest labeling functions. We implement DALL as an interactive labeling system for text labeling tasks. Comparative, ablation, and usability studies demonstrate DALL's efficiency, the effectiveness of its modules, and its usability.


翻译:自然语言处理的深度学习模型高度依赖于高质量的标注数据集。然而,现有的标注方法往往难以在标注质量与标注成本之间取得平衡。为应对这一挑战,我们提出了DALL,一个融合了数据编程、主动学习与大语言模型的文本标注框架。DALL引入了一种结构化规范,允许用户和大语言模型通过配置而非编写代码来定义标注函数。主动学习识别出需要审核的信息丰富实例,大语言模型则分析这些实例,以协助用户修正标签,并优化或建议新的标注函数。我们将DALL实现为一个用于文本标注任务的交互式标注系统。对比实验、消融实验及可用性研究证明了DALL的高效性、其各模块的有效性以及良好的可用性。

0
下载
关闭预览

相关内容

【LoG2024报告】整合大型语言模型与图神经网络,62页ppt
专知会员服务
50+阅读 · 2024年12月1日
大语言模型训练数据
专知会员服务
71+阅读 · 2024年11月22日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
NLP不同任务Tensorflow深度学习模型大全
专知
10+阅读 · 2019年3月19日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿
中国人工智能学会
12+阅读 · 2018年11月15日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
【LoG2024报告】整合大型语言模型与图神经网络,62页ppt
专知会员服务
50+阅读 · 2024年12月1日
大语言模型训练数据
专知会员服务
71+阅读 · 2024年11月22日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
相关基金
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员