Recent advances in large pre-trained language models (PLMs) lead to impressive gains in natural language understanding (NLU) tasks with task-specific fine-tuning. However, directly fine-tuning PLMs heavily relies on sufficient labeled training instances, which are usually hard to obtain. Prompt-based tuning on PLMs has shown to be powerful for various downstream few-shot tasks. Existing works studying prompt-based tuning for few-shot NLU tasks mainly focus on deriving proper label words with a verbalizer or generating prompt templates to elicit semantics from PLMs. In addition, conventional data augmentation strategies such as synonym substitution, though widely adopted in low-resource scenarios, only bring marginal improvements for prompt-based few-shot learning. Thus, an important research question arises: how to design effective data augmentation methods for prompt-based few-shot tuning? To this end, considering the label semantics are essential in prompt-based tuning, we propose a novel label-guided data augmentation framework PromptDA, which exploits the enriched label semantic information for data augmentation. Extensive experiment results on few-shot text classification tasks demonstrate the superior performance of the proposed framework by effectively leveraging label semantics and data augmentation for natural language understanding. Our code is available at https://github.com/canyuchen/PromptDA.


翻译:近年来,大规模预训练语言模型在自然语言理解任务中通过任务特定微调取得了显著进展。然而,直接微调预训练语言模型严重依赖充足的标注训练实例,而这在实际中往往难以获得。基于提示的预训练语言模型调优方法已被证明在各类下游少样本任务中具有强大能力。现有针对少样本自然语言理解任务的提示调优研究主要集中于通过言语器推导合适的标签词,或生成提示模板以从预训练语言模型中激发语义信息。此外,传统数据增强策略(如同义词替换)虽在低资源场景中被广泛采用,但仅为基于提示的少样本学习带来有限改进。因此,一个重要的研究问题浮现:如何为基于提示的少样本调优设计有效的数据增强方法?针对这一问题,考虑到标签语义在提示调优中的关键作用,我们提出了一种新颖的标签引导数据增强框架PromptDA,该框架利用增强的标签语义信息进行数据增强。在少样本文本分类任务上的大量实验结果表明,该框架通过有效结合标签语义与数据增强技术,在自然语言理解任务中展现出优越性能。我们的代码已开源至https://github.com/canyuchen/PromptDA。

0
下载
关闭预览

相关内容

小样本学习(Few-Shot Learning,以下简称 FSL )用于解决当可用的数据量比较少时,如何提升神经网络的性能。在 FSL 中,经常用到的一类方法被称为 Meta-learning。和普通的神经网络的训练方法一样,Meta-learning 也包含训练过程和测试过程,但是它的训练过程被称作 Meta-training 和 Meta-testing。
【CVPR2022】带噪声标签的少样本学习
专知会员服务
42+阅读 · 2022年4月15日
【CVPR 2022】视觉提示调整(VPT),Vision Prompt Tuning
专知会员服务
32+阅读 · 2022年3月12日
专知会员服务
33+阅读 · 2021年3月7日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
55+阅读 · 2020年2月18日
IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning
最新10篇对比学习推荐前沿工作
机器学习与推荐算法
2+阅读 · 2022年9月14日
NAACL 2022 | 基于Prompt的文本生成迁移学习
PaperWeekly
1+阅读 · 2022年8月31日
【KDD2022】GraphMAE:自监督掩码图自编码器
专知
7+阅读 · 2022年6月12日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
UNITER: Learning UNiversal Image-TExt Representations
Arxiv
23+阅读 · 2019年9月25日
VIP会员
最新内容
【剑桥博士论文】智能体-环境协同优化
专知会员服务
3+阅读 · 今天14:33
为初级军官战术训练设计生成式人工智能平台
专知会员服务
4+阅读 · 今天6:43
《美军条令:作战伤员后送保障》
专知会员服务
4+阅读 · 今天6:38
《美空军条令出版物 4-0,维持》
专知会员服务
4+阅读 · 今天6:32
《基于仿真的空军任务规划优化》
专知会员服务
3+阅读 · 今天6:21
相关资讯
IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning
最新10篇对比学习推荐前沿工作
机器学习与推荐算法
2+阅读 · 2022年9月14日
NAACL 2022 | 基于Prompt的文本生成迁移学习
PaperWeekly
1+阅读 · 2022年8月31日
【KDD2022】GraphMAE:自监督掩码图自编码器
专知
7+阅读 · 2022年6月12日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员