Large Language Models (LLMs) are effective for data augmentation in classification tasks like intent detection. In some cases, they inadvertently produce examples that are ambiguous with regard to untargeted classes. We present DDAIR (Disambiguated Data Augmentation for Intent Recognition) to mitigate this problem. We use Sentence Transformers to detect ambiguous class-guided augmented examples generated by LLMs for intent recognition in low-resource scenarios. We identify synthetic examples that are semantically more similar to another intent than to their target one. We also provide an iterative re-generation method to mitigate such ambiguities. Our findings show that sentence embeddings effectively help to (re)generate less ambiguous examples, and suggest promising potential to improve classification performance in scenarios where intents are loosely or broadly defined.


翻译:大型语言模型(LLM)在意图检测等分类任务的数据增强方面表现优异。然而在某些情况下,这些模型会无意中生成与非目标类别存在歧义的样本。本文提出DDAIR(基于消歧的意图识别数据增强方法)以缓解该问题。在低资源场景的意图识别任务中,我们采用Sentence Transformers检测由LLM生成的、存在类别导向歧义的增强样本。我们识别出那些在语义上更接近其他意图而非其目标意图的合成样本。同时,我们提出一种迭代式再生方法以消除此类歧义。实验结果表明,句子嵌入技术能有效辅助(再)生成歧义性较低的样本,并在意图定义较为宽泛的场景中展现出提升分类性能的潜力。

0
下载
关闭预览

相关内容

定制化大型语言模型的图检索增强生成综述
专知会员服务
37+阅读 · 2025年1月28日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
探究检索增强下的大模型知识边界
专知会员服务
56+阅读 · 2023年7月25日
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员