Open-set learning and discovery (OSLD) is a challenging machine learning task in which samples from new (unknown) classes can appear at test time. It can be seen as a generalization of zero-shot learning, where the new classes are not known a priori, hence involving the active discovery of new classes. While zero-shot learning has been extensively studied in text classification, especially with the emergence of pre-trained language models, open-set learning and discovery is a comparatively new setup for the text domain. To this end, we introduce the first multilingual open-set learning and discovery (MOSLD) benchmark for text categorization by topic, comprising 960K data samples across 12 languages. To construct the benchmark, we (i) rearrange existing datasets and (ii) collect new data samples from the news domain. Moreover, we propose a novel framework for the OSLD task, which integrates multiple stages to continuously discover and learn new classes. We evaluate several language models, including our own, to obtain results that can be used as reference for future work. We release our benchmark at https://github.com/Adriana19Valentina/MOSLD-Bench.


翻译:开放集学习与发现(OSLD)是一项具有挑战性的机器学习任务,在该任务中,测试阶段可能出现来自新(未知)类别的样本。它可以被视为零样本学习的一种泛化形式,其中新类别并非先验已知,因此涉及对新类别的主动发现。尽管零样本学习在文本分类领域已得到广泛研究,尤其是在预训练语言模型兴起之后,但开放集学习与发现对于文本领域而言仍是一个相对较新的设定。为此,我们首次提出了一个面向主题文本分类的多语言开放集学习与发现(MOSLD)基准,该基准包含12种语言共计96万个数据样本。为构建此基准,我们(i)重组了现有数据集,并(ii)从新闻领域收集了新的数据样本。此外,我们针对OSLD任务提出了一种新颖的框架,该框架整合了多个阶段以持续发现和学习新类别。我们评估了包括我们自身模型在内的多种语言模型,以获得可作为未来工作参考的结果。我们的基准发布于 https://github.com/Adriana19Valentina/MOSLD-Bench。

0
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
新加坡南洋理工最新37页《零样本学习综述》论文
专知会员服务
114+阅读 · 2019年10月20日
元学习(Meta Learning)最全论文、视频、书籍资源整理
深度学习与NLP
22+阅读 · 2019年6月20日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员