在NLP中,“域内数据”的概念常常过于简单和模糊,因为文本数据在许多细微的语言方面存在差异,比如主题、风格或正式程度。此外,域标签很多时候是不可用的,这使得构建特定于域的系统变得很困难。我们证明了大量的预先训练的语言模型隐式地学习句子表示,这些句子表示在没有监督的情况下由域进行聚类——这表明文本数据中域的简单数据驱动定义。我们利用这一特性,提出了基于这些模型的域数据选择方法,这些方法只需要少量的域内单语数据。我们评估了我们的神经机器翻译的数据选择方法在五个不同的领域,在这些领域中,它们的表现优于现有的方法,包括BLEU和句子选择的精确度以及对oracle的召回率。

成为VIP会员查看完整内容
24

相关内容

【ACL2020】多模态信息抽取,365页ppt
专知会员服务
151+阅读 · 2020年7月6日
【ACL2020】利用模拟退火实现无监督复述
专知会员服务
14+阅读 · 2020年5月26日
【ACL2020-Google】逆向工程配置的神经文本生成模型
专知会员服务
17+阅读 · 2020年4月20日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
34+阅读 · 2020年4月5日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
26+阅读 · 2019年9月11日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
ELMo的朋友圈:预训练语言模型真的一枝独秀吗?
Neural Module Networks for Reasoning over Text
Arxiv
9+阅读 · 2019年12月10日
VIP会员
相关VIP内容
相关资讯
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
26+阅读 · 2019年9月11日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
ELMo的朋友圈:预训练语言模型真的一枝独秀吗?
微信扫码咨询专知VIP会员