Can pre-trained BERT for one language and GPT for another be glued together to translate texts? Self-supervised training using only monolingual data has led to the success of pre-trained (masked) language models in many NLP tasks. However, directly connecting BERT as an encoder and GPT as a decoder can be challenging in machine translation, for GPT-like models lack a cross-attention component that is needed in seq2seq decoders. In this paper, we propose Graformer to graft separately pre-trained (masked) language models for machine translation. With monolingual data for pre-training and parallel data for grafting training, we maximally take advantage of the usage of both types of data. Experiments on 60 directions show that our method achieves average improvements of 5.8 BLEU in x2en and 2.9 BLEU in en2x directions comparing with the multilingual Transformer of the same size.


翻译:对于一种语言和另一种语言的GPT,经过预先培训的BERT能够粘合在一起翻译文本吗?仅使用单一语言数据的自我监督培训导致许多NLP任务中培训前(制成)语言模型的成功。然而,将BERT作为编码器和GPT作为解码器直接连接起来,在机器翻译方面可能具有挑战性,因为类似GPT的模型缺乏后继2Seq decoders所需要的交叉注意部分。在本文中,我们建议Graeder在机器翻译方面分别采用经过培训前(制成)语言模型。在培训前采用单一语言数据,在滚动培训中采用平行数据,我们最大限度地利用了这两种数据的使用。60个方向的实验表明,我们的方法在x2en中实现了5.8 BLEU的平均改进,在en2en中实现了2.9 BLEU值,在正2x方向上实现了与相同大小的多语言变换器相比的平均改进。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
326+阅读 · 2020年11月26日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
88+阅读 · 2020年9月6日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Github项目推荐 | awesome-bert:BERT相关资源大列表
AI研习社
27+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
VIP会员
最新内容
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
4+阅读 · 今天8:10
《军用自主人工智能系统的治理与安全》
专知会员服务
4+阅读 · 今天8:02
《系统簇式多域作战规划范畴论框架》
专知会员服务
7+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
3+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
7+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
6+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
5+阅读 · 4月20日
Top
微信扫码咨询专知VIP会员