Mined bitexts can contain imperfect translations that yield unreliable training signals for Neural Machine Translation (NMT). While filtering such pairs out is known to improve final model quality, we argue that it is suboptimal in low-resource conditions where even mined data can be limited. In our work, we propose instead, to refine the mined bitexts via automatic editing: given a sentence in a language xf, and a possibly imperfect translation of it xe, our model generates a revised version xf' or xe' that yields a more equivalent translation pair (i.e., <xf, xe'> or <xf', xe>). We use a simple editing strategy by (1) mining potentially imperfect translations for each sentence in a given bitext, (2) learning a model to reconstruct the original translations and translate, in a multi-task fashion. Experiments demonstrate that our approach successfully improves the quality of CCMatrix mined bitext for 5 low-resource language-pairs and 10 translation directions by up to ~ 8 BLEU points, in most cases improving upon a competitive back-translation baseline.


翻译:被开采的位元体可以包含不完善的翻译,为神经机器翻译(NMT)产生不可靠的培训信号。 虽然过滤这些配对可以提高最终模型质量,但我们认为,在低资源条件下,即使雷区数据也受到限制,这是不理想的。 在我们的工作中,我们提议通过自动编辑来改进被开采的位元体:用一种语言xf给一个句子,并且可能不完美的翻译 xe,我们的模型产生一个修订版 xf 或 xe,产生一个更等效的翻译配对(即 < xf, xe 或 < xf', xe )。 我们使用简单的编辑战略, (1) 在给定的位数中挖掘每个句子的潜在不完善的翻译, (2) 学习一个模型来重建原始翻译,并以多种方式翻译。 实验表明,我们的方法成功地提高了5种低资源语言版面和10个翻译方向的CMatrix比特的质量, 最高可达~ 8 BLEU 点。

0
下载
关闭预览

相关内容

机器翻译(Machine Translation)涵盖计算语言学和语言工程的所有分支,包含多语言方面。特色论文涵盖理论,描述或计算方面的任何下列主题:双语和多语语料库的编写和使用,计算机辅助语言教学,非罗马字符集的计算含义,连接主义翻译方法,对比语言学等。 官网地址:http://dblp.uni-trier.de/db/journals/mt/
【杜克-Bhuwan Dhingra】语言模型即知识图谱,46页ppt
专知会员服务
67+阅读 · 2021年11月15日
专知会员服务
124+阅读 · 2020年9月8日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
MIT新书《强化学习与最优控制》
专知会员服务
282+阅读 · 2019年10月9日
【资源】文本风格迁移相关资源汇总
专知
13+阅读 · 2020年7月11日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
现代IM系统中的消息系统架构 - 架构篇
云栖社区
4+阅读 · 2019年4月16日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
8+阅读 · 2018年1月30日
VIP会员
最新内容
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
5+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
8+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
6+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
13+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
9+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
4+阅读 · 4月24日
相关资讯
【资源】文本风格迁移相关资源汇总
专知
13+阅读 · 2020年7月11日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
现代IM系统中的消息系统架构 - 架构篇
云栖社区
4+阅读 · 2019年4月16日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
Top
微信扫码咨询专知VIP会员