Multilingual Bidirectional Unsupervised Translation Through Multilingual Finetuning and Back-Translation - 专知论文

会员服务 ·

0

单语数据 · 无监督 · NMT · 微调 · 监督 ·

2023 年 4 月 3 日

Multilingual Bidirectional Unsupervised Translation Through Multilingual Finetuning and Back-Translation

翻译：多语言双向无监督翻译：通过多语言微调与回译

Bryan Li,Mohammad Sadegh Rasooli,Ajay Patel,Chris Callison-Burch

from arxiv, LoResMT @ EACL 2023

We propose a two-stage approach for training a single NMT model to translate unseen languages both to and from English. For the first stage, we initialize an encoder-decoder model to pretrained XLM-R and RoBERTa weights, then perform multilingual fine-tuning on parallel data in 40 languages to English. We find this model can generalize to zero-shot translations on unseen languages. For the second stage, we leverage this generalization ability to generate synthetic parallel data from monolingual datasets, then bidirectionally train with successive rounds of back-translation. Our approach, which we EcXTra (English-centric Crosslingual (X) Transfer), is conceptually simple, only using a standard cross-entropy objective throughout. It is also data-driven, sequentially leveraging auxiliary parallel data and monolingual data. We evaluate unsupervised NMT results for 7 low-resource languages, and find that each round of back-translation training further refines bidirectional performance. Our final single EcXTra-trained model achieves competitive translation performance in all translation directions, notably establishing a new state-of-the-art for English-to-Kazakh (22.9 > 10.4 BLEU). Our code is available at https://github.com/manestay/EcXTra .

翻译：我们提出了一种两阶段方法，用于训练单一NMT模型实现未知语言与英语之间的双向翻译。第一阶段，我们使用预训练的XLM-R和RoBERTa权重初始化编码器-解码器模型，然后在包含40种语言到英语的平行数据上进行多语言微调。研究发现该模型能够泛化至未知语言的零样本翻译任务。第二阶段，我们利用这种泛化能力从单语数据集中生成合成平行数据，随后通过连续多轮回译进行双向训练。我们提出的方法名为EcXTra（以英语为中心的跨语言迁移），其概念简洁，全程仅使用标准交叉熵目标函数；同时具备数据驱动特性，可依次利用辅助平行数据和单语数据。我们在7种低资源语言上评估了无监督NMT结果，发现每轮回译训练均能进一步提升双向翻译性能。最终单一EcXTra训练模型在所有翻译方向上均取得了有竞争力的性能，尤其在英语-哈萨克语方向上以22.9 > 10.4 BLEU值创下新纪录。代码已开源至https://github.com/manestay/EcXTra。

0

相关内容

单语数据

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

17+阅读 · 2021年8月13日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知会员服务

32+阅读 · 2020年3月30日

【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT

【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT

专知会员服务

24+阅读 · 2020年3月28日

【Google】无监督机器翻译，Unsupervised Machine Translation

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

【KDD2019教程】从浅层到深层的语言表达:预训练、微调，等等，From Shallow to Deep Language Representations: Pre-training, Fine-tuning, and Beyond

【KDD2019教程】从浅层到深层的语言表达:预训练、微调，等等，From Shallow to Deep Language Representations: Pre-training, Fine-tuning, and Beyond

专知会员服务

16+阅读 · 2019年11月4日

ACL 2022 | 序列标注的小样本NER：融合标签语义的双塔BERT模型

ACL 2022 | 序列标注的小样本NER：融合标签语义的双塔BERT模型

PaperWeekly

0+阅读 · 2022年7月6日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

ACL 2019 | 多语言BERT的语言表征探索

ACL 2019 | 多语言BERT的语言表征探索

AI科技评论

21+阅读 · 2019年9月6日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

NLP - 基于 BERT 的中文命名实体识别（NER)

NLP - 基于 BERT 的中文命名实体识别（NER)

AINLP

466+阅读 · 2019年2月10日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

NLP预训练模型大集合！

NLP预训练模型大集合！

全球人工智能

31+阅读 · 2018年12月29日

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

谷歌开发者

16+阅读 · 2018年11月6日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

无监督分词及词性归纳联合方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

有理映射的参数空间

国家自然科学基金

0+阅读 · 2013年12月31日

基于Wiki资源的中英文跨语言本体知识库构建

国家自然科学基金

1+阅读 · 2012年12月31日

杜仲种子α-亚麻酸合成及高效积累的分子机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于语言理解的机器翻译译文自动评价方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

超声介导靶向微泡携带Foxp3 siRNA特异性抑制Treg细胞增强抗肿瘤免疫研究

国家自然科学基金

0+阅读 · 2011年12月31日

碳纳米管/泡沫炭复合材料制备、结构及增强机理

国家自然科学基金

0+阅读 · 2011年12月31日

基于循证医学本体论的临床元数据语言研究

国家自然科学基金

1+阅读 · 2009年12月31日

纳米氢氧化镁晶体微观结构及分子模拟研究

国家自然科学基金

0+阅读 · 2009年12月31日

Masked Path Modeling for Vision-and-Language Navigation

Arxiv

0+阅读 · 2023年5月23日

Active Learning Principles for In-Context Learning with Large Language Models

Arxiv

0+阅读 · 2023年5月23日

In-context Example Selection for Machine Translation Using Multiple Features

Arxiv

0+阅读 · 2023年5月23日

Cross-modality Data Augmentation for End-to-End Sign Language Translation

Arxiv

0+阅读 · 2023年5月22日

Gloss-Free End-to-End Sign Language Translation

Arxiv

0+阅读 · 2023年5月22日

Laughter Synthesis using Pseudo Phonetic Tokens with a Large-scale In-the-wild Laughter Corpus

Arxiv

0+阅读 · 2023年5月21日

VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning

Arxiv

0+阅读 · 2023年5月19日

Viewing Knowledge Transfer in Multilingual Machine Translation Through a Representational Lens

Arxiv

0+阅读 · 2023年5月19日

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Arxiv

12+阅读 · 2019年9月26日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 51分钟前

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

17+阅读 · 2021年8月13日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知会员服务

32+阅读 · 2020年3月30日

【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT

【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT

专知会员服务

24+阅读 · 2020年3月28日

【Google】无监督机器翻译，Unsupervised Machine Translation

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

【KDD2019教程】从浅层到深层的语言表达:预训练、微调，等等，From Shallow to Deep Language Representations: Pre-training, Fine-tuning, and Beyond

【KDD2019教程】从浅层到深层的语言表达:预训练、微调，等等，From Shallow to Deep Language Representations: Pre-training, Fine-tuning, and Beyond

专知会员服务

16+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

ACL 2022 | 序列标注的小样本NER：融合标签语义的双塔BERT模型

ACL 2022 | 序列标注的小样本NER：融合标签语义的双塔BERT模型

PaperWeekly

0+阅读 · 2022年7月6日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

ACL 2019 | 多语言BERT的语言表征探索

ACL 2019 | 多语言BERT的语言表征探索

AI科技评论

21+阅读 · 2019年9月6日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

NLP - 基于 BERT 的中文命名实体识别（NER)

NLP - 基于 BERT 的中文命名实体识别（NER)

AINLP

466+阅读 · 2019年2月10日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

NLP预训练模型大集合！

NLP预训练模型大集合！

全球人工智能

31+阅读 · 2018年12月29日

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

谷歌开发者

16+阅读 · 2018年11月6日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

相关论文

Masked Path Modeling for Vision-and-Language Navigation

Arxiv

0+阅读 · 2023年5月23日

Active Learning Principles for In-Context Learning with Large Language Models

Arxiv

0+阅读 · 2023年5月23日

In-context Example Selection for Machine Translation Using Multiple Features

Arxiv

0+阅读 · 2023年5月23日

Cross-modality Data Augmentation for End-to-End Sign Language Translation

Arxiv

0+阅读 · 2023年5月22日

Gloss-Free End-to-End Sign Language Translation

Arxiv

0+阅读 · 2023年5月22日

Laughter Synthesis using Pseudo Phonetic Tokens with a Large-scale In-the-wild Laughter Corpus

Arxiv

0+阅读 · 2023年5月21日

VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning

Arxiv

0+阅读 · 2023年5月19日

Viewing Knowledge Transfer in Multilingual Machine Translation Through a Representational Lens

Arxiv

0+阅读 · 2023年5月19日

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Representation Learning with Ordered Relation Paths for Knowledge Graph Completion

Arxiv

12+阅读 · 2019年9月26日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

相关基金

无监督分词及词性归纳联合方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

有理映射的参数空间

国家自然科学基金

0+阅读 · 2013年12月31日

基于Wiki资源的中英文跨语言本体知识库构建

国家自然科学基金

1+阅读 · 2012年12月31日

杜仲种子α-亚麻酸合成及高效积累的分子机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于语言理解的机器翻译译文自动评价方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

超声介导靶向微泡携带Foxp3 siRNA特异性抑制Treg细胞增强抗肿瘤免疫研究

国家自然科学基金

0+阅读 · 2011年12月31日

碳纳米管/泡沫炭复合材料制备、结构及增强机理

国家自然科学基金

0+阅读 · 2011年12月31日

基于循证医学本体论的临床元数据语言研究

国家自然科学基金

1+阅读 · 2009年12月31日

纳米氢氧化镁晶体微观结构及分子模拟研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员