Multilingual Bidirectional Unsupervised Translation Through Multilingual Finetuning and Back-Translation - 专知论文

会员服务 ·

0

单语数据 · 并行 · 无监督 · 神经机器翻译 · 微调 ·

2023 年 3 月 27 日

Multilingual Bidirectional Unsupervised Translation Through Multilingual Finetuning and Back-Translation

翻译：多语言双向无监督翻译：通过多语言微调与反向翻译

Bryan Li,Mohammad Sadegh Rasooli,Ajay Patel,Chris Callison-Burch

from arxiv, LoResMT @ EACL 2023

We propose a two-stage approach for training a single NMT model to translate unseen languages both to and from English. For the first stage, we initialize an encoder-decoder model to pretrained XLM-R and RoBERTa weights, then perform multilingual fine-tuning on parallel data in 40 languages to English. We find this model can generalize to zero-shot translations on unseen languages. For the second stage, we leverage this generalization ability to generate synthetic parallel data from monolingual datasets, then train with successive rounds of bidirectional back-translation. We term our approach EcXTra ({E}nglish-{c}entric Crosslingual ({X}) {Tra}nsfer). Our approach is conceptually simple, only using a standard cross-entropy objective throughout, and also is data-driven, sequentially leveraging auxiliary parallel data and monolingual data. We evaluate our unsupervised NMT results on 7 low-resource languages, and find that each round of back-translation training further refines bidirectional performance. Our final single EcXTra-trained model achieves competitive translation performance in all translation directions, notably establishing a new state-of-the-art for English-to-Kazakh (22.9 > 10.4 BLEU).

翻译：我们提出了一种两阶段方法，用于训练单个神经机器翻译（NMT）模型，使其能够将未见过的语言与英语进行双向翻译。第一阶段，我们初始化一个编码器-解码器模型，其权重基于预训练的XLM-R和RoBERTa，然后在40种语言到英语的平行数据上进行多语言微调。我们发现该模型能够泛化到未见语言的零样本翻译。第二阶段，我们利用这种泛化能力，从单语数据集中生成合成平行数据，随后通过连续轮次的双向反向翻译进行训练。我们将此方法命名为EcXTra（以英语为中心的跨语言迁移）。该方法概念上简洁，全程仅使用标准交叉熵目标函数，且为数据驱动，依次利用辅助平行数据和单语数据。我们在7种低资源语言上评估了无监督NMT结果，发现每轮反向翻译训练进一步优化了双向翻译性能。最终，单个EcXTra训练模型在所有翻译方向上均取得了具有竞争力的翻译表现，尤其在英语到哈萨克语方向上创造了新的最佳结果（BLEU值从10.4提升至22.9）。

0

相关内容

单语数据

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

预训练语言模型fine-tuning近期进展概述

预训练语言模型fine-tuning近期进展概述

专知会员服务

40+阅读 · 2021年4月9日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【Google】无监督机器翻译，Unsupervised Machine Translation

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

专知会员服务

79+阅读 · 2019年12月29日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning

IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning

PaperWeekly

3+阅读 · 2022年9月21日

ACL 2022 | 序列标注的小样本NER：融合标签语义的双塔BERT模型

ACL 2022 | 序列标注的小样本NER：融合标签语义的双塔BERT模型

PaperWeekly

0+阅读 · 2022年7月6日

NAACL 2022 | FACTPEGASUS：抽象摘要的真实性感知预训练和微调

NAACL 2022 | FACTPEGASUS：抽象摘要的真实性感知预训练和微调

PaperWeekly

0+阅读 · 2022年6月1日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

32+阅读 · 2019年3月30日

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

AINLP

10+阅读 · 2019年2月9日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

染色质重构蛋白CHR5在拟南芥抗病免疫反应中的功能研究

国家自然科学基金

0+阅读 · 2015年12月31日

利用同步辐射X射线磁性圆二色和中子衍射研究MnxFe2-x(P,Si)化合物的结构与磁性

国家自然科学基金

0+阅读 · 2014年12月31日

ZmAUX1基因调控玉米穗行数形成的遗传网络解析

国家自然科学基金

0+阅读 · 2014年12月31日

基于电路QED超强耦合机制的动力学演化和量子调控

国家自然科学基金

0+阅读 · 2013年12月31日

大豆抗镉和籽粒低积累的分子机理解析

国家自然科学基金

0+阅读 · 2012年12月31日

集成滤波功能的功率分配/合成电路研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于里德堡原子偶极阻塞效应的量子比特操控

国家自然科学基金

0+阅读 · 2012年12月31日

多比特量子门的实现和量子信息处理

国家自然科学基金

0+阅读 · 2011年12月31日

一个拟南芥MYB相关蛋白在干旱等逆境信号转导中的作用初探

国家自然科学基金

0+阅读 · 2011年12月31日

玻色-爱因斯坦凝聚中集体激发的Landau阻尼和频移

国家自然科学基金

0+阅读 · 2008年12月31日

The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation

Arxiv

0+阅读 · 2023年5月16日

Soft Prompt Decoding for Multilingual Dense Retrieval

Arxiv

0+阅读 · 2023年5月15日

Back Translation for Speech-to-text Translation Without Transcripts

Arxiv

0+阅读 · 2023年5月15日

MultiTACRED: A Multilingual Version of the TAC Relation Extraction Dataset

Arxiv

0+阅读 · 2023年5月15日

Causes and Cures for Interference in Multilingual Translation

Arxiv

0+阅读 · 2023年5月15日

A Comprehensive Analysis of Adapter Efficiency

Arxiv

0+阅读 · 2023年5月12日

Improving Cascaded Unsupervised Speech Translation with Denoising Back-translation

Arxiv

0+阅读 · 2023年5月12日

Improving Zero-shot Multilingual Neural Machine Translation by Leveraging Cross-lingual Consistency Regularization

Arxiv

0+阅读 · 2023年5月12日

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Arxiv

12+阅读 · 2020年6月23日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

VIP会员

文章信息

相关主题

神经机器翻译

最新内容

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

9+阅读 · 今天10:44

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

5+阅读 · 今天10:12

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

6+阅读 · 今天9:56

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

5+阅读 · 今天10:09

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

5+阅读 · 今天9:53

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

4+阅读 · 今天9:51

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

4+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

4+阅读 · 6月14日

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

9+阅读 · 6月14日

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

9+阅读 · 6月14日

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

专知会员服务

12+阅读 · 6月14日

《无人水面艇文献综述与结构设计》135页

《无人水面艇文献综述与结构设计》135页

专知会员服务

13+阅读 · 6月13日

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

专知会员服务

11+阅读 · 6月13日

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

专知会员服务

2+阅读 · 6月13日

智能体时间序列系统全景综述：架构、可靠性与研究前沿

智能体时间序列系统全景综述：架构、可靠性与研究前沿

专知会员服务

11+阅读 · 6月13日

相关VIP内容

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

【Hugging Face】使用自定义数据集微调语义分割模型，Fine-Tune a Semantic Segmentation Model with a Custom Dataset

专知会员服务

21+阅读 · 2022年3月18日

预训练语言模型fine-tuning近期进展概述

预训练语言模型fine-tuning近期进展概述

专知会员服务

40+阅读 · 2021年4月9日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【Google】无监督机器翻译，Unsupervised Machine Translation

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

专知会员服务

79+阅读 · 2019年12月29日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

消耗优势：美军的“精确规模化”概念

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

相关资讯

IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning

IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning

PaperWeekly

3+阅读 · 2022年9月21日

ACL 2022 | 序列标注的小样本NER：融合标签语义的双塔BERT模型

ACL 2022 | 序列标注的小样本NER：融合标签语义的双塔BERT模型

PaperWeekly

0+阅读 · 2022年7月6日

NAACL 2022 | FACTPEGASUS：抽象摘要的真实性感知预训练和微调

NAACL 2022 | FACTPEGASUS：抽象摘要的真实性感知预训练和微调

PaperWeekly

0+阅读 · 2022年6月1日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

32+阅读 · 2019年3月30日

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

AINLP

10+阅读 · 2019年2月9日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

相关论文

The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation

Arxiv

0+阅读 · 2023年5月16日

Soft Prompt Decoding for Multilingual Dense Retrieval

Arxiv

0+阅读 · 2023年5月15日

Back Translation for Speech-to-text Translation Without Transcripts

Arxiv

0+阅读 · 2023年5月15日

MultiTACRED: A Multilingual Version of the TAC Relation Extraction Dataset

Arxiv

0+阅读 · 2023年5月15日

Causes and Cures for Interference in Multilingual Translation

Arxiv

0+阅读 · 2023年5月15日

A Comprehensive Analysis of Adapter Efficiency

Arxiv

0+阅读 · 2023年5月12日

Improving Cascaded Unsupervised Speech Translation with Denoising Back-translation

Arxiv

0+阅读 · 2023年5月12日

Improving Zero-shot Multilingual Neural Machine Translation by Leveraging Cross-lingual Consistency Regularization

Arxiv

0+阅读 · 2023年5月12日

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Arxiv

12+阅读 · 2020年6月23日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

相关基金

染色质重构蛋白CHR5在拟南芥抗病免疫反应中的功能研究

国家自然科学基金

0+阅读 · 2015年12月31日

利用同步辐射X射线磁性圆二色和中子衍射研究MnxFe2-x(P,Si)化合物的结构与磁性

国家自然科学基金

0+阅读 · 2014年12月31日

ZmAUX1基因调控玉米穗行数形成的遗传网络解析

国家自然科学基金

0+阅读 · 2014年12月31日

基于电路QED超强耦合机制的动力学演化和量子调控

国家自然科学基金

0+阅读 · 2013年12月31日

大豆抗镉和籽粒低积累的分子机理解析

国家自然科学基金

0+阅读 · 2012年12月31日

集成滤波功能的功率分配/合成电路研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于里德堡原子偶极阻塞效应的量子比特操控

国家自然科学基金

0+阅读 · 2012年12月31日

多比特量子门的实现和量子信息处理

国家自然科学基金

0+阅读 · 2011年12月31日

一个拟南芥MYB相关蛋白在干旱等逆境信号转导中的作用初探

国家自然科学基金

0+阅读 · 2011年12月31日

玻色-爱因斯坦凝聚中集体激发的Landau阻尼和频移

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员