Backtranslation Augmented Direct Preference Optimization for Neural Machine Translation - 专知论文

会员服务 ·

0

系统 · 机器翻译 · 神经机器翻译 · 后训练 · 偏好优化 ·

Backtranslation Augmented Direct Preference Optimization for Neural Machine Translation

翻译：回译增强的直接偏好优化神经机器翻译

Mehrdad Ghassabi,Spehr Rajabi,Hamidreza Baradaran Kashani,Sadra Hakim,Mahshid Keivandarian

from arxiv, 5 pages, 2 figures

Contemporary neural machine translation (NMT) systems are almost exclusively built by training on supervised parallel data. Despite the tremendous progress achieved, these systems still exhibit persistent translation errors. This paper proposes that a post-training paradigm based on reinforcement learning (RL) can effectively rectify such mistakes. We introduce a novel framework that requires only a general text corpus and an expert translator which can be either human or an AI system to provide iterative feedback. In our experiments, we focus specifically on English-to-German translation as a representative high-resource language pair. Crucially, we implement this RL-based post-training using Direct Preference Optimization (DPO). Applying our DPO-driven framework to the gemma3-1b model yields a significant improvement in translation quality, elevating it's COMET score from 0.703 to 0.747 on the English to German task. The results demonstrate that DPO offers an efficient and stable pathway for enhancing pre-trained NMT models through preference-based post-training.

翻译：当代神经机器翻译（NMT）系统几乎完全依赖监督平行数据训练构建。尽管取得了巨大进展，这些系统仍存在持续性的翻译错误。本文提出基于强化学习（RL）的后训练范式可有效纠正此类错误。我们提出一种新型框架，仅需通用文本语料库和可提供迭代反馈的专家翻译器（人类或AI系统均可）。在实验中，我们重点针对英语到德语这一代表性高资源语言对进行研究。关键之处在于，我们采用直接偏好优化（DPO）实现基于强化学习的后训练。将我们的DPO驱动框架应用于gemma3-1b模型后，翻译质量显著提升：在英德翻译任务中，该模型的COMET评分从0.703跃升至0.747。实验结果表明，DPO通过基于偏好的后训练，为增强预训练NMT模型提供了一条高效且稳定的途径。

0

相关内容

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

专知会员服务

13+阅读 · 2024年11月28日

预训练神经机器翻译研究进展分析

预训练神经机器翻译研究进展分析

专知会员服务

18+阅读 · 2024年7月25日

【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究

【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究

专知会员服务

19+阅读 · 2023年12月9日

神经机器翻译的域自适应综述论文，64页pdf

专知会员服务

17+阅读 · 2021年4月16日

最新《机器翻译》进展报告，纽约大学Kyunghyun Cho讲解，附50页ppt

专知会员服务

30+阅读 · 2021年1月25日

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

专知会员服务

19+阅读 · 2020年4月25日

【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT

【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT

专知会员服务

24+阅读 · 2020年3月28日

【Tom Kocmi博士论文】探讨迁移学习在神经机器翻译中的应用，Exploring Benefits of Transfer Learning in Neural Machine Translation

【Tom Kocmi博士论文】探讨迁移学习在神经机器翻译中的应用，Exploring Benefits of Transfer Learning in Neural Machine Translation

专知会员服务

10+阅读 · 2020年1月9日

【论文】多语言神经机器翻译综述（A Comprehensive Survey of Multilingual Neural Machine Translation）

【论文】多语言神经机器翻译综述（A Comprehensive Survey of Multilingual Neural Machine Translation）

专知会员服务

20+阅读 · 2020年1月7日

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

专知会员服务

37+阅读 · 2019年12月4日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

【综述】多语言神经机器翻译最新综述，附全文下载

【综述】多语言神经机器翻译最新综述，附全文下载

专知

32+阅读 · 2019年5月15日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

专知

15+阅读 · 2018年5月1日

清华大学：刘洋——基于深度学习的机器翻译

清华大学：刘洋——基于深度学习的机器翻译

人工智能学家

12+阅读 · 2017年11月13日

学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么

学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么

机器之心

10+阅读 · 2017年10月15日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

新智元

10+阅读 · 2017年4月2日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

Bdnf基因转录的表观遗传调控在重复经颅磁刺激恢复大鼠脑缺血后神经功能中的作用

国家自然科学基金

0+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Reward-SQL: Boosting Text-to-SQL via Stepwise Execution-Aware Reasoning and Process-Supervised Rewards

Arxiv

0+阅读 · 6月12日

Rewrite to Translate, Translate to Reward: Reinforcement Learning for Source Rewriting in Machine Translation

Arxiv

0+阅读 · 6月10日

Representation-Aware Advantage Estimation: Your Reward Model Provides More Than A Scalar Output

Arxiv

0+阅读 · 6月9日

Enhancing RL Generalizability in Robotics through SHAP Analysis of Algorithms and Hyperparameters

Enhancing RL Generalizability in Robotics through SHAP Analysis of Algorithms and Hyperparameters

Arxiv

0+阅读 · 5月4日

Kernelized Advantage Estimation: From Nonparametric Statistics to LLM Reasoning

Arxiv

0+阅读 · 4月30日

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

Arxiv

0+阅读 · 4月28日

Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own

Arxiv

0+阅读 · 4月23日

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

Arxiv

0+阅读 · 4月20日

Revisiting Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning

Arxiv

0+阅读 · 4月17日

A Survey of Domain Adaptation for Neural Machine Translation

Arxiv

18+阅读 · 2018年6月1日

VIP会员

文章信息

相关主题

神经机器翻译

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

2+阅读 · 今天11:43

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

2+阅读 · 今天11:41

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

5+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

5+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

6+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

6+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

7+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

7+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

7+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

5+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

7+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

10+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

9+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

9+阅读 · 6月24日

相关VIP内容

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

专知会员服务

13+阅读 · 2024年11月28日

预训练神经机器翻译研究进展分析

预训练神经机器翻译研究进展分析

专知会员服务

18+阅读 · 2024年7月25日

【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究

【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究

专知会员服务

19+阅读 · 2023年12月9日

神经机器翻译的域自适应综述论文，64页pdf

专知会员服务

17+阅读 · 2021年4月16日

最新《机器翻译》进展报告，纽约大学Kyunghyun Cho讲解，附50页ppt

专知会员服务

30+阅读 · 2021年1月25日

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

专知会员服务

19+阅读 · 2020年4月25日

【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT

【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT

专知会员服务

24+阅读 · 2020年3月28日

【Tom Kocmi博士论文】探讨迁移学习在神经机器翻译中的应用，Exploring Benefits of Transfer Learning in Neural Machine Translation

【Tom Kocmi博士论文】探讨迁移学习在神经机器翻译中的应用，Exploring Benefits of Transfer Learning in Neural Machine Translation

专知会员服务

10+阅读 · 2020年1月9日

【论文】多语言神经机器翻译综述（A Comprehensive Survey of Multilingual Neural Machine Translation）

【论文】多语言神经机器翻译综述（A Comprehensive Survey of Multilingual Neural Machine Translation）

专知会员服务

20+阅读 · 2020年1月7日

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

专知会员服务

37+阅读 · 2019年12月4日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

【综述】多语言神经机器翻译最新综述，附全文下载

【综述】多语言神经机器翻译最新综述，附全文下载

专知

32+阅读 · 2019年5月15日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

专知

15+阅读 · 2018年5月1日

清华大学：刘洋——基于深度学习的机器翻译

清华大学：刘洋——基于深度学习的机器翻译

人工智能学家

12+阅读 · 2017年11月13日

学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么

学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么

机器之心

10+阅读 · 2017年10月15日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

新智元

10+阅读 · 2017年4月2日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

相关论文

Reward-SQL: Boosting Text-to-SQL via Stepwise Execution-Aware Reasoning and Process-Supervised Rewards

Arxiv

0+阅读 · 6月12日

Rewrite to Translate, Translate to Reward: Reinforcement Learning for Source Rewriting in Machine Translation

Arxiv

0+阅读 · 6月10日

Representation-Aware Advantage Estimation: Your Reward Model Provides More Than A Scalar Output

Arxiv

0+阅读 · 6月9日

Enhancing RL Generalizability in Robotics through SHAP Analysis of Algorithms and Hyperparameters

Enhancing RL Generalizability in Robotics through SHAP Analysis of Algorithms and Hyperparameters

Arxiv

0+阅读 · 5月4日

Kernelized Advantage Estimation: From Nonparametric Statistics to LLM Reasoning

Arxiv

0+阅读 · 4月30日

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

Arxiv

0+阅读 · 4月28日

Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own

Arxiv

0+阅读 · 4月23日

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

Arxiv

0+阅读 · 4月20日

Revisiting Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning

Arxiv

0+阅读 · 4月17日

A Survey of Domain Adaptation for Neural Machine Translation

Arxiv

18+阅读 · 2018年6月1日

相关基金

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

Bdnf基因转录的表观遗传调控在重复经颅磁刺激恢复大鼠脑缺血后神经功能中的作用

国家自然科学基金

0+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员