Neologism-aware machine translation aims to translate source sentences containing neologisms into target languages. This field remains underexplored compared with general machine translation (MT). In this paper, we propose an agentic framework, NeoAMT, for neologism-aware machine translation using a Wiktionary search tool. Specifically, we first create a new dataset for neologism-aware machine translation and develop a search tool based on Wiktionary. The new dataset covers 16 languages and 75 translation directions and is derived from approximately 10 million records of an English Wiktionary dump. The retrieval corpus of the search tool is also constructed from around 3 million cleaned records of the Wiktionary dump. We then use it for training the translation agent with reinforcement learning (RL) and evaluating the accuracy of neologism-aware machine translation. Based on this, we also propose an RL training framework that contains a novel reward design and an adaptive rollout generation approach by leveraging "translation difficulty" to further improve the translation quality of translation agents using our search tool.


翻译:新词感知机器翻译旨在将包含新词的源语句翻译为目标语言。与通用机器翻译相比,该领域的研究仍显不足。本文提出一种基于维基词典检索工具的智能框架NeoAMT,用于新词感知机器翻译。具体而言,我们首先构建了一个面向新词感知机器翻译的全新数据集,并开发了基于维基词典的检索工具。该数据集涵盖16种语言及75个翻译方向,源自约1000万条英文维基词典转储记录。检索工具的语料库亦由约300万条经过清洗的维基词典记录构建而成。我们随后利用该工具,通过强化学习训练翻译智能体,并评估新词感知机器翻译的准确率。在此基础上,我们进一步提出一种强化学习训练框架,该框架包含创新的奖励设计机制,以及通过量化“翻译难度”实现的自适应推演生成方法,以提升使用本检索工具的翻译智能体的译文质量。

0
下载
关闭预览

相关内容

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
文档级神经机器翻译综述
专知会员服务
13+阅读 · 2024年8月29日
【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究
专知会员服务
19+阅读 · 2023年12月9日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
机器翻译深度学习最新综述
专知会员服务
99+阅读 · 2020年2月20日
【干货书】机器学习导论第四版,903页pdf
专知
30+阅读 · 2022年11月26日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
清华大学:刘洋——基于深度学习的机器翻译
人工智能学家
12+阅读 · 2017年11月13日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员