Large language models have significantly advanced Multilingual Machine Translation (MMT), yet the broad language coverage, consistent translation quality, and English-centric bias remain open challenges. To address these challenges, we introduce \textbf{LMT}, a suite of \textbf{L}arge-scale \textbf{M}ultilingual \textbf{T}ranslation models centered on both Chinese and English, covering 60 languages and 234 translation directions. During development, we identify a previously overlooked phenomenon of \textbf{directional degeneration}, where symmetric multi-way fine-tuning data overemphasize reverse directions (X $\to$ En/Zh), leading to excessive many-to-one mappings and degraded translation quality. We propose \textbf{Strategic Downsampling}, a simple yet effective method to mitigate this degeneration. In addition, we design \textbf{Parallel Multilingual Prompting (PMP)}, which leverages typologically related auxiliary languages to enhance cross-lingual transfer. Through rigorous data curation and refined adaptation strategies, LMT achieves SOTA performance among models of comparable language coverage, with our 4B model (LMT-60-4B) surpassing the much larger Aya-101-13B and NLLB-54B models by a substantial margin. We release LMT in four sizes (0.6B/1.7B/4B/8B) to catalyze future research and provide strong baselines for inclusive, scalable, and high-quality MMT \footnote{\href{https://github.com/NiuTrans/LMT}{https://github.com/NiuTrans/LMT}}.


翻译:大语言模型显著推动了多语言机器翻译(MMT)的发展,然而广泛的语言覆盖、一致的翻译质量以及以英语为中心的偏见仍然是亟待解决的挑战。为应对这些挑战,我们引入了 **LMT**,一套以中文和英文为中心的大规模多语言翻译模型,覆盖 60 种语言和 234 个翻译方向。在开发过程中,我们发现了一个先前被忽视的 **方向性退化** 现象,即对称的多向微调数据过度强调反向翻译方向(X → En/Zh),导致过多的多对一映射并降低翻译质量。我们提出了 **策略性下采样**,一种简单而有效的方法来缓解这种退化。此外,我们设计了 **并行多语言提示**,该方法利用类型学上相关的辅助语言来增强跨语言迁移。通过严格的数据筛选和精细的适应策略,LMT 在具有可比语言覆盖范围的模型中实现了最先进的性能,其中我们的 40 亿参数模型(LMT-60-4B)显著超越了规模大得多的 Aya-101-13B 和 NLLB-54B 模型。我们发布了四种规模的 LMT(0.6B/1.7B/4B/8B),以促进未来研究,并为包容性、可扩展性和高质量的多语言机器翻译提供强有力的基线。

0
下载
关闭预览

相关内容

OpenAI GPT 4.5 报告 (中英文版)
专知会员服务
40+阅读 · 2025年3月1日
预知未来——Gluon 时间序列工具包(GluonTS)
ApacheMXNet
24+阅读 · 2019年6月25日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员