Scaling Model and Data for Multilingual Machine Translation with Open Large Language Models - 专知论文

会员服务 ·

0

机器翻译 · 多语言机器翻译 · 语言模型 · 扩展研究 · Gemma ·

Scaling Model and Data for Multilingual Machine Translation with Open Large Language Models

翻译：面向开放大语言模型的多语言机器翻译的模型与数据扩展研究

Yuzhe Shang,Pengzhi Gao,Wei Liu,Jian Luan,Jinsong Su

Open large language models (LLMs) have demonstrated improving multilingual capabilities in recent years. In this paper, we present a study of open LLMs for multilingual machine translation (MT) across a range of languages, and investigate the effects of model scaling and data scaling when adapting open LLMs to multilingual MT through continual pretraining and instruction finetuning. Based on the Gemma3 model family, we develop MiLMMT-46, which achieves top-tier multilingual translation performance across 46 languages. Extensive experiments show that MiLMMT-46 consistently outperforms recent state-of-the-art (SOTA) models, including Seed-X, HY-MT-1.5, and TranslateGemma, and achieves competitive performance with strong proprietary systems such as Google Translate and Gemini 3 Pro.

翻译：近年来，开放大语言模型（LLMs）在多语言能力方面持续展现出进步。本文针对一系列语言，研究了开放大语言模型在多语言机器翻译（MT）中的应用，并通过持续预训练和指令微调，探讨了将开放大语言模型适配于多语言机器翻译任务时，模型扩展与数据扩展所产生的影响。基于Gemma3模型家族，我们开发了MiLMMT-46，该模型在46种语言上实现了顶尖的多语言翻译性能。大量实验表明，MiLMMT-46在性能上持续超越近期最先进的模型，包括Seed-X、HY-MT-1.5和TranslateGemma，并与Google Translate、Gemini 3 Pro等强大的专有系统取得了具有竞争力的性能。

0

相关内容

机器翻译

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

多机器人系统的大型语言模型：综述

多机器人系统的大型语言模型：综述

专知会员服务

33+阅读 · 2025年2月7日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

多模态大语言模型研究进展！

多模态大语言模型研究进展！

专知会员服务

43+阅读 · 2024年7月15日

数据与多模态大型语言模型的协同作用综述

数据与多模态大型语言模型的协同作用综述

专知会员服务

59+阅读 · 2024年7月13日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

79+阅读 · 2024年1月10日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

大语言模型简明指南

大语言模型简明指南

专知会员服务

143+阅读 · 2023年7月29日

《大型语言模型》最新全面概述

《大型语言模型》最新全面概述

专知会员服务

111+阅读 · 2023年7月14日

大模型如何领域适配？埃默里大学等首篇《大型语言模型领域专业化》综述，42页pdf详述大模型领域垂直化技术

大模型如何领域适配？埃默里大学等首篇《大型语言模型领域专业化》综述，42页pdf详述大模型领域垂直化技术

专知会员服务

219+阅读 · 2023年6月8日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【综述】多语言神经机器翻译最新综述，附全文下载

【综述】多语言神经机器翻译最新综述，附全文下载

专知

32+阅读 · 2019年5月15日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

专知

15+阅读 · 2018年5月1日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

软件定义开放光接入网理论模型和控制机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

面向实时复杂数据的信息扩散模型和分析算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

From Slides to Chatbots: Enhancing Large Language Models with University Course Materials

From Slides to Chatbots: Enhancing Large Language Models with University Course Materials

Arxiv

0+阅读 · 3月18日

Large Language Models as Annotators for Machine Translation Quality Estimation

Arxiv

0+阅读 · 3月11日

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Arxiv

0+阅读 · 3月10日

Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation

Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月19日

LLM-Powered Automatic Translation and Urgency in Crisis Scenarios

Arxiv

0+阅读 · 2月13日

Advances in LLMs with Focus on Reasoning, Adaptability, Efficiency and Ethics

Arxiv

0+阅读 · 2月11日

Challenges and Research Directions for Large Language Model Inference Hardware

Arxiv

0+阅读 · 2月6日

Consensus-Aligned Neuron Efficient Fine-Tuning Large Language Models for Multi-Domain Machine Translation

Arxiv

0+阅读 · 2月5日

Transport and Merge: Cross-Architecture Merging for Large Language Models

Arxiv

0+阅读 · 2月5日

An Empirical Study of Collective Behaviors and Social Dynamics in Large Language Model Agents

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

多语言机器翻译

最新内容

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

3+阅读 · 6月3日

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

3+阅读 · 6月3日

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

8+阅读 · 6月3日

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

专知会员服务

13+阅读 · 6月3日

《发展用于决策支持的化生放核（CBRN）态势理解》

《发展用于决策支持的化生放核（CBRN）态势理解》

专知会员服务

7+阅读 · 6月3日

《通往人工通用智能之路上的均衡策略》

《通往人工通用智能之路上的均衡策略》

专知会员服务

6+阅读 · 6月3日

《人工智能与军事整合：现状与未来风险》报告

《人工智能与军事整合：现状与未来风险》报告

专知会员服务

4+阅读 · 6月3日

《Palantir的科技生态系统》

《Palantir的科技生态系统》

专知会员服务

17+阅读 · 6月2日

《脑机接口：拓展神经前沿及其战略意涵》最新报告

《脑机接口：拓展神经前沿及其战略意涵》最新报告

专知会员服务

9+阅读 · 6月2日

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

专知会员服务

22+阅读 · 6月2日

《反无人机系统传感器融合》90页报告

《反无人机系统传感器融合》90页报告

专知会员服务

19+阅读 · 6月2日

运用人工智能与卫星通信驱散“战争迷雾”

运用人工智能与卫星通信驱散“战争迷雾”

专知会员服务

8+阅读 · 6月2日

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

专知会员服务

9+阅读 · 6月2日

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

17+阅读 · 6月2日

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

专知会员服务

9+阅读 · 6月1日

相关VIP内容

多机器人系统的大型语言模型：综述

多机器人系统的大型语言模型：综述

专知会员服务

33+阅读 · 2025年2月7日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

多模态大语言模型研究进展！

多模态大语言模型研究进展！

专知会员服务

43+阅读 · 2024年7月15日

数据与多模态大型语言模型的协同作用综述

数据与多模态大型语言模型的协同作用综述

专知会员服务

59+阅读 · 2024年7月13日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

79+阅读 · 2024年1月10日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

大语言模型简明指南

大语言模型简明指南

专知会员服务

143+阅读 · 2023年7月29日

《大型语言模型》最新全面概述

《大型语言模型》最新全面概述

专知会员服务

111+阅读 · 2023年7月14日

大模型如何领域适配？埃默里大学等首篇《大型语言模型领域专业化》综述，42页pdf详述大模型领域垂直化技术

大模型如何领域适配？埃默里大学等首篇《大型语言模型领域专业化》综述，42页pdf详述大模型领域垂直化技术

专知会员服务

219+阅读 · 2023年6月8日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

【博士论文】抽象信息论与安全奖励学习的数学发展

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【综述】多语言神经机器翻译最新综述，附全文下载

【综述】多语言神经机器翻译最新综述，附全文下载

专知

32+阅读 · 2019年5月15日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

专知

15+阅读 · 2018年5月1日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

相关论文

From Slides to Chatbots: Enhancing Large Language Models with University Course Materials

From Slides to Chatbots: Enhancing Large Language Models with University Course Materials

Arxiv

0+阅读 · 3月18日

Large Language Models as Annotators for Machine Translation Quality Estimation

Arxiv

0+阅读 · 3月11日

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Arxiv

0+阅读 · 3月10日

Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation

Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月19日

LLM-Powered Automatic Translation and Urgency in Crisis Scenarios

Arxiv

0+阅读 · 2月13日

Advances in LLMs with Focus on Reasoning, Adaptability, Efficiency and Ethics

Arxiv

0+阅读 · 2月11日

Challenges and Research Directions for Large Language Model Inference Hardware

Arxiv

0+阅读 · 2月6日

Consensus-Aligned Neuron Efficient Fine-Tuning Large Language Models for Multi-Domain Machine Translation

Arxiv

0+阅读 · 2月5日

Transport and Merge: Cross-Architecture Merging for Large Language Models

Arxiv

0+阅读 · 2月5日

An Empirical Study of Collective Behaviors and Social Dynamics in Large Language Model Agents

Arxiv

0+阅读 · 2月3日

相关基金

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

软件定义开放光接入网理论模型和控制机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

面向实时复杂数据的信息扩散模型和分析算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员