No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data - 专知论文

会员服务 ·

0

合成 · 构建 · 系统 · 样本 · 零样本 ·

No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data

翻译：无通用方案：利用合成与原始数据构建巴什基尔语、哈萨克语、吉尔吉斯语、鞑靼语及楚瓦什语翻译系统

from arxiv, Accepted to EACL 2026 (LoResMT workshop)

We explore machine translation for five Turkic language pairs: Russian-Bashkir, Russian-Kazakh, Russian-Kyrgyz, English-Tatar, English-Chuvash. Fine-tuning nllb-200-distilled-600M with LoRA on synthetic data achieved chrF++ 49.71 for Kazakh and 46.94 for Bashkir. Prompting DeepSeek-V3.2 with retrieved similar examples achieved chrF++ 39.47 for Chuvash. For Tatar, zero-shot or retrieval-based approaches achieved chrF++ 41.6, while for Kyrgyz the zero-shot approach reached 45.6. We release the dataset and the obtained weights.

翻译：本研究针对五种突厥语语言对开展机器翻译探索：俄语-巴什基尔语、俄语-哈萨克语、俄语-吉尔吉斯语、英语-鞑靼语、英语-楚瓦什语。通过在合成数据上采用LoRA微调nllb-200-distilled-600M模型，哈萨克语获得chrF++ 49.71分，巴什基尔语获得46.94分。采用检索相似示例提示DeepSeek-V3.2模型的方法，楚瓦什语取得chrF++ 39.47分。对于鞑靼语，零样本或基于检索的方法获得chrF++ 41.6分，而吉尔吉斯语的零样本方法达到45.6分。我们公开了数据集及训练所得权重。

0

相关内容

【新书】《从头开始构建大型语言模型》，281页pdf，Sebastian Raschka ，代码已开源

【新书】《从头开始构建大型语言模型》，281页pdf，Sebastian Raschka ，代码已开源

专知会员服务

165+阅读 · 2024年6月24日

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

专知会员服务

264+阅读 · 2023年8月4日

官方正式版！哈工大最新93页《ChatGPT调研报告》，系统介绍大模型技术，内测哈工大“活字”对话大模型

官方正式版！哈工大最新93页《ChatGPT调研报告》，系统介绍大模型技术，内测哈工大“活字”对话大模型

专知会员服务

441+阅读 · 2023年5月4日

重磅！哈工大最新94页《ChatGPT调研报告》，详述ChatGPT技术原理与应用场景

重磅！哈工大最新94页《ChatGPT调研报告》，详述ChatGPT技术原理与应用场景

专知会员服务

980+阅读 · 2023年3月12日

最新【关于机器翻译评测研究的综述性报告 An Overview on Machine Translation Evaluation】Lifeng Han

最新【关于机器翻译评测研究的综述性报告 An Overview on Machine Translation Evaluation】Lifeng Han

专知会员服务

17+阅读 · 2022年2月25日

【2022新书】Transformer自然语言处理，Natural Language Processing with Transformers: Building Language Applications with Hugging Face

【2022新书】Transformer自然语言处理，Natural Language Processing with Transformers: Building Language Applications with Hugging Face

专知会员服务

524+阅读 · 2022年1月31日

最新《机器翻译》进展报告，纽约大学Kyunghyun Cho讲解，附50页ppt

专知会员服务

30+阅读 · 2021年1月25日

【开放新书】东北大学《机器翻译：统计建模与深度学习方法》477页pdf纵览机器翻译技术发展脉络

【开放新书】东北大学《机器翻译：统计建模与深度学习方法》477页pdf纵览机器翻译技术发展脉络

专知会员服务

105+阅读 · 2020年5月17日

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

专知会员服务

21+阅读 · 2019年12月12日

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

专知会员服务

37+阅读 · 2019年12月4日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

中文分词工具在线PK新增：FoolNLTK、LTP、StanfordCoreNLP

中文分词工具在线PK新增：FoolNLTK、LTP、StanfordCoreNLP

AINLP

13+阅读 · 2019年5月5日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

Jiagu：中文深度学习自然语言处理工具

Jiagu：中文深度学习自然语言处理工具

AINLP

90+阅读 · 2019年2月20日

一份超全的NLP语料资源集合及其构建现状

一份超全的NLP语料资源集合及其构建现状

七月在线实验室

33+阅读 · 2019年1月16日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

专知

15+阅读 · 2018年5月1日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

Zakharov系统的解的动力学行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向连续语音的哈萨克语关键词识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

Bidirectional Chinese and English Passive Sentences Dataset for Machine Translation

Arxiv

0+阅读 · 3月16日

Steering LLMs toward Korean Local Speech: Iterative Refinement Framework for Faithful Dialect Translation

Steering LLMs toward Korean Local Speech: Iterative Refinement Framework for Faithful Dialect Translation

Arxiv

0+阅读 · 3月16日

Developing an English-Efik Corpus and Machine Translation System for Digitization Inclusion

Arxiv

0+阅读 · 3月16日

NepTam: A Nepali-Tamang Parallel Corpus and Baseline Machine Translation Experiments

Arxiv

0+阅读 · 3月14日

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月5日

TurkicNLP: An NLP Toolkit for Turkic Languages

Arxiv

0+阅读 · 2月22日

Recent Advancements and Challenges of Turkic Central Asian Language Processing

Arxiv

0+阅读 · 2月16日

Ara-HOPE: Human-Centric Post-Editing Evaluation for Dialectal Arabic to Modern Standard Arabic Translation

Arxiv

0+阅读 · 2月14日

AfriNLLB: Efficient Translation Models for African Languages

Arxiv

0+阅读 · 2月10日

MTQE.en-he: Machine Translation Quality Estimation for English-Hebrew

Arxiv

0+阅读 · 2月6日

VIP会员

文章信息

相关主题

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

0+阅读 · 22分钟前

多智能体协作机制

多智能体协作机制

专知会员服务

0+阅读 · 26分钟前

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

13+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

5+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

8+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

6+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

7+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

6+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

13+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

相关VIP内容

【新书】《从头开始构建大型语言模型》，281页pdf，Sebastian Raschka ，代码已开源

【新书】《从头开始构建大型语言模型》，281页pdf，Sebastian Raschka ，代码已开源

专知会员服务

165+阅读 · 2024年6月24日

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

专知会员服务

264+阅读 · 2023年8月4日

官方正式版！哈工大最新93页《ChatGPT调研报告》，系统介绍大模型技术，内测哈工大“活字”对话大模型

官方正式版！哈工大最新93页《ChatGPT调研报告》，系统介绍大模型技术，内测哈工大“活字”对话大模型

专知会员服务

441+阅读 · 2023年5月4日

重磅！哈工大最新94页《ChatGPT调研报告》，详述ChatGPT技术原理与应用场景

重磅！哈工大最新94页《ChatGPT调研报告》，详述ChatGPT技术原理与应用场景

专知会员服务

980+阅读 · 2023年3月12日

最新【关于机器翻译评测研究的综述性报告 An Overview on Machine Translation Evaluation】Lifeng Han

最新【关于机器翻译评测研究的综述性报告 An Overview on Machine Translation Evaluation】Lifeng Han

专知会员服务

17+阅读 · 2022年2月25日

【2022新书】Transformer自然语言处理，Natural Language Processing with Transformers: Building Language Applications with Hugging Face

【2022新书】Transformer自然语言处理，Natural Language Processing with Transformers: Building Language Applications with Hugging Face

专知会员服务

524+阅读 · 2022年1月31日

最新《机器翻译》进展报告，纽约大学Kyunghyun Cho讲解，附50页ppt

专知会员服务

30+阅读 · 2021年1月25日

【开放新书】东北大学《机器翻译：统计建模与深度学习方法》477页pdf纵览机器翻译技术发展脉络

【开放新书】东北大学《机器翻译：统计建模与深度学习方法》477页pdf纵览机器翻译技术发展脉络

专知会员服务

105+阅读 · 2020年5月17日

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

专知会员服务

21+阅读 · 2019年12月12日

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

专知会员服务

37+阅读 · 2019年12月4日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

中文分词工具在线PK新增：FoolNLTK、LTP、StanfordCoreNLP

中文分词工具在线PK新增：FoolNLTK、LTP、StanfordCoreNLP

AINLP

13+阅读 · 2019年5月5日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

Jiagu：中文深度学习自然语言处理工具

Jiagu：中文深度学习自然语言处理工具

AINLP

90+阅读 · 2019年2月20日

一份超全的NLP语料资源集合及其构建现状

一份超全的NLP语料资源集合及其构建现状

七月在线实验室

33+阅读 · 2019年1月16日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

专知

15+阅读 · 2018年5月1日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

相关论文

Bidirectional Chinese and English Passive Sentences Dataset for Machine Translation

Arxiv

0+阅读 · 3月16日

Steering LLMs toward Korean Local Speech: Iterative Refinement Framework for Faithful Dialect Translation

Steering LLMs toward Korean Local Speech: Iterative Refinement Framework for Faithful Dialect Translation

Arxiv

0+阅读 · 3月16日

Developing an English-Efik Corpus and Machine Translation System for Digitization Inclusion

Arxiv

0+阅读 · 3月16日

NepTam: A Nepali-Tamang Parallel Corpus and Baseline Machine Translation Experiments

Arxiv

0+阅读 · 3月14日

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月5日

TurkicNLP: An NLP Toolkit for Turkic Languages

Arxiv

0+阅读 · 2月22日

Recent Advancements and Challenges of Turkic Central Asian Language Processing

Arxiv

0+阅读 · 2月16日

Ara-HOPE: Human-Centric Post-Editing Evaluation for Dialectal Arabic to Modern Standard Arabic Translation

Arxiv

0+阅读 · 2月14日

AfriNLLB: Efficient Translation Models for African Languages

Arxiv

0+阅读 · 2月10日

MTQE.en-he: Machine Translation Quality Estimation for English-Hebrew

Arxiv

0+阅读 · 2月6日

相关基金

Zakharov系统的解的动力学行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向连续语音的哈萨克语关键词识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员