NepTam: A Nepali-Tamang Parallel Corpus and Baseline Machine Translation Experiments - 专知论文

会员服务 ·

0

语料 · 语料库 · 数据集 · 平行语料 · 机器翻译 ·

NepTam: A Nepali-Tamang Parallel Corpus and Baseline Machine Translation Experiments

翻译：NepTam：尼泊尔语-塔芒语平行语料库及基线机器翻译实验

Rupak Raj Ghimire,Bipesh Subedi,Balaram Prasain,Prakash Poudyal,Praveen Acharya,Nischal Karki,Rupak Tiwari,Rishikesh Kumar Sharma,Jenny Poudel,Bal Krishna Bal

from arxiv, Accepted in LREC 2026

Modern Translation Systems heavily rely on high-quality, large parallel datasets for state-of-the-art performance. However, such resources are largely unavailable for most of the South Asian languages. Among them, Nepali and Tamang fall into such category, with Tamang being among the least digitally resourced languages in the region. This work addresses the gap by developing NepTam20K, a 20K gold standard parallel corpus, and NepTam80K, an 80K synthetic Nepali-Tamang parallel corpus, both sentence-aligned and designed to support machine translation. The datasets were created through a pipeline involving data scraping from Nepali news and online sources, pre-processing, semantic filtering, balancing for tense and polarity (in NepTam20K dataset), expert translation into Tamang by native speakers of the language, and verification by an expert Tamang linguist. The dataset covers five domains: Agriculture, Health, Education and Technology, Culture, and General Communication. To evaluate the dataset, baseline machine translation experiments were carried out using various multilingual pre-trained models: mBART, M2M-100, NLLB-200, and a vanilla Transformer model. The fine-tuning on the NLLB-200 achieved the highest sacreBLEU scores of 40.92 (Nepali-Tamang) and 45.26 (Tamang-Nepali).

翻译：现代翻译系统严重依赖高质量、大规模平行数据集以实现最先进的性能。然而，对于大多数南亚语言而言，此类资源基本不可得。其中，尼泊尔语和塔芒语便属于此类，而塔芒语更是该地区数字资源最匮乏的语言之一。本研究通过构建NepTam20K（一个包含2万句的高质量黄金标准平行语料库）和NepTam80K（一个包含8万句的合成尼泊尔语-塔芒语平行语料库）来填补这一空白。两个语料库均为句子级对齐，专为支持机器翻译而设计。数据集的创建流程包括：从尼泊尔新闻和在线资源中爬取数据、预处理、语义过滤、时态和极性平衡（针对NepTam20K数据集）、由母语人士将内容翻译为塔芒语，并由塔芒语语言学专家进行验证。该数据集涵盖五大领域：农业、健康、教育与技术、文化以及通用交流。为评估数据集，我们使用多种多语言预训练模型（包括mBART、M2M-100、NLLB-200及基础Transformer模型）进行了基线机器翻译实验。其中，基于NLLB-200的微调取得了最高的sacreBLEU分数：尼泊尔语-塔芒语方向为40.92，塔芒语-尼泊尔语方向为45.26。

0

相关内容

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

专知会员服务

13+阅读 · 2024年11月28日

预训练神经机器翻译研究进展分析

预训练神经机器翻译研究进展分析

专知会员服务

18+阅读 · 2024年7月25日

最新《机器翻译》进展报告，纽约大学Kyunghyun Cho讲解，附50页ppt

专知会员服务

30+阅读 · 2021年1月25日

稀缺资源语言神经网络机器翻译研究综述

稀缺资源语言神经网络机器翻译研究综述

专知会员服务

27+阅读 · 2020年12月2日

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

专知会员服务

19+阅读 · 2020年4月25日

【Tom Kocmi博士论文】探索迁移学习在神经机器翻译中的益处，附162页PDF下载

【Tom Kocmi博士论文】探索迁移学习在神经机器翻译中的益处，附162页PDF下载

专知会员服务

25+阅读 · 2020年1月10日

【Tom Kocmi博士论文】探讨迁移学习在神经机器翻译中的应用，Exploring Benefits of Transfer Learning in Neural Machine Translation

【Tom Kocmi博士论文】探讨迁移学习在神经机器翻译中的应用，Exploring Benefits of Transfer Learning in Neural Machine Translation

专知会员服务

10+阅读 · 2020年1月9日

【论文】多语言神经机器翻译综述（A Comprehensive Survey of Multilingual Neural Machine Translation）

【论文】多语言神经机器翻译综述（A Comprehensive Survey of Multilingual Neural Machine Translation）

专知会员服务

20+阅读 · 2020年1月7日

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

专知会员服务

21+阅读 · 2019年12月12日

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

专知会员服务

37+阅读 · 2019年12月4日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

【综述】多语言神经机器翻译最新综述，附全文下载

【综述】多语言神经机器翻译最新综述，附全文下载

专知

32+阅读 · 2019年5月15日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

NLP Chinese Corpus项目：大规模中文自然语言处理语料

NLP Chinese Corpus项目：大规模中文自然语言处理语料

AINLP

13+阅读 · 2019年2月11日

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

量子位

15+阅读 · 2018年11月16日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

专知

15+阅读 · 2018年5月1日

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

新智元

10+阅读 · 2017年4月2日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Omnilingual MT: Machine Translation for 1,600 Languages

Arxiv

0+阅读 · 3月18日

Omnilingual MT: Machine Translation for 1,600 Languages

Arxiv

0+阅读 · 3月17日

Targum - A Multilingual New Testament Translation Corpus

Arxiv

0+阅读 · 3月16日

Developing an English-Efik Corpus and Machine Translation System for Digitization Inclusion

Arxiv

0+阅读 · 3月16日

OasisSimp: An Open-source Asian-English Sentence Simplification Dataset

Arxiv

0+阅读 · 3月14日

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

Arxiv

0+阅读 · 3月9日

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月6日

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月5日

TurkicNLP: An NLP Toolkit for Turkic Languages

Arxiv

0+阅读 · 2月22日

VIRAASAT: Traversing Novel Paths for Indian Cultural Reasoning

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

8+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

5+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

5+阅读 · 5月5日

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

专知会员服务

5+阅读 · 5月5日

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

专知会员服务

8+阅读 · 5月5日

《美空军条令出版物 2-0：情报（2026版）》

《美空军条令出版物 2-0：情报（2026版）》

专知会员服务

13+阅读 · 5月5日

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

专知会员服务

5+阅读 · 5月5日

帕兰提尔 Gotham：一个游戏规则改变器

帕兰提尔 Gotham：一个游戏规则改变器

专知会员服务

8+阅读 · 5月5日

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

3+阅读 · 5月5日

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

专知会员服务

3+阅读 · 5月5日

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

8+阅读 · 5月4日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

12+阅读 · 5月4日

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

9+阅读 · 5月4日

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

9+阅读 · 5月4日

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

7+阅读 · 5月4日

相关VIP内容

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

专知会员服务

13+阅读 · 2024年11月28日

预训练神经机器翻译研究进展分析

预训练神经机器翻译研究进展分析

专知会员服务

18+阅读 · 2024年7月25日

最新《机器翻译》进展报告，纽约大学Kyunghyun Cho讲解，附50页ppt

专知会员服务

30+阅读 · 2021年1月25日

稀缺资源语言神经网络机器翻译研究综述

稀缺资源语言神经网络机器翻译研究综述

专知会员服务

27+阅读 · 2020年12月2日

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

专知会员服务

19+阅读 · 2020年4月25日

【Tom Kocmi博士论文】探索迁移学习在神经机器翻译中的益处，附162页PDF下载

【Tom Kocmi博士论文】探索迁移学习在神经机器翻译中的益处，附162页PDF下载

专知会员服务

25+阅读 · 2020年1月10日

【Tom Kocmi博士论文】探讨迁移学习在神经机器翻译中的应用，Exploring Benefits of Transfer Learning in Neural Machine Translation

【Tom Kocmi博士论文】探讨迁移学习在神经机器翻译中的应用，Exploring Benefits of Transfer Learning in Neural Machine Translation

专知会员服务

10+阅读 · 2020年1月9日

【论文】多语言神经机器翻译综述（A Comprehensive Survey of Multilingual Neural Machine Translation）

【论文】多语言神经机器翻译综述（A Comprehensive Survey of Multilingual Neural Machine Translation）

专知会员服务

20+阅读 · 2020年1月7日

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

专知会员服务

21+阅读 · 2019年12月12日

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

【剑桥大学】神经机器翻译综述论文，Neural Machine Translation: A Review，附88页pdf

专知会员服务

37+阅读 · 2019年12月4日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

DeepSeek 版Claude Code，免费小白安装教程来了！

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

相关资讯

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

【综述】多语言神经机器翻译最新综述，附全文下载

【综述】多语言神经机器翻译最新综述，附全文下载

专知

32+阅读 · 2019年5月15日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

NLP Chinese Corpus项目：大规模中文自然语言处理语料

NLP Chinese Corpus项目：大规模中文自然语言处理语料

AINLP

13+阅读 · 2019年2月11日

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

量子位

15+阅读 · 2018年11月16日

NLG ≠ 机器写作 | 专家专栏

NLG ≠ 机器写作 | 专家专栏

量子位

13+阅读 · 2018年9月10日

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

专知

15+阅读 · 2018年5月1日

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

新智元

10+阅读 · 2017年4月2日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

相关论文

Omnilingual MT: Machine Translation for 1,600 Languages

Arxiv

0+阅读 · 3月18日

Omnilingual MT: Machine Translation for 1,600 Languages

Arxiv

0+阅读 · 3月17日

Targum - A Multilingual New Testament Translation Corpus

Arxiv

0+阅读 · 3月16日

Developing an English-Efik Corpus and Machine Translation System for Digitization Inclusion

Arxiv

0+阅读 · 3月16日

OasisSimp: An Open-source Asian-English Sentence Simplification Dataset

Arxiv

0+阅读 · 3月14日

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

Arxiv

0+阅读 · 3月9日

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月6日

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月5日

TurkicNLP: An NLP Toolkit for Turkic Languages

Arxiv

0+阅读 · 2月22日

VIRAASAT: Traversing Novel Paths for Indian Cultural Reasoning

Arxiv

0+阅读 · 2月20日

相关基金

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员