Low-resource languages serve as invaluable repositories of human history, preserving cultural and intellectual diversity. Despite their significance, they remain largely absent from modern natural language processing systems. While progress has been made for widely spoken African languages such as Swahili, Yoruba, and Amharic, smaller indigenous languages like Efik continue to be underrepresented in machine translation research. This study evaluates the effectiveness of state-of-the-art multilingual neural machine translation models for English-Efik translation, leveraging a small-scale, community-curated parallel corpus of 13,865 sentence pairs. We fine-tuned both the mT5 multilingual model and the NLLB200 model on this dataset. NLLB-200 outperformed mT5, achieving BLEU scores of 26.64 for English-Efik and 31.21 for Efik-English, with corresponding chrF scores of 51.04 and 47.92, indicating improved fluency and semantic fidelity. Our findings demonstrate the feasibility of developing practical machine translation tools for low-resource languages and highlight the importance of inclusive data practices and culturally grounded evaluation in advancing equitable NLP.


翻译:低资源语言作为人类历史的宝贵宝库,保存着文化与知识的多样性。尽管其意义重大,这些语言在现代自然语言处理系统中仍基本处于缺失状态。虽然针对斯瓦希里语、约鲁巴语和阿姆哈拉语等广泛使用的非洲语言已取得进展,但埃菲克语等较小的土著语言在机器翻译研究中仍持续面临代表性不足的问题。本研究评估了最先进的多语言神经机器翻译模型在英埃菲克翻译任务上的有效性,利用了一个由社区构建的小规模平行语料库,包含13,865个句对。我们在该数据集上分别对mT5多语言模型和NLLB200模型进行了微调。NLLB-200的表现优于mT5,在英埃菲克翻译中取得26.64的BLEU分数和51.04的chrF分数,在埃菲克-英翻译中取得31.21的BLEU分数和47.92的chrF分数,表明其在流畅度与语义保真度方面均有提升。我们的研究结果证明了为低资源语言开发实用机器翻译工具的可行性,并强调了包容性数据实践与文化情境化评估在推进公平自然语言处理发展中的重要性。

0
下载
关闭预览

相关内容

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究
专知会员服务
19+阅读 · 2023年12月9日
机器音译研究综述
专知会员服务
17+阅读 · 2022年10月16日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
27+阅读 · 2020年12月2日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
61+阅读 · 2020年10月27日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
【Facebook AI】低资源机器翻译,74页ppt
专知
10+阅读 · 2020年4月8日
《机器翻译与译后编辑教学指南》于WITTA年会正式发布
翻译技术沙龙
32+阅读 · 2019年6月17日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
8+阅读 · 4月7日
无人机与僵局:俄乌战争难以突破
专知会员服务
3+阅读 · 4月7日
《控制对手感知:电子战愿景与赋能技术》
专知会员服务
8+阅读 · 4月7日
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
10+阅读 · 4月6日
“史诗狂怒行动”中的海军动态
专知会员服务
10+阅读 · 4月5日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员