Developing an English-Efik Corpus and Machine Translation System for Digitization Inclusion - 专知论文

会员服务 ·

0

机器翻译 · 构建 · 语料 · 语料库 · 系统 ·

Developing an English-Efik Corpus and Machine Translation System for Digitization Inclusion

翻译：构建英埃菲克语料库与机器翻译系统以促进数字化包容

Offiong Bassey Edet,Mbuotidem Sunday Awak,Emmanuel Oyo-Ita,Benjamin Okon Nyong,Ita Etim Bassey

from arxiv, 8 pages, 1 figure, accepted at AfricaNLP 2026 (co-located with EACL)

Low-resource languages serve as invaluable repositories of human history, preserving cultural and intellectual diversity. Despite their significance, they remain largely absent from modern natural language processing systems. While progress has been made for widely spoken African languages such as Swahili, Yoruba, and Amharic, smaller indigenous languages like Efik continue to be underrepresented in machine translation research. This study evaluates the effectiveness of state-of-the-art multilingual neural machine translation models for English-Efik translation, leveraging a small-scale, community-curated parallel corpus of 13,865 sentence pairs. We fine-tuned both the mT5 multilingual model and the NLLB200 model on this dataset. NLLB-200 outperformed mT5, achieving BLEU scores of 26.64 for English-Efik and 31.21 for Efik-English, with corresponding chrF scores of 51.04 and 47.92, indicating improved fluency and semantic fidelity. Our findings demonstrate the feasibility of developing practical machine translation tools for low-resource languages and highlight the importance of inclusive data practices and culturally grounded evaluation in advancing equitable NLP.

翻译：低资源语言作为人类历史的宝贵宝库，保存着文化与知识的多样性。尽管其意义重大，这些语言在现代自然语言处理系统中仍基本处于缺失状态。虽然针对斯瓦希里语、约鲁巴语和阿姆哈拉语等广泛使用的非洲语言已取得进展，但埃菲克语等较小的土著语言在机器翻译研究中仍持续面临代表性不足的问题。本研究评估了最先进的多语言神经机器翻译模型在英埃菲克翻译任务上的有效性，利用了一个由社区构建的小规模平行语料库，包含13,865个句对。我们在该数据集上分别对mT5多语言模型和NLLB200模型进行了微调。NLLB-200的表现优于mT5，在英埃菲克翻译中取得26.64的BLEU分数和51.04的chrF分数，在埃菲克-英翻译中取得31.21的BLEU分数和47.92的chrF分数，表明其在流畅度与语义保真度方面均有提升。我们的研究结果证明了为低资源语言开发实用机器翻译工具的可行性，并强调了包容性数据实践与文化情境化评估在推进公平自然语言处理发展中的重要性。

0

相关内容

机器翻译

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究

【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究

专知会员服务

19+阅读 · 2023年12月9日

机器音译研究综述

机器音译研究综述

专知会员服务

17+阅读 · 2022年10月16日

最新《机器翻译》进展报告，纽约大学Kyunghyun Cho讲解，附50页ppt

专知会员服务

30+阅读 · 2021年1月25日

稀缺资源语言神经网络机器翻译研究综述

稀缺资源语言神经网络机器翻译研究综述

专知会员服务

27+阅读 · 2020年12月2日

最新《低资源自然语言处理》综述论文，21页pdf

最新《低资源自然语言处理》综述论文，21页pdf

专知会员服务

61+阅读 · 2020年10月27日

【清华大学】低资源语言:回顾综述和未来的挑战，14页pdf

【清华大学】低资源语言:回顾综述和未来的挑战，14页pdf

专知会员服务

38+阅读 · 2020年6月16日

人类语言技术展望，中国科学院自动化研究所研究员宗成庆

人类语言技术展望，中国科学院自动化研究所研究员宗成庆

专知会员服务

48+阅读 · 2020年2月15日

【Tom Kocmi博士论文】探索迁移学习在神经机器翻译中的益处，附162页PDF下载

【Tom Kocmi博士论文】探索迁移学习在神经机器翻译中的益处，附162页PDF下载

专知会员服务

25+阅读 · 2020年1月10日

【Tom Kocmi博士论文】探讨迁移学习在神经机器翻译中的应用，Exploring Benefits of Transfer Learning in Neural Machine Translation

【Tom Kocmi博士论文】探讨迁移学习在神经机器翻译中的应用，Exploring Benefits of Transfer Learning in Neural Machine Translation

专知会员服务

10+阅读 · 2020年1月9日

【CCL 2019】机器翻译前沿综述，中国科学院计算技术研究所冯洋博士

【CCL 2019】机器翻译前沿综述，中国科学院计算技术研究所冯洋博士

专知会员服务

43+阅读 · 2019年11月12日

【Facebook AI】低资源机器翻译，74页ppt

【Facebook AI】低资源机器翻译，74页ppt

专知

10+阅读 · 2020年4月8日

《机器翻译与译后编辑教学指南》于WITTA年会正式发布

《机器翻译与译后编辑教学指南》于WITTA年会正式发布

翻译技术沙龙

32+阅读 · 2019年6月17日

【综述】多语言神经机器翻译最新综述，附全文下载

【综述】多语言神经机器翻译最新综述，附全文下载

专知

32+阅读 · 2019年5月15日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

NLP Chinese Corpus项目：大规模中文自然语言处理语料

NLP Chinese Corpus项目：大规模中文自然语言处理语料

AINLP

13+阅读 · 2019年2月11日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

专知

15+阅读 · 2018年5月1日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

MERIT: Multilingual Expert-Reward Informed Tuning for Chinese-Centric Low-Resource Machine Translation

Arxiv

0+阅读 · 4月6日

Enhancing Document-Level Machine Translation via Filtered Synthetic Corpora and Two-Stage LLM Adaptation

Arxiv

0+阅读 · 3月23日

Omnilingual MT: Machine Translation for 1,600 Languages

Arxiv

0+阅读 · 3月18日

Omnilingual MT: Machine Translation for 1,600 Languages

Arxiv

0+阅读 · 3月17日

Targum - A Multilingual New Testament Translation Corpus

Arxiv

0+阅读 · 3月16日

Bidirectional Chinese and English Passive Sentences Dataset for Machine Translation

Arxiv

0+阅读 · 3月16日

OasisSimp: An Open-source Asian-English Sentence Simplification Dataset

Arxiv

0+阅读 · 3月14日

NepTam: A Nepali-Tamang Parallel Corpus and Baseline Machine Translation Experiments

Arxiv

0+阅读 · 3月14日

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月6日

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月5日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

4+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

10+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

6+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

7+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

9+阅读 · 5月29日

相关VIP内容

【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究

【博士论文】⾮⾃回归神经机器翻译的训练⽅法研究

专知会员服务

19+阅读 · 2023年12月9日

机器音译研究综述

机器音译研究综述

专知会员服务

17+阅读 · 2022年10月16日

最新《机器翻译》进展报告，纽约大学Kyunghyun Cho讲解，附50页ppt

专知会员服务

30+阅读 · 2021年1月25日

稀缺资源语言神经网络机器翻译研究综述

稀缺资源语言神经网络机器翻译研究综述

专知会员服务

27+阅读 · 2020年12月2日

最新《低资源自然语言处理》综述论文，21页pdf

最新《低资源自然语言处理》综述论文，21页pdf

专知会员服务

61+阅读 · 2020年10月27日

【清华大学】低资源语言:回顾综述和未来的挑战，14页pdf

【清华大学】低资源语言:回顾综述和未来的挑战，14页pdf

专知会员服务

38+阅读 · 2020年6月16日

人类语言技术展望，中国科学院自动化研究所研究员宗成庆

人类语言技术展望，中国科学院自动化研究所研究员宗成庆

专知会员服务

48+阅读 · 2020年2月15日

【Tom Kocmi博士论文】探索迁移学习在神经机器翻译中的益处，附162页PDF下载

【Tom Kocmi博士论文】探索迁移学习在神经机器翻译中的益处，附162页PDF下载

专知会员服务

25+阅读 · 2020年1月10日

【Tom Kocmi博士论文】探讨迁移学习在神经机器翻译中的应用，Exploring Benefits of Transfer Learning in Neural Machine Translation

【Tom Kocmi博士论文】探讨迁移学习在神经机器翻译中的应用，Exploring Benefits of Transfer Learning in Neural Machine Translation

专知会员服务

10+阅读 · 2020年1月9日

【CCL 2019】机器翻译前沿综述，中国科学院计算技术研究所冯洋博士

【CCL 2019】机器翻译前沿综述，中国科学院计算技术研究所冯洋博士

专知会员服务

43+阅读 · 2019年11月12日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

【Facebook AI】低资源机器翻译，74页ppt

【Facebook AI】低资源机器翻译，74页ppt

专知

10+阅读 · 2020年4月8日

《机器翻译与译后编辑教学指南》于WITTA年会正式发布

《机器翻译与译后编辑教学指南》于WITTA年会正式发布

翻译技术沙龙

32+阅读 · 2019年6月17日

【综述】多语言神经机器翻译最新综述，附全文下载

【综述】多语言神经机器翻译最新综述，附全文下载

专知

32+阅读 · 2019年5月15日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

NLP Chinese Corpus项目：大规模中文自然语言处理语料

NLP Chinese Corpus项目：大规模中文自然语言处理语料

AINLP

13+阅读 · 2019年2月11日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

【论文推荐】最新十篇机器翻译相关论文—自然语言推理、无监督神经机器翻译、多任务学习、局部卷积、图卷积、多语种机器翻译

专知

15+阅读 · 2018年5月1日

Deepmind 新成果，让机器挑战更复杂阅读理解问题

Deepmind 新成果，让机器挑战更复杂阅读理解问题

AI掘金志

11+阅读 · 2018年1月3日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

自然语言处理（二）机器翻译篇 (NLP: machine translation)

自然语言处理（二）机器翻译篇 (NLP: machine translation)

DeepLearning中文论坛

12+阅读 · 2015年7月1日

相关论文

MERIT: Multilingual Expert-Reward Informed Tuning for Chinese-Centric Low-Resource Machine Translation

Arxiv

0+阅读 · 4月6日

Enhancing Document-Level Machine Translation via Filtered Synthetic Corpora and Two-Stage LLM Adaptation

Arxiv

0+阅读 · 3月23日

Omnilingual MT: Machine Translation for 1,600 Languages

Arxiv

0+阅读 · 3月18日

Omnilingual MT: Machine Translation for 1,600 Languages

Arxiv

0+阅读 · 3月17日

Targum - A Multilingual New Testament Translation Corpus

Arxiv

0+阅读 · 3月16日

Bidirectional Chinese and English Passive Sentences Dataset for Machine Translation

Arxiv

0+阅读 · 3月16日

OasisSimp: An Open-source Asian-English Sentence Simplification Dataset

Arxiv

0+阅读 · 3月14日

NepTam: A Nepali-Tamang Parallel Corpus and Baseline Machine Translation Experiments

Arxiv

0+阅读 · 3月14日

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月6日

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Arxiv

0+阅读 · 3月5日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员