Low resource languages present unique challenges for natural language processing due to the limited availability of digitized and well structured linguistic data. To address this gap, the GhanaNLP initiative has developed and curated 41,513 parallel sentence pairs for the Twi, Fante, Ewe, Ga, and Kusaal languages, which are widely spoken across Ghana yet remain underrepresented in digital spaces. Each dataset consists of carefully aligned sentence pairs between a local language and English. The data were collected, translated, and annotated by human professionals and enriched with standard structural metadata to ensure consistency and usability. These corpora are designed to support research, educational, and commercial applications, including machine translation, speech technologies, and language preservation. This paper documents the dataset creation methodology, structure, intended use cases, and evaluation, as well as their deployment in real world applications such as the Khaya AI translation engine. Overall, this work contributes to broader efforts to democratize AI by enabling inclusive and accessible language technologies for African languages.


翻译:低资源语言由于缺乏数字化且结构化的语言数据,给自然语言处理带来了独特挑战。为弥补这一空白,GhanaNLP项目开发并整理出41,513个平行句对,涵盖特维语、芳蒂语、埃维语、加语和库萨阿尔语——这些语言在加纳广泛使用,却在数字空间中代表性不足。每个数据集包含当地语言与英语之间精心对齐的句对,数据由人类专业人士收集、翻译并标注,同时补充标准结构元数据以确保一致性和可用性。这些语料库旨在支持研究、教育和商业应用,包括机器翻译、语音技术和语言保护。本文阐述了数据集的创建方法、结构、预期用途和评估,以及其在Khaya AI翻译引擎等实际应用中的部署情况。总体而言,本研究通过为非洲语言提供包容且可及的语言技术,为推进AI民主化的更广泛努力做出了贡献。

0
下载
关闭预览

相关内容

【NAACL2021】Graph4NLP:图深度学习自然语言处理,附239页ppt
专知会员服务
106+阅读 · 2021年6月12日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
61+阅读 · 2020年10月27日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
35+阅读 · 2019年6月21日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
资源 | 中文NLP资源库
机器学习算法与Python学习
21+阅读 · 2018年11月22日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
自然语言处理数据集免费资源开放(附学习资料)
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
战略前沿人工智能的再思考(中文)
专知会员服务
4+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
4+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
4+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
14+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
【NAACL2021】Graph4NLP:图深度学习自然语言处理,附239页ppt
专知会员服务
106+阅读 · 2021年6月12日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
61+阅读 · 2020年10月27日
相关资讯
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
35+阅读 · 2019年6月21日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
资源 | 中文NLP资源库
机器学习算法与Python学习
21+阅读 · 2018年11月22日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
自然语言处理数据集免费资源开放(附学习资料)
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员