We present a method for discovering morphological features in low-resource Bantu languages by combining cross-lingual transfer learning with unsupervised clustering. Applied to Giriama (nyf), a language with only 91 labeled paradigms, our pipeline discovers noun class assignments for 2,455 words and identifies two previously undocumented morphological patterns: an a- prefix variant for Class 2 (vowel coalescence - the merger of two adjacent vowels - of wa-, 95.1% consistency) and a contracted k'- prefix (98.5% consistency). External validation on 444 known Giriama verb paradigms confirms 78.2% lemmatization accuracy, while a v3 corpus expansion to 19,624 words (9,014 unique lemmas) achieves 97.3% segmentation and 86.7% lemmatization rates across all major word classes. Our ensemble of transfer learning from Swahili and unsupervised clustering, combined via weighted voting, exploits complementary strengths: transfer excels at cognate detection (leveraging ~60% vocabulary overlap) while clustering discovers language-specific innovations invisible to transfer. We release all code and discovered lexicons to support morphological documentation for low-resource Bantu languages.


翻译:我们提出一种结合跨语言迁移学习与无监督聚类的方法,用于在低资源的班图语言中发现形态特征。将该方法应用于仅拥有91个标注词形的Giriama语(nyf),我们的流程为2,455个词汇分配了名词类别,并识别出两种此前未记录的形态模式:第2类中的a-前缀变体(wa-的元音融合——两个相邻元音的合并,一致性为95.1%)及缩合k'-前缀(一致性为98.5%)。对444个已知Giriama动词词形的外部验证表明,词元化准确率达78.2%;同时,将v3语料库扩展至19,624个词汇(含9,014个唯一词元)后,所有主要词类的切分率达97.3%,词元化率达86.7%。通过加权投票整合的斯瓦希里语迁移学习与无监督聚类集成方法有效利用了互补优势:迁移学习在同源词检测上表现优异(利用约60%的词汇重叠),而聚类能发现迁移学习无法捕捉的语言特异性创新。我们已公开所有代码及发现的词汇,以支持低资源班图语的形态记录工作。

0
下载
关闭预览

相关内容

【港科大博士论文】高效迁移学习的低资源自然语言理解
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
小样本学习(Few-shot Learning)综述
云栖社区
22+阅读 · 2019年4月6日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
【港科大博士论文】高效迁移学习的低资源自然语言理解
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员