Cross-lingual transfer is essential for building NLP systems for low-resource African languages, but practitioners lack reliable methods for selecting source languages. We systematically evaluate five embedding similarity metrics across 816 transfer experiments spanning three NLP tasks, three African-centric multilingual models, and 12 languages from four language families. We find that cosine gap and retrieval-based metrics (P@1, CSLS) reliably predict transfer success ($ρ= 0.4-0.6$), while CKA shows negligible predictive power ($ρ\approx 0.1$). Critically, correlation signs reverse when pooling across models (Simpson's Paradox), so practitioners must validate per-model. Embedding metrics achieve comparable predictive power to URIEL linguistic typology. Our results provide concrete guidance for source language selection and highlight the importance of model-specific analysis.


翻译:跨语言迁移对于构建低资源非洲语言的NLP系统至关重要,但实践者缺乏选择源语言的可靠方法。我们在涵盖三个NLP任务、三个非洲中心多语言模型以及来自四个语系的12种语言的816次迁移实验中,系统评估了五种嵌入相似性度量。研究发现余弦间隙与基于检索的度量(P@1、CSLS)能可靠预测迁移成功率($ρ= 0.4-0.6$),而CKA则显示出可忽略的预测能力($ρ\approx 0.1$)。关键的是,当跨模型汇总数据时相关性符号会发生逆转(辛普森悖论),因此实践者必须按模型进行验证。嵌入度量实现了与URIEL语言类型学相当的预测能力。我们的研究结果为源语言选择提供了具体指导,并强调了模型特异性分析的重要性。

0
下载
关闭预览

相关内容

推荐系统与大语言模型技术融合:EMNLP/NeurIPS相关论文导览
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
迁移自适应学习最新综述,附21页论文下载
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
推荐系统与大语言模型技术融合:EMNLP/NeurIPS相关论文导览
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员