Despite remarkable advances in natural language processing, developing effective systems for low-resource languages remains a formidable challenge, with performances typically lagging far behind high-resource counterparts due to data scarcity and insufficient linguistic resources. Cross-lingual knowledge transfer has emerged as a promising approach to address this challenge by leveraging resources from high-resource languages. In this paper, we investigate methods for transferring linguistic knowledge from high-resource languages to low-resource languages, where the number of labeled training instances is in hundreds. We focus on sentence-level and word-level tasks. We introduce a novel method, GETR (Graph-Enhanced Token Representation) for cross-lingual knowledge transfer along with two adopted baselines (a) augmentation in hidden layers and (b) token embedding transfer through token translation. Experimental results demonstrate that our GNN-based approach significantly outperforms existing multilingual and cross-lingual baseline methods, achieving 13 percentage point improvements on truly low-resource languages (Mizo, Khasi) for POS tagging, and 20 and 27 percentage point improvements in macro-F1 on simulated low-resource languages (Marathi, Bangla, Malayalam) across sentiment classification and NER tasks respectively. We also present a detailed analysis of the transfer mechanisms and identify key factors that contribute to successful knowledge transfer in this linguistic context.


翻译:尽管自然语言处理领域取得了显著进展,但由于数据稀缺和语言资源不足,为低资源语言开发有效系统仍然是一项艰巨的挑战,其性能通常远远落后于高资源语言。跨语言知识迁移通过利用高资源语言的资源,已成为应对这一挑战的有前景的方法。本文研究了将语言知识从高资源语言迁移到训练实例仅数百个的低资源语言的方法,重点关注句子级和词级任务。我们提出了一种新颖的跨语言知识迁移方法GETR(图增强词元表示),并采用了两种基线方法:(a)隐藏层增强和(b)通过词元翻译进行词元嵌入迁移。实验结果表明,我们基于图神经网络的方法显著优于现有的多语言和跨语言基线方法,在真正低资源语言(米佐语、卡西语)的词性标注任务上实现了13个百分点的提升,在模拟低资源语言(马拉地语、孟加拉语、马拉雅拉姆语)的情感分类和命名实体识别任务上,宏平均F1分数分别提升了20和27个百分点。我们还对迁移机制进行了详细分析,并确定了在此语言背景下促成成功知识迁移的关键因素。

0
下载
关闭预览

相关内容

最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
61+阅读 · 2020年10月27日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
一文看懂自然语言处理中迁移学习的现状
AI前线
10+阅读 · 2019年8月27日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
61+阅读 · 2020年10月27日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员