Multilingual pre-trained language models(mPLMs) offer significant benefits for many low-resource languages. To further expand the range of languages these models can support, many works focus on continued pre-training of these models. However, few works address how to extend mPLMs to low-resource languages that were previously unsupported. To tackle this issue, we expand the model's vocabulary using a target language corpus. We then screen out a subset from the model's original vocabulary, which is biased towards representing the source language(e.g. English), and utilize bilingual dictionaries to initialize the representations of the expanded vocabulary. Subsequently, we continue to pre-train the mPLMs using the target language corpus, based on the representations of these expanded vocabulary. Experimental results show that our proposed method outperforms the baseline, which uses randomly initialized expanded vocabulary for continued pre-training, in POS tagging and NER tasks, achieving improvements by 0.54% and 2.60%, respectively. Furthermore, our method demonstrates high robustness in selecting the training corpora, and the models' performance on the source language does not degrade after continued pre-training.


翻译:多语言预训练语言模型(mPLMs)为许多低资源语言带来了显著优势。为了进一步扩展这些模型所能支持的语言范围,许多研究聚焦于对这些模型进行持续预训练。然而,针对如何将mPLMs扩展到先前未支持的低资源语言,相关研究则相对较少。为解决这一问题,我们利用目标语言语料库扩展了模型的词汇表。接着,我们从模型原有的、偏向于表示源语言(例如英语)的词汇表中筛选出一个子集,并利用双语词典来初始化扩展词汇的表示。随后,基于这些扩展词汇的表示,我们使用目标语言语料库对mPLMs进行持续预训练。实验结果表明,在词性标注和命名实体识别任务中,我们提出的方法优于使用随机初始化扩展词汇进行持续预训练的基线方法,分别取得了0.54%和2.60%的性能提升。此外,我们的方法在训练语料选择方面表现出较高的鲁棒性,并且模型在源语言上的性能在持续预训练后并未下降。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
使用有限数据微调语言模型的实用指南
专知会员服务
27+阅读 · 2024年11月18日
小型语言模型综述
专知会员服务
54+阅读 · 2024年10月29日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
知识增强预训练语言模型:全面综述
专知会员服务
97+阅读 · 2021年10月19日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员