Trained on the large corpus, pre-trained language models (PLMs) can capture different levels of concepts in context and hence generate universal language representations. They can benefit multiple downstream natural language processing (NLP) tasks. Although PTMs have been widely used in most NLP applications, especially for high-resource languages such as English, it is under-represented in Lao NLP research. Previous work on Lao has been hampered by the lack of annotated datasets and the sparsity of language resources. In this work, we construct a text classification dataset to alleviate the resource-scare situation of the Lao language. We additionally present the first transformer-based PTMs for Lao with four versions: BERT-small, BERT-base, ELECTRA-small and ELECTRA-base, and evaluate it over two downstream tasks: part-of-speech tagging and text classification. Experiments demonstrate the effectiveness of our Lao models. We will release our models and datasets to the community, hoping to facilitate the future development of Lao NLP applications.


翻译:在大文版上受过培训的预先语言模型(PLM)能够从背景中捕捉不同层次的概念,从而产生通用语言代表,它们可以有利于多个下游自然语言处理(NLP)任务。虽然PTM在大多数NLP应用中被广泛使用,特别是英语等高资源语言,但在老挝国家语言平台的研究中却代表不足。老挝以往的工作由于缺乏附加说明的数据集和语言资源的广度而受到阻碍。在这项工作中,我们建立一个文本分类数据集,以缓解老挝语言的资源保护状况。我们另外为老挝提供了第一个基于变压器的PTM,有四个版本:BERT-Small、BERT-Base、ELECTRA-S-Small和ELECTRA-Base, 并评价了两个下游任务:语音标记和文字分类部分。实验显示了老挝模式的有效性。我们将向社区发布我们的模型和数据集,希望促进老挝国家语言应用程序的未来发展。

0
下载
关闭预览

相关内容

专知会员服务
124+阅读 · 2020年9月8日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
分布式并行架构Ray介绍
CreateAMind
10+阅读 · 2019年8月9日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Arxiv
19+阅读 · 2021年6月15日
Arxiv
21+阅读 · 2019年8月21日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
8+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
10+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
10+阅读 · 6月24日
相关VIP内容
专知会员服务
124+阅读 · 2020年9月8日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
分布式并行架构Ray介绍
CreateAMind
10+阅读 · 2019年8月9日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Top
微信扫码咨询专知VIP会员