The Arabic language is a morphologically rich language with relatively few resources and a less explored syntax compared to English. Given these limitations, Arabic Natural Language Processing (NLP) tasks like Sentiment Analysis (SA), Named Entity Recognition (NER), and Question Answering (QA), have proven to be very challenging to tackle. Recently, with the surge of transformers based models, language-specific BERT based models have proven to be very efficient at language understanding, provided they are pre-trained on a very large corpus. Such models were able to set new standards and achieve state-of-the-art results for most NLP tasks. In this paper, we pre-trained BERT specifically for the Arabic language in the pursuit of achieving the same success that BERT did for the English language. The performance of AraBERT is compared to multilingual BERT from Google and other state-of-the-art approaches. The results showed that the newly developed AraBERT achieved state-of-the-art performance on most tested Arabic NLP tasks. The pretrained araBERT models are publicly available on https://github.com/aub-mind/arabert hoping to encourage research and applications for Arabic NLP.


翻译:阿拉伯语是一种形态丰富的语言,其资源相对较少,与英语相比,其语法探索较少。鉴于这些限制,阿拉伯自然语言处理(NLP)任务,如感知分析(SA)、命名实体识别(NER)和问答(QA)等,证明非常难以应对。最近,随着以变压器为基础的模型的激增,基于语言的BERT模型在语言理解方面证明非常高效,只要在非常大的内容上经过预先培训,这些模型能够为大多数NLP任务制定新标准并实现最新水平的艺术成果。在本文中,我们专门为阿拉伯语对BERT进行了培训,以取得与ERT为英语所做的同样的成功。AraBERT的性能与谷歌和其他最先进的方法的多语言BERT相比。结果显示,新开发的AraBERT在最经过测试的阿拉伯语NLP任务上达到了最先进的状态表现。经过培训的ARBERT模型在https://Githubara.com/au-Lmin 上公开提供,用于支持阿拉伯研究。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
326+阅读 · 2020年11月26日
BERT进展2019四篇必读论文
专知会员服务
70+阅读 · 2020年1月2日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Github项目推荐 | awesome-bert:BERT相关资源大列表
AI研习社
27+阅读 · 2019年2月26日
Arxiv
1+阅读 · 2021年4月30日
Arxiv
4+阅读 · 2019年9月5日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
13+阅读 · 2019年2月28日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
1+阅读 · 今天13:30
多智能体协作机制
专知会员服务
1+阅读 · 今天13:26
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
9+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
Top
微信扫码咨询专知VIP会员