We present the winning entry to the Multilingual Lexical Normalization (MultiLexNorm) shared task at W-NUT 2021 (van der Goot et al., 2021a), which evaluates lexical-normalization systems on 12 social media datasets in 11 languages. We base our solution on a pre-trained byte-level language model, ByT5 (Xue et al., 2021a), which we further pre-train on synthetic data and then fine-tune on authentic normalization data. Our system achieves the best performance by a wide margin in intrinsic evaluation, and also the best performance in extrinsic evaluation through dependency parsing. The source code is released at https://github.com/ufal/multilexnorm2021 and the fine-tuned models at https://huggingface.co/ufal.


翻译:我们在W-NUT 2021(van der Goot等人,2021年a)上介绍了多语言法正常化(MultiLex-Norm)共同任务的胜利条目,W-NUT 2021(van der Goot等人,2021年a)评估了12个社会媒体数据集中的11种语言的词典标准化系统,我们根据预先培训的字节语言模式BYT5(Xue等人,2021年a)提出解决办法,我们进一步预先培训合成数据,然后对真实的正常化数据进行微调。我们的系统在内在评估中取得了最优的成绩,在通过依赖性分析进行外部评估方面也取得了最佳成绩。源代码在https://github.com/ufal/multilexnorm2021和https://ghingface.co/ufal上发布,并在https://huingfal。

0
下载
关闭预览

相关内容

预训练语言模型fine-tuning近期进展概述
专知会员服务
40+阅读 · 2021年4月9日
专知会员服务
26+阅读 · 2021年4月2日
专知会员服务
46+阅读 · 2020年10月31日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
已删除
将门创投
12+阅读 · 2018年6月25日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Arxiv
5+阅读 · 2019年11月22日
Arxiv
8+阅读 · 2018年1月30日
VIP会员
最新内容
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
5+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
8+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
6+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
13+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
9+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
4+阅读 · 4月24日
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
已删除
将门创投
12+阅读 · 2018年6月25日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Top
微信扫码咨询专知VIP会员