Social media data has been of interest to Natural Language Processing (NLP) practitioners for over a decade, because of its richness in information, but also challenges for automatic processing. Since language use is more informal, spontaneous, and adheres to many different sociolects, the performance of NLP models often deteriorates. One solution to this problem is to transform data to a standard variant before processing it, which is also called lexical normalization. There has been a wide variety of benchmarks and models proposed for this task. The MultiLexNorm benchmark proposed to unify these efforts, but it consists almost solely of languages from the Indo-European language family in the Latin script. Hence, we propose an extension to MultiLexNorm, which covers 5 Asian languages from different language families in 4 different scripts. We show that the previous state-of-the-art model performs worse on the new languages and propose a new architecture based on Large Language Models (LLMs), which shows more robust performance. Finally, we analyze remaining errors, revealing future directions for this task.


翻译:社交媒体数据因其信息丰富性以及对自动处理的挑战性,在过去十余年间持续受到自然语言处理(NLP)研究者的关注。由于社交媒体中的语言使用更为非正式、自发,且遵循多种不同的社会方言,NLP模型的性能常因此下降。该问题的一种解决方案是在处理前将数据转换至标准变体,此过程亦称为词汇规范化。针对此任务,已有多种基准数据集与模型被提出。MultiLexNorm 基准旨在整合这些工作,但其涵盖的语言几乎全部属于拉丁字母书写的印欧语系。为此,我们提出了 MultiLexNorm 的扩展版本,涵盖来自 4 种不同文字体系、5 个不同语系的亚洲语言。实验表明,先前的最优模型在新语言上表现欠佳,为此我们提出一种基于大语言模型(LLMs)的新架构,其展现出更稳健的性能。最后,我们分析了遗留错误,揭示了该任务未来的研究方向。

0
下载
关闭预览

相关内容

【博士论文】面向数据的语言生成模型研究
专知会员服务
24+阅读 · 2025年1月19日
【CMU博士论文】语言理解与生成优化技术,145页pdf
专知会员服务
36+阅读 · 2023年11月22日
【综述论文】2020年最新深度学习自然语言处理进展综述论文!!!
深度学习自然语言处理
13+阅读 · 2020年4月6日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
清华发布《2018自然语言处理研究报告》
智能交通技术
17+阅读 · 2018年8月4日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【博士论文】面向数据的语言生成模型研究
专知会员服务
24+阅读 · 2025年1月19日
【CMU博士论文】语言理解与生成优化技术,145页pdf
专知会员服务
36+阅读 · 2023年11月22日
相关资讯
【综述论文】2020年最新深度学习自然语言处理进展综述论文!!!
深度学习自然语言处理
13+阅读 · 2020年4月6日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
清华发布《2018自然语言处理研究报告》
智能交通技术
17+阅读 · 2018年8月4日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员