The language identification task is a crucial fundamental step in NLP. Often it serves as a pre-processing step for widely used NLP applications such as multilingual machine translation, information retrieval, question and answering, and text summarization. The core challenge of language identification lies in distinguishing languages in noisy, short, and code-mixed environments. This becomes even harder in case of diverse Indian languages that exhibit lexical and phonetic similarities, but have distinct differences. Many Indian languages share the same script, making the task even more challenging. Taking all these challenges into account, we develop and release a dataset of 250K sentences consisting of 23 languages including English and all 22 official Indian languages labeled with their language identifiers, where data in most languages are newly created. We also develop and release baseline models using state-of-the-art approaches in machine learning and fine-tuning pre-trained transformer models. Our models outperforms the state-of-the-art pre-trained transformer models for the language identification task. The dataset and the codes are available at https://yashingle-ai.github.io/ILID/ and in Huggingface open source libraries.


翻译:语言识别任务是自然语言处理中至关重要的基础步骤。它通常作为多语言机器翻译、信息检索、问答系统和文本摘要等广泛应用的前置处理环节。语言识别的核心挑战在于区分嘈杂、简短及语码混合环境下的语言。对于词汇和语音特征相似但存在显著差异的多样化印度语言而言,这项任务尤为困难。许多印度语言使用相同的文字体系,进一步增加了识别难度。针对这些挑战,我们构建并发布了包含23种语言(含英语及全部22种印度官方语言)的25万句数据集,其中多数语言数据为新构建资源,所有语句均标注了语言标识符。同时,我们采用机器学习领域的前沿方法及预训练Transformer模型微调技术,开发并开源了基线模型。实验表明,我们的模型在语言识别任务上超越了当前最先进的预训练Transformer模型。数据集与代码已发布于https://yashingle-ai.github.io/ILID/及Huggingface开源平台。

0
下载
关闭预览

相关内容

【干货书】面向机器学习的自然语言标注,341页pdf
专知会员服务
68+阅读 · 2021年2月7日
基于深度学习的手语识别综述
专知会员服务
47+阅读 · 2020年5月18日
NLP命名实体识别开源实战教程 | 深度应用
AI100
15+阅读 · 2019年8月18日
自然语言处理NLP之旅(NLP文章/代码集锦)
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
最全面的百度NLP自然语言处理技术解析
未来产业促进会
13+阅读 · 2017年11月12日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【干货书】面向机器学习的自然语言标注,341页pdf
专知会员服务
68+阅读 · 2021年2月7日
基于深度学习的手语识别综述
专知会员服务
47+阅读 · 2020年5月18日
相关资讯
NLP命名实体识别开源实战教程 | 深度应用
AI100
15+阅读 · 2019年8月18日
自然语言处理NLP之旅(NLP文章/代码集锦)
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
最全面的百度NLP自然语言处理技术解析
未来产业促进会
13+阅读 · 2017年11月12日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
NLP(自然语言处理)扫盲
大数据和云计算技术
20+阅读 · 2017年7月9日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员