ILID: Native Script Language Identification for Indian Languages - 专知论文

会员服务 ·

0

识别 · 语言识别 · 构建 · 预训练 · 预训练Transformer ·

ILID: Native Script Language Identification for Indian Languages

翻译：ILID：面向印度语言的原生文字语言识别

Yash Ingle,Pruthwik Mishra

from arxiv, 10 pages, 1 figure, 6 tables

The language identification task is a crucial fundamental step in NLP. Often it serves as a pre-processing step for widely used NLP applications such as multilingual machine translation, information retrieval, question and answering, and text summarization. The core challenge of language identification lies in distinguishing languages in noisy, short, and code-mixed environments. This becomes even harder in case of diverse Indian languages that exhibit lexical and phonetic similarities, but have distinct differences. Many Indian languages share the same script, making the task even more challenging. Taking all these challenges into account, we develop and release a dataset of 250K sentences consisting of 23 languages including English and all 22 official Indian languages labeled with their language identifiers, where data in most languages are newly created. We also develop and release baseline models using state-of-the-art approaches in machine learning and fine-tuning pre-trained transformer models. Our models outperforms the state-of-the-art pre-trained transformer models for the language identification task. The dataset and the codes are available at https://yashingle-ai.github.io/ILID/ and in Huggingface open source libraries.

翻译：语言识别任务是自然语言处理中至关重要的基础步骤。它通常作为多语言机器翻译、信息检索、问答系统和文本摘要等广泛应用的前置处理环节。语言识别的核心挑战在于区分嘈杂、简短及语码混合环境下的语言。对于词汇和语音特征相似但存在显著差异的多样化印度语言而言，这项任务尤为困难。许多印度语言使用相同的文字体系，进一步增加了识别难度。针对这些挑战，我们构建并发布了包含23种语言（含英语及全部22种印度官方语言）的25万句数据集，其中多数语言数据为新构建资源，所有语句均标注了语言标识符。同时，我们采用机器学习领域的前沿方法及预训练Transformer模型微调技术，开发并开源了基线模型。实验表明，我们的模型在语言识别任务上超越了当前最先进的预训练Transformer模型。数据集与代码已发布于https://yashingle-ai.github.io/ILID/及Huggingface开源平台。

0

相关内容

【普渡博士论文】具有深度层次结构和有效统计训练的可解释自然语言处理模型，121页pdf

【普渡博士论文】具有深度层次结构和有效统计训练的可解释自然语言处理模型，121页pdf

专知会员服务

35+阅读 · 2023年11月5日

【开放书】《面向自然语言处理的表示学习》，清华大学，Representation Learning for Natural Language Processing

【开放书】《面向自然语言处理的表示学习》，清华大学，Representation Learning for Natural Language Processing

专知会员服务

37+阅读 · 2022年3月24日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【干货书】面向机器学习的自然语言标注，341页pdf

【干货书】面向机器学习的自然语言标注，341页pdf

专知会员服务

68+阅读 · 2021年2月7日

基于深度学习的手语识别综述

基于深度学习的手语识别综述

专知会员服务

47+阅读 · 2020年5月18日

【ICDAR2019教程】用于文档分析、文本识别和语言建模的深度学习（Deep Learning for Document Analysis, Text Recognition, and Language Modeling）

【ICDAR2019教程】用于文档分析、文本识别和语言建模的深度学习（Deep Learning for Document Analysis, Text Recognition, and Language Modeling）

专知会员服务

22+阅读 · 2019年12月12日

【NLP| 推荐文章】基于文本和知识库的语义搜索（Semantic search on text and knowledge bases）

专知会员服务

46+阅读 · 2019年11月24日

【NLP| 推荐文章】语言语音处理（Speech and Language Processing(3rd ed.draft)）

专知会员服务

15+阅读 · 2019年11月24日

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

专知会员服务

84+阅读 · 2019年11月20日

【KDD2019教程】从浅层到深层的语言表达:预训练、微调，等等，From Shallow to Deep Language Representations: Pre-training, Fine-tuning, and Beyond

【KDD2019教程】从浅层到深层的语言表达:预训练、微调，等等，From Shallow to Deep Language Representations: Pre-training, Fine-tuning, and Beyond

专知会员服务

16+阅读 · 2019年11月4日

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

专知

59+阅读 · 2020年8月6日

【开放书】清华大学《语音识别基本法》，215页pdf

【开放书】清华大学《语音识别基本法》，215页pdf

专知

10+阅读 · 2020年7月29日

NLP命名实体识别开源实战教程 | 深度应用

NLP命名实体识别开源实战教程 | 深度应用

AI100

15+阅读 · 2019年8月18日

自然语言处理NLP之旅（NLP文章/代码集锦）

自然语言处理NLP之旅（NLP文章/代码集锦）

专知

28+阅读 · 2019年8月6日

【语音识别】从入门到精通——最全干货大合集！

【语音识别】从入门到精通——最全干货大合集！

专知

20+阅读 · 2018年11月5日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

最全面的百度NLP自然语言处理技术解析

最全面的百度NLP自然语言处理技术解析

未来产业促进会

13+阅读 · 2017年11月12日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

NLP（自然语言处理）扫盲

NLP（自然语言处理）扫盲

大数据和云计算技术

20+阅读 · 2017年7月9日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

脱机手写藏文字符识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

Agnostic Language Identification and Generation

Arxiv

0+阅读 · 1月30日

LogogramNLP: Comparing Visual and Textual Representations of Ancient Logographic Writing Systems for NLP

Arxiv

0+阅读 · 1月28日

Corpus-Based Approaches to Igbo Diacritic Restoration

Arxiv

0+阅读 · 1月26日

AfroScope: A Framework for Studying the Linguistic Landscape of Africa

Arxiv

0+阅读 · 1月19日

INDIC DIALECT: A Multi Task Benchmark to Evaluate and Translate in Indian Language Dialects

Arxiv

0+阅读 · 1月15日

Stuttering-Aware Automatic Speech Recognition for Indonesian Language

Arxiv

0+阅读 · 1月14日

IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

Arxiv

0+阅读 · 1月12日

Stuttering-Aware Automatic Speech Recognition for Indonesian Language

Arxiv

0+阅读 · 1月7日

SpeakerLM: End-to-End Versatile Speaker Diarization and Recognition with Multimodal Large Language Models

Arxiv

0+阅读 · 1月3日

VIP会员

文章信息

相关主题

预训练Transformer

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

2+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

3+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【普渡博士论文】具有深度层次结构和有效统计训练的可解释自然语言处理模型，121页pdf

【普渡博士论文】具有深度层次结构和有效统计训练的可解释自然语言处理模型，121页pdf

专知会员服务

35+阅读 · 2023年11月5日

【开放书】《面向自然语言处理的表示学习》，清华大学，Representation Learning for Natural Language Processing

【开放书】《面向自然语言处理的表示学习》，清华大学，Representation Learning for Natural Language Processing

专知会员服务

37+阅读 · 2022年3月24日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【干货书】面向机器学习的自然语言标注，341页pdf

【干货书】面向机器学习的自然语言标注，341页pdf

专知会员服务

68+阅读 · 2021年2月7日

基于深度学习的手语识别综述

基于深度学习的手语识别综述

专知会员服务

47+阅读 · 2020年5月18日

【ICDAR2019教程】用于文档分析、文本识别和语言建模的深度学习（Deep Learning for Document Analysis, Text Recognition, and Language Modeling）

【ICDAR2019教程】用于文档分析、文本识别和语言建模的深度学习（Deep Learning for Document Analysis, Text Recognition, and Language Modeling）

专知会员服务

22+阅读 · 2019年12月12日

【NLP| 推荐文章】基于文本和知识库的语义搜索（Semantic search on text and knowledge bases）

专知会员服务

46+阅读 · 2019年11月24日

【NLP| 推荐文章】语言语音处理（Speech and Language Processing(3rd ed.draft)）

专知会员服务

15+阅读 · 2019年11月24日

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

专知会员服务

84+阅读 · 2019年11月20日

【KDD2019教程】从浅层到深层的语言表达:预训练、微调，等等，From Shallow to Deep Language Representations: Pre-training, Fine-tuning, and Beyond

【KDD2019教程】从浅层到深层的语言表达:预训练、微调，等等，From Shallow to Deep Language Representations: Pre-training, Fine-tuning, and Beyond

专知会员服务

16+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

专知

59+阅读 · 2020年8月6日

【开放书】清华大学《语音识别基本法》，215页pdf

【开放书】清华大学《语音识别基本法》，215页pdf

专知

10+阅读 · 2020年7月29日

NLP命名实体识别开源实战教程 | 深度应用

NLP命名实体识别开源实战教程 | 深度应用

AI100

15+阅读 · 2019年8月18日

自然语言处理NLP之旅（NLP文章/代码集锦）

自然语言处理NLP之旅（NLP文章/代码集锦）

专知

28+阅读 · 2019年8月6日

【语音识别】从入门到精通——最全干货大合集！

【语音识别】从入门到精通——最全干货大合集！

专知

20+阅读 · 2018年11月5日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

最全面的百度NLP自然语言处理技术解析

最全面的百度NLP自然语言处理技术解析

未来产业促进会

13+阅读 · 2017年11月12日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

NLP（自然语言处理）扫盲

NLP（自然语言处理）扫盲

大数据和云计算技术

20+阅读 · 2017年7月9日

相关论文

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

Agnostic Language Identification and Generation

Arxiv

0+阅读 · 1月30日

LogogramNLP: Comparing Visual and Textual Representations of Ancient Logographic Writing Systems for NLP

Arxiv

0+阅读 · 1月28日

Corpus-Based Approaches to Igbo Diacritic Restoration

Arxiv

0+阅读 · 1月26日

AfroScope: A Framework for Studying the Linguistic Landscape of Africa

Arxiv

0+阅读 · 1月19日

INDIC DIALECT: A Multi Task Benchmark to Evaluate and Translate in Indian Language Dialects

Arxiv

0+阅读 · 1月15日

Stuttering-Aware Automatic Speech Recognition for Indonesian Language

Arxiv

0+阅读 · 1月14日

IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

Arxiv

0+阅读 · 1月12日

Stuttering-Aware Automatic Speech Recognition for Indonesian Language

Arxiv

0+阅读 · 1月7日

SpeakerLM: End-to-End Versatile Speaker Diarization and Recognition with Multimodal Large Language Models

Arxiv

0+阅读 · 1月3日

相关基金

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

脱机手写藏文字符识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员