PALI: A Language Identification Benchmark for Perso-Arabic Scripts - 专知论文

会员服务 ·

0

分层模型 · 基准 · 低资源 · 分层 · 分类器 ·

2023 年 4 月 3 日

PALI: A Language Identification Benchmark for Perso-Arabic Scripts

翻译：PALI：一种针对波斯-阿拉伯文字的语言识别基准

Sina Ahmadi,Milind Agarwal,Antonios Anastasopoulos

from arxiv, 13 pages - accepted at VarDial at EACL 2023

The Perso-Arabic scripts are a family of scripts that are widely adopted and used by various linguistic communities around the globe. Identifying various languages using such scripts is crucial to language technologies and challenging in low-resource setups. As such, this paper sheds light on the challenges of detecting languages using Perso-Arabic scripts, especially in bilingual communities where ``unconventional'' writing is practiced. To address this, we use a set of supervised techniques to classify sentences into their languages. Building on these, we also propose a hierarchical model that targets clusters of languages that are more often confused by the classifiers. Our experiment results indicate the effectiveness of our solutions.

翻译：波斯-阿拉伯文字是一类被全球多个语言群体广泛采用和使用的文字系统。识别使用此类文字的各类语言对于语言技术至关重要，且在低资源场景下具有挑战性。为此，本文聚焦于检测使用波斯-阿拉伯文字的语言所面临的挑战，尤其是在存在“非常规”书写实践的汉语社区中。为解决这一问题，我们采用一组监督技术对句子进行语言分类。在此基础上，我们还提出了一种分层模型，专门针对分类器常混淆的语言簇。实验结果表明了本方案的有效性。

0

相关内容

分层模型

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

109+阅读 · 2020年5月1日

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

专知会员服务

23+阅读 · 2020年4月22日

20篇「ACL2020」最新论文抢先看！看自然语言处理2020在研究什么？

20篇「ACL2020」最新论文抢先看！看自然语言处理2020在研究什么？

专知会员服务

97+阅读 · 2020年4月10日

【东大-UCSB】虚假新闻检测的自然语言处理研究综述，A Survey on Natural Language Processing for Fake News Detection

【东大-UCSB】虚假新闻检测的自然语言处理研究综述，A Survey on Natural Language Processing for Fake News Detection

专知会员服务

79+阅读 · 2020年2月12日

【论文】评估可扩展贝叶斯深度学习强大的计算机视觉的方法（Evaluating Scalable Bayesian Deep LearningMethods for Robust Computer Vision）

【论文】评估可扩展贝叶斯深度学习强大的计算机视觉的方法（Evaluating Scalable Bayesian Deep LearningMethods for Robust Computer Vision）

专知会员服务

12+阅读 · 2020年1月13日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

AINLP

10+阅读 · 2019年2月9日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新五篇命名实体识别相关论文—深度主动学习、Lattice LSTM、混合马尔可夫CRF

【论文推荐】最新五篇命名实体识别相关论文—深度主动学习、Lattice LSTM、混合马尔可夫CRF

专知

26+阅读 · 2018年5月22日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

专知

29+阅读 · 2018年3月12日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

随机多尺度系统的亚稳态理论

国家自然科学基金

0+阅读 · 2015年12月31日

大型液闪探测器的精确快速事例重建

国家自然科学基金

0+阅读 · 2015年12月31日

以基因功能研究为基础的结直肠癌易感区段10q22.3的精细定位

国家自然科学基金

0+阅读 · 2015年12月31日

HER2亲和体-凋亡素靶向诊断与治疗分子探针的构建及其在乳腺癌中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

遥感影像虚假地形感知现象自动消除技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

稀土氧化物修饰三维介孔镍基催化剂对SOFC阳极抗积碳和强度研究

国家自然科学基金

0+阅读 · 2013年12月31日

无电滞后钛酸铋钠基电致伸缩陶瓷的结构调控及其机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

粉尘爆炸点火源点燃机理、风险评价与预防

国家自然科学基金

0+阅读 · 2011年12月31日

超声介导靶向微泡携带Foxp3 siRNA特异性抑制Treg细胞增强抗肿瘤免疫研究

国家自然科学基金

0+阅读 · 2011年12月31日

多发性硬化相关microRNA和靶基因鉴定及其对Th17和Treg细胞生成及分化的作用

国家自然科学基金

0+阅读 · 2011年12月31日

Evaluating ChatGPT's Performance for Multilingual and Emoji-based Hate Speech Detection

Arxiv

0+阅读 · 2023年5月23日

SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim Verification on Scientific Tables

Arxiv

0+阅读 · 2023年5月22日

LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities

Arxiv

21+阅读 · 2023年5月22日

DUMB: A Benchmark for Smart Evaluation of Dutch Models

Arxiv

0+阅读 · 2023年5月22日

Towards Code Generation from BDD Test Case Specifications: A Vision

Arxiv

0+阅读 · 2023年5月19日

Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering

Arxiv

0+阅读 · 2023年5月19日

A Parameter-Efficient Learning Approach to Arabic Dialect Identification with Pre-Trained General-Purpose Speech Model

Arxiv

0+阅读 · 2023年5月18日

ML-SUPERB: Multilingual Speech Universal PERformance Benchmark

Arxiv

0+阅读 · 2023年5月18日

Sequential Best-Arm Identification with Application to Brain-Computer Interface

Arxiv

0+阅读 · 2023年5月17日

Recent Advances in Deep Learning-based Dialogue Systems

Arxiv

18+阅读 · 2021年5月10日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

109+阅读 · 2020年5月1日

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

专知会员服务

23+阅读 · 2020年4月22日

20篇「ACL2020」最新论文抢先看！看自然语言处理2020在研究什么？

20篇「ACL2020」最新论文抢先看！看自然语言处理2020在研究什么？

专知会员服务

97+阅读 · 2020年4月10日

【东大-UCSB】虚假新闻检测的自然语言处理研究综述，A Survey on Natural Language Processing for Fake News Detection

【东大-UCSB】虚假新闻检测的自然语言处理研究综述，A Survey on Natural Language Processing for Fake News Detection

专知会员服务

79+阅读 · 2020年2月12日

【论文】评估可扩展贝叶斯深度学习强大的计算机视觉的方法（Evaluating Scalable Bayesian Deep LearningMethods for Robust Computer Vision）

【论文】评估可扩展贝叶斯深度学习强大的计算机视觉的方法（Evaluating Scalable Bayesian Deep LearningMethods for Robust Computer Vision）

专知会员服务

12+阅读 · 2020年1月13日

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

【论文推荐】将机器语言模型扩展到人类级别的语言理解，Extending Machine Language Models toward Human-Level Language Understanding

专知会员服务

18+阅读 · 2019年12月14日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

AINLP

10+阅读 · 2019年2月9日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新五篇命名实体识别相关论文—深度主动学习、Lattice LSTM、混合马尔可夫CRF

【论文推荐】最新五篇命名实体识别相关论文—深度主动学习、Lattice LSTM、混合马尔可夫CRF

专知

26+阅读 · 2018年5月22日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

专知

29+阅读 · 2018年3月12日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

相关论文

Evaluating ChatGPT's Performance for Multilingual and Emoji-based Hate Speech Detection

Arxiv

0+阅读 · 2023年5月23日

SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim Verification on Scientific Tables

Arxiv

0+阅读 · 2023年5月22日

LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities

Arxiv

21+阅读 · 2023年5月22日

DUMB: A Benchmark for Smart Evaluation of Dutch Models

Arxiv

0+阅读 · 2023年5月22日

Towards Code Generation from BDD Test Case Specifications: A Vision

Arxiv

0+阅读 · 2023年5月19日

Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering

Arxiv

0+阅读 · 2023年5月19日

A Parameter-Efficient Learning Approach to Arabic Dialect Identification with Pre-Trained General-Purpose Speech Model

Arxiv

0+阅读 · 2023年5月18日

ML-SUPERB: Multilingual Speech Universal PERformance Benchmark

Arxiv

0+阅读 · 2023年5月18日

Sequential Best-Arm Identification with Application to Brain-Computer Interface

Arxiv

0+阅读 · 2023年5月17日

Recent Advances in Deep Learning-based Dialogue Systems

Arxiv

18+阅读 · 2021年5月10日

相关基金

随机多尺度系统的亚稳态理论

国家自然科学基金

0+阅读 · 2015年12月31日

大型液闪探测器的精确快速事例重建

国家自然科学基金

0+阅读 · 2015年12月31日

以基因功能研究为基础的结直肠癌易感区段10q22.3的精细定位

国家自然科学基金

0+阅读 · 2015年12月31日

HER2亲和体-凋亡素靶向诊断与治疗分子探针的构建及其在乳腺癌中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

遥感影像虚假地形感知现象自动消除技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

稀土氧化物修饰三维介孔镍基催化剂对SOFC阳极抗积碳和强度研究

国家自然科学基金

0+阅读 · 2013年12月31日

无电滞后钛酸铋钠基电致伸缩陶瓷的结构调控及其机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

粉尘爆炸点火源点燃机理、风险评价与预防

国家自然科学基金

0+阅读 · 2011年12月31日

超声介导靶向微泡携带Foxp3 siRNA特异性抑制Treg细胞增强抗肿瘤免疫研究

国家自然科学基金

0+阅读 · 2011年12月31日

多发性硬化相关microRNA和靶基因鉴定及其对Th17和Treg细胞生成及分化的作用

国家自然科学基金

0+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员