Aladdin-FTI @ AMIYA Three Wishes for Arabic NLP: Fidelity, Diglossia, and Multidialectal Generation - 专知论文

会员服务 ·

0

语言处理 · 系统 · 自然语言处理 · 变异性 · 代码 ·

Aladdin-FTI @ AMIYA Three Wishes for Arabic NLP: Fidelity, Diglossia, and Multidialectal Generation

翻译：Aladdin-FTI @ AMIYA：阿拉伯语自然语言处理的三个愿望：忠实性、双言现象与多方言生成

Jonathan Mutal,Perla Al Almaoui,Simon Hengchen,Pierrette Bouillon

from arxiv, 13 pages, Paper submitted to the AMIYA shared task at the VarDial workshop, co-located with EACL 2026

Arabic dialects have long been under-represented in Natural Language Processing (NLP) research due to their non-standardization and high variability, which pose challenges for computational modeling. Recent advances in the field, such as Large Language Models (LLMs), offer promising avenues to address this gap by enabling Arabic to be modeled as a pluricentric language rather than a monolithic system. This paper presents Aladdin-FTI, our submission to the AMIYA shared task. The proposed system is designed to both generate and translate dialectal Arabic (DA). Specifically, the model supports text generation in Moroccan, Egyptian, Palestinian, Syrian, and Saudi dialects, as well as bidirectional translation between these dialects, Modern Standard Arabic (MSA), and English. The code and trained model are publicly available.

翻译：阿拉伯语方言因其非标准化和高度变异性，长期以来在自然语言处理研究中处于代表性不足的状态，这为计算建模带来了挑战。该领域的最新进展，例如大型语言模型，为弥合这一差距提供了前景广阔的途径，使得阿拉伯语能够被建模为一个多中心语言而非单一体系。本文介绍了我们为AMIYA共享任务提交的Aladdin-FTI系统。所提出的系统旨在同时生成和翻译阿拉伯语方言。具体而言，该模型支持摩洛哥、埃及、巴勒斯坦、叙利亚和沙特阿拉伯方言的文本生成，以及这些方言与现代标准阿拉伯语、英语之间的双向翻译。代码与训练模型均已公开提供。

0

相关内容

语言处理

【阿姆斯特丹博士论文】语言模型与人类理解与行为的对齐

【阿姆斯特丹博士论文】语言模型与人类理解与行为的对齐

专知会员服务

18+阅读 · 2025年7月19日

【阿姆斯特丹博士论文】多语言性与多文化主义：迈向高效和包容的神经语言模型

【阿姆斯特丹博士论文】多语言性与多文化主义：迈向高效和包容的神经语言模型

专知会员服务

10+阅读 · 2025年6月4日

多语言大型语言模型：资源、分类和前沿综述

多语言大型语言模型：资源、分类和前沿综述

专知会员服务

53+阅读 · 2024年4月9日

【2023干货书】自然语言处理：概念、方法论、工具和应用

【2023干货书】自然语言处理：概念、方法论、工具和应用

专知会员服务

73+阅读 · 2023年12月2日

大型语言模型：原理、实现与发展

大型语言模型：原理、实现与发展

专知会员服务

102+阅读 · 2023年11月28日

【CMU博士论文】语言理解与生成优化技术，145页pdf

【CMU博士论文】语言理解与生成优化技术，145页pdf

专知会员服务

36+阅读 · 2023年11月22日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【NLP| 推荐文章】语言语音处理（Speech and Language Processing(3rd ed.draft)）

专知会员服务

16+阅读 · 2019年11月24日

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

专知会员服务

85+阅读 · 2019年11月20日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

阿尔伯塔大学博士毕业论文：基于图结构的自然语言处理

阿尔伯塔大学博士毕业论文：基于图结构的自然语言处理

机器之心

15+阅读 · 2020年3月25日

深度学习自然语言处理概述，116页ppt，Jiří Materna

深度学习自然语言处理概述，116页ppt，Jiří Materna

专知

38+阅读 · 2020年3月10日

自然语言处理精品资料

自然语言处理精品资料

人工智能前沿讲习班

14+阅读 · 2019年3月13日

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

新智元

30+阅读 · 2019年3月1日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

Natural 自然语言处理（NLP）「全解析」

Natural 自然语言处理（NLP）「全解析」

人工智能学家

15+阅读 · 2017年9月23日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Arabic Morphosyntactic Tagging and Dependency Parsing with Large Language Models

Arxiv

0+阅读 · 3月17日

AraModernBERT: Transtokenized Initialization and Long-Context Encoder Modeling for Arabic

Arxiv

0+阅读 · 3月12日

ALPS: A Diagnostic Challenge Set for Arabic Linguistic & Pragmatic Reasoning

Arxiv

0+阅读 · 2月19日

Curriculum Learning and Pseudo-Labeling Improve the Generalization of Multi-Label Arabic Dialect Identification Models

Arxiv

0+阅读 · 2月17日

Recent Advancements and Challenges of Turkic Central Asian Language Processing

Arxiv

0+阅读 · 2月16日

Ara-HOPE: Human-Centric Post-Editing Evaluation for Dialectal Arabic to Modern Standard Arabic Translation

Arxiv

0+阅读 · 2月14日

Dialect Matters: Cross-Lingual ASR Transfer for Low-Resource Indic Language Varieties

Arxiv

0+阅读 · 2月11日

From FusHa to Folk: Exploring Cross-Lingual Transfer in Arabic Language Models

Arxiv

0+阅读 · 2月10日

Maastricht University at AMIYA: Adapting LLMs for Dialectal Arabic using Fine-tuning and MBR Decoding

Arxiv

0+阅读 · 2月10日

ArabicDialectHub: A Cross-Dialectal Arabic Learning Resource and Platform

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

自然语言处理

最新内容

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

专知会员服务

0+阅读 · 今天14:48

博士论文 | 从算法到基础模型：强化学习的统一视角

博士论文 | 从算法到基础模型：强化学习的统一视角

专知会员服务

0+阅读 · 今天14:46

面向国防作战的最佳自主与蜂群无人机技术

面向国防作战的最佳自主与蜂群无人机技术

专知会员服务

4+阅读 · 今天8:04

《异构人类团队的协作决策过程混合建模研究》

《异构人类团队的协作决策过程混合建模研究》

专知会员服务

4+阅读 · 今天7:59

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

4+阅读 · 今天7:56

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

4+阅读 · 今天7:50

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

4+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

6+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

13+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

7+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

7+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

5+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

11+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

7+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

10+阅读 · 7月26日

相关VIP内容

【阿姆斯特丹博士论文】语言模型与人类理解与行为的对齐

【阿姆斯特丹博士论文】语言模型与人类理解与行为的对齐

专知会员服务

18+阅读 · 2025年7月19日

【阿姆斯特丹博士论文】多语言性与多文化主义：迈向高效和包容的神经语言模型

【阿姆斯特丹博士论文】多语言性与多文化主义：迈向高效和包容的神经语言模型

专知会员服务

10+阅读 · 2025年6月4日

多语言大型语言模型：资源、分类和前沿综述

多语言大型语言模型：资源、分类和前沿综述

专知会员服务

53+阅读 · 2024年4月9日

【2023干货书】自然语言处理：概念、方法论、工具和应用

【2023干货书】自然语言处理：概念、方法论、工具和应用

专知会员服务

73+阅读 · 2023年12月2日

大型语言模型：原理、实现与发展

大型语言模型：原理、实现与发展

专知会员服务

102+阅读 · 2023年11月28日

【CMU博士论文】语言理解与生成优化技术，145页pdf

【CMU博士论文】语言理解与生成优化技术，145页pdf

专知会员服务

36+阅读 · 2023年11月22日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【NLP| 推荐文章】语言语音处理（Speech and Language Processing(3rd ed.draft)）

专知会员服务

16+阅读 · 2019年11月24日

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

专知会员服务

85+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

博士论文 | 从算法到基础模型：强化学习的统一视角

《异构人类团队的协作决策过程混合建模研究》

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

面向国防作战的最佳自主与蜂群无人机技术

相关资讯

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

阿尔伯塔大学博士毕业论文：基于图结构的自然语言处理

阿尔伯塔大学博士毕业论文：基于图结构的自然语言处理

机器之心

15+阅读 · 2020年3月25日

深度学习自然语言处理概述，116页ppt，Jiří Materna

深度学习自然语言处理概述，116页ppt，Jiří Materna

专知

38+阅读 · 2020年3月10日

自然语言处理精品资料

自然语言处理精品资料

人工智能前沿讲习班

14+阅读 · 2019年3月13日

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

NLP博士答辩41页PPT，面向自然语言处理的神经网络迁移学习

新智元

30+阅读 · 2019年3月1日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

自然语言处理（NLP）知识结构总结

自然语言处理（NLP）知识结构总结

AI100

51+阅读 · 2018年8月17日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

Natural 自然语言处理（NLP）「全解析」

Natural 自然语言处理（NLP）「全解析」

人工智能学家

15+阅读 · 2017年9月23日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

相关论文

Arabic Morphosyntactic Tagging and Dependency Parsing with Large Language Models

Arxiv

0+阅读 · 3月17日

AraModernBERT: Transtokenized Initialization and Long-Context Encoder Modeling for Arabic

Arxiv

0+阅读 · 3月12日

ALPS: A Diagnostic Challenge Set for Arabic Linguistic & Pragmatic Reasoning

Arxiv

0+阅读 · 2月19日

Curriculum Learning and Pseudo-Labeling Improve the Generalization of Multi-Label Arabic Dialect Identification Models

Arxiv

0+阅读 · 2月17日

Recent Advancements and Challenges of Turkic Central Asian Language Processing

Arxiv

0+阅读 · 2月16日

Ara-HOPE: Human-Centric Post-Editing Evaluation for Dialectal Arabic to Modern Standard Arabic Translation

Arxiv

0+阅读 · 2月14日

Dialect Matters: Cross-Lingual ASR Transfer for Low-Resource Indic Language Varieties

Arxiv

0+阅读 · 2月11日

From FusHa to Folk: Exploring Cross-Lingual Transfer in Arabic Language Models

Arxiv

0+阅读 · 2月10日

Maastricht University at AMIYA: Adapting LLMs for Dialectal Arabic using Fine-tuning and MBR Decoding

Arxiv

0+阅读 · 2月10日

ArabicDialectHub: A Cross-Dialectal Arabic Learning Resource and Platform

Arxiv

0+阅读 · 1月30日

相关基金

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员