Habibi：奠定统一阿拉伯语方言语音合成的开源基础 (Habibi: Laying the Open-Source Foundation of Unified-Dialectal Arabic Speech Synthesis) - 专知论文

会员服务 ·

0

合成 · 语音合成 · 基准 · 基准测试 · 识别 ·

Habibi: Laying the Open-Source Foundation of Unified-Dialectal Arabic Speech Synthesis

翻译：Habibi：奠定统一阿拉伯语方言语音合成的开源基础

Yushen Chen,Junzhe Liu,Yujie Tu,Zhikang Niu,Yuzhe Liang,Kai Yu,Chunyu Qiang,Chen Zhang,Xie Chen

A notable gap persists in speech synthesis research and development for Arabic dialects, particularly from a unified modeling perspective. Despite its high practical value, the inherent linguistic complexity of Arabic dialects, further compounded by a lack of standardized data, benchmarks, and evaluation guidelines, steers researchers toward safer ground. To bridge this divide, we present Habibi, a suite of specialized and unified text-to-speech models that harnesses existing open-source ASR corpora to support a wide range of high- to low-resource Arabic dialects through linguistically-informed curriculum learning. Our approach outperforms the leading commercial service in generation quality, while maintaining extensibility through effective in-context learning, without requiring text diacritization. We are committed to open-sourcing the model, along with creating the first systematic benchmark for multi-dialect Arabic speech synthesis. Furthermore, by identifying the key challenges in and establishing evaluation standards for the process, we aim to provide a solid groundwork for subsequent research. Resources at https://SWivid.github.io/Habibi/ .

翻译：阿拉伯语方言的语音合成研究与开发领域存在显著空白，尤其缺乏统一建模视角的研究。尽管具有很高的实用价值，但阿拉伯语方言固有的语言复杂性，加之缺乏标准化数据、基准测试和评估准则，使得研究者往往选择更稳妥的研究路径。为弥合这一鸿沟，我们提出了Habibi——一套专业化、统一化的文本转语音模型套件。该套件利用现有开源自动语音识别语料库，通过基于语言学的课程学习策略，支持从高资源到低资源的广泛阿拉伯语方言。我们的方法在生成质量上超越了领先的商业服务，同时通过有效的上下文学习保持可扩展性，且无需文本标注音标符号。我们承诺将模型开源，并创建首个系统性的多方言阿拉伯语语音合成基准测试。此外，通过识别该过程中的关键挑战并建立评估标准，我们旨在为后续研究奠定坚实基础。项目资源详见 https://SWivid.github.io/Habibi/。

0

相关内容

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

专知会员服务

264+阅读 · 2023年8月4日

【哈尔滨工业大学车万翔教授】自然语言处理新范式：基于预训练的方法

【哈尔滨工业大学车万翔教授】自然语言处理新范式：基于预训练的方法

专知会员服务

66+阅读 · 2022年3月17日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

专知会员服务

17+阅读 · 2020年3月23日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

专知会员服务

21+阅读 · 2019年12月12日

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

专知会员服务

84+阅读 · 2019年11月20日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

专知

17+阅读 · 2019年12月7日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

16+阅读 · 2019年7月16日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

书单 | 语音研究进阶指南

书单 | 语音研究进阶指南

微软研究院AI头条

12+阅读 · 2019年3月22日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

大数据技术

16+阅读 · 2019年1月15日

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

谷歌开发者

16+阅读 · 2018年11月6日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

藏文化学术语规范化研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向连续语音的哈萨克语关键词识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

TurkBench: A Benchmark for Evaluating Turkish Large Language Models

Arxiv

0+阅读 · 2月3日

Dicta-LM 3.0: Advancing The Frontier of Hebrew Sovereign LLMs

Arxiv

0+阅读 · 2月2日

MedAraBench: Large-Scale Arabic Medical Question Answering Dataset and Benchmark

Arxiv

0+阅读 · 2月2日

PARSE: An Open-Domain Reasoning Question Answering Benchmark for Persian

Arxiv

0+阅读 · 2月1日

ArabicDialectHub: A Cross-Dialectal Arabic Learning Resource and Platform

Arxiv

0+阅读 · 1月30日

DuwatBench: Bridging Language and Visual Heritage through an Arabic Calligraphy Benchmark for Multimodal Understanding

Arxiv

0+阅读 · 1月27日

Arab Voices: Mapping Standard and Dialectal Arabic Speech Technology

Arxiv

0+阅读 · 1月19日

Alexandria: A Multi-Domain Dialectal Arabic Machine Translation Dataset for Culturally Inclusive and Linguistically Diverse LLMs

Arxiv

0+阅读 · 1月19日

Harmonizing the Arabic Audio Space with Data Scheduling

Arxiv

0+阅读 · 1月18日

WenetSpeech-Wu: Datasets, Benchmarks, and Models for a Unified Chinese Wu Dialect Speech Processing Ecosystem

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

最新内容

（中文）以机器速度作战：来自Maven特遣队主任的见解

（中文）以机器速度作战：来自Maven特遣队主任的见解

专知会员服务

3+阅读 · 今天3:42

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）AUKUS第二支柱中的人工智能与自主性方案

专知会员服务

2+阅读 · 今天3:24

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

0+阅读 · 今天3:12

（中文）认知战的本体论基础（2026报告）

（中文）认知战的本体论基础（2026报告）

专知会员服务

12+阅读 · 今天1:45

美空军条令（2026）：外国对内防御

美空军条令（2026）：外国对内防御

专知会员服务

2+阅读 · 今天1:32

美国与以色列如何在攻击伊朗中使用人工智能

美国与以色列如何在攻击伊朗中使用人工智能

专知会员服务

7+阅读 · 4月16日

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

7+阅读 · 4月16日

《自动化战略情报管控》

《自动化战略情报管控》

专知会员服务

3+阅读 · 4月16日

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

专知会员服务

10+阅读 · 4月16日

得失评估：审视对伊朗战争的轨迹（简报）

得失评估：审视对伊朗战争的轨迹（简报）

专知会员服务

3+阅读 · 4月16日

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

4+阅读 · 4月16日

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

专知会员服务

4+阅读 · 4月16日

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

4+阅读 · 4月16日

《基于强化学习的反无人机蜂群拦截优先级排序》

《基于强化学习的反无人机蜂群拦截优先级排序》

专知会员服务

10+阅读 · 4月16日

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

专知会员服务

5+阅读 · 4月16日

相关VIP内容

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

大语言模型基准综述

大语言模型基准综述

专知会员服务

27+阅读 · 2025年8月22日

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

专知会员服务

264+阅读 · 2023年8月4日

【哈尔滨工业大学车万翔教授】自然语言处理新范式：基于预训练的方法

【哈尔滨工业大学车万翔教授】自然语言处理新范式：基于预训练的方法

专知会员服务

66+阅读 · 2022年3月17日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

【InterSpeech2020】混合语音识别系统中的词汇扩展技术，Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems

专知会员服务

17+阅读 · 2020年3月23日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

【技术报告】诺亚开源中文预训练语言模型“哪吒”（NEZHA: Neural Contextualized Representation for Chinese Language Understanding）

专知会员服务

21+阅读 · 2019年12月12日

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

【BAAI北京智源大会】自然语言处理Knowledge-Guided NLP ，清华大学刘知远，附45页PDF

专知会员服务

84+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）认知战的本体论基础（2026报告）

（中文）以机器速度作战：来自Maven特遣队主任的见解

（译文）认知战：以士兵为目标，塑造战略

相关资讯

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

专知

17+阅读 · 2019年12月7日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

16+阅读 · 2019年7月16日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

书单 | 语音研究进阶指南

书单 | 语音研究进阶指南

微软研究院AI头条

12+阅读 · 2019年3月22日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

大数据技术

16+阅读 · 2019年1月15日

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

BERT 现已开源：最先进的 NLP 预训练技术，支持中文和更多语言

谷歌开发者

16+阅读 · 2018年11月6日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

相关论文

TurkBench: A Benchmark for Evaluating Turkish Large Language Models

Arxiv

0+阅读 · 2月3日

Dicta-LM 3.0: Advancing The Frontier of Hebrew Sovereign LLMs

Arxiv

0+阅读 · 2月2日

MedAraBench: Large-Scale Arabic Medical Question Answering Dataset and Benchmark

Arxiv

0+阅读 · 2月2日

PARSE: An Open-Domain Reasoning Question Answering Benchmark for Persian

Arxiv

0+阅读 · 2月1日

ArabicDialectHub: A Cross-Dialectal Arabic Learning Resource and Platform

Arxiv

0+阅读 · 1月30日

DuwatBench: Bridging Language and Visual Heritage through an Arabic Calligraphy Benchmark for Multimodal Understanding

Arxiv

0+阅读 · 1月27日

Arab Voices: Mapping Standard and Dialectal Arabic Speech Technology

Arxiv

0+阅读 · 1月19日

Alexandria: A Multi-Domain Dialectal Arabic Machine Translation Dataset for Culturally Inclusive and Linguistically Diverse LLMs

Arxiv

0+阅读 · 1月19日

Harmonizing the Arabic Audio Space with Data Scheduling

Arxiv

0+阅读 · 1月18日

WenetSpeech-Wu: Datasets, Benchmarks, and Models for a Unified Chinese Wu Dialect Speech Processing Ecosystem

Arxiv

0+阅读 · 1月16日

相关基金

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

藏文化学术语规范化研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向连续语音的哈萨克语关键词识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员