Ramsa is a developing 41-hour speech corpus of Emirati Arabic designed to support sociolinguistic research and low-resource language technologies. It contains recordings from structured interviews with native speakers and episodes from national television shows. The corpus features 157 speakers (59 female, 98 male), spans subdialects such as Urban, Bedouin, and Mountain/Shihhi, and covers topics such as cultural heritage, agriculture and sustainability, daily life, professional trajectories, and architecture. It consists of 91 monologic and 79 dialogic recordings, varying in length and recording conditions. A 10\% subset was used to evaluate commercial and open-source models for automatic speech recognition (ASR) and text-to-speech (TTS) in a zero-shot setting to establish initial baselines. Whisper-large-v3-turbo achieved the best ASR performance, with average word and character error rates of 0.268 and 0.144, respectively. MMS-TTS-Ara reported the best mean word and character rates of 0.285 and 0.081, respectively, for TTS. These baselines are competitive but leave substantial room for improvement. The paper highlights the challenges encountered and provides directions for future work.


翻译:Ramsa是一个正在构建的41小时阿联酋阿拉伯语语音语料库,旨在支持社会语言学研究和低资源语言技术开发。它包含来自与母语者的结构化访谈以及国家电视节目片段的录音。该语料库涵盖157名说话者(59名女性,98名男性),涉及城市、贝都因和山区/希希等次方言,主题覆盖文化遗产、农业与可持续性、日常生活、职业轨迹和建筑。它包含91段独白和79段对话录音,时长和录音条件各异。使用10%的子集在零样本设置下评估了商业和开源模型的自动语音识别(ASR)与文本转语音(TTS)性能,以建立初始基线。Whisper-large-v3-turbo在ASR中取得了最佳性能,平均词错误率和字符错误率分别为0.268和0.144。MMS-TTS-Ara在TTS中报告了最佳平均词错误率和字符错误率,分别为0.285和0.081。这些基线具有竞争力,但仍有显著的改进空间。本文重点阐述了所遇到的挑战,并为未来工作提供了方向。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【EPFL博士论文】基于transformer的高效语音识别,162页pdf
专知会员服务
45+阅读 · 2023年2月18日
【干货书】Python语音计算导论,408页pdf
专知会员服务
105+阅读 · 2020年7月12日
收藏 | 中文公开聊天语料库及使用方法(附链接)
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
基于 rasa 搭建中文对话系统 | 公开课
AI研习社
16+阅读 · 2018年1月12日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
2+阅读 · 今天3:12
(中文)认知战的本体论基础(2026报告)
专知会员服务
16+阅读 · 今天1:45
美空军条令(2026):外国对内防御
专知会员服务
3+阅读 · 今天1:32
美国与以色列如何在攻击伊朗中使用人工智能
专知会员服务
7+阅读 · 4月16日
《自动化战略情报管控》
专知会员服务
3+阅读 · 4月16日
得失评估:审视对伊朗战争的轨迹(简报)
专知会员服务
3+阅读 · 4月16日
【CMU博士论文】迈向可解释机器学习的理论基础
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员