There is a major shortage of Speech-to-Speech Translation (S2ST) datasets for high resource-to-low resource language pairs such as English-to-Yoruba. Thus, in this study, we curated the Bilingual English-to-Yoruba Speech-to-Speech Translation Corpus Version 1 (BENYO-S2ST-Corpus-1). The corpus is based on a hybrid architecture we developed for large-scale direct S2ST corpus creation at reduced cost. To achieve this, we leveraged non speech-to-speech Standard Yoruba (SY) real-time audios and transcripts in the YORULECT Corpus as well as the corresponding Standard English (SE) transcripts. YORULECT Corpus is small scale(1,504) samples, and it does not have paired English audios. Therefore, we generated the SE audios using pre-trained AI models (i.e. Facebook MMS). We also developed an audio augmentation algorithm named AcoustAug based on three latent acoustic features to generate augmented audios from the raw audios of the two languages. BENYO-S2ST-Corpus-1 has 12,032 audio samples per language, which gives a total of 24,064 sample size. The total audio duration for the two languages is 41.20 hours. This size is quite significant. Beyond building S2ST models, BENYO-S2ST-Corpus-1 can be used to build pretrained models or improve existing ones. The created corpus and Coqui framework were used to build a pretrained Yoruba TTS model (named YoruTTS-1.5) as a proof of concept. The YoruTTS-1.5 gave a F0 RMSE value of 63.54 after 1,000 epochs, which indicates moderate fundamental pitch similarity with the reference real-time audio. Ultimately, the corpus architecture in this study can be leveraged by researchers and developers to curate datasets for multilingual high-resource-to-low-resource African languages. This will bridge the huge digital divides in translations among high and low-resource language pairs. BENYO-S2ST-Corpus-1 and YoruTTS-1.5 are publicly available at (https://bit.ly/40bGMwi).


翻译:对于高资源到低资源的语言对(如英语到约鲁巴语),语音到语音翻译(S2ST)数据集存在严重短缺。因此,在本研究中,我们构建了双语英语到约鲁巴语语音到语音翻译语料库版本1(BENYO-S2ST-Corpus-1)。该语料库基于我们开发的一种混合架构,旨在以较低成本创建大规模的直接S2ST语料库。为实现这一目标,我们利用了YORULECT语料库中的非语音到语音标准约鲁巴语(SY)实时音频和转录文本,以及对应的标准英语(SE)转录文本。YORULECT语料库规模较小(1,504个样本),且没有配对的英语音频。因此,我们使用预训练的AI模型(即Facebook MMS)生成了SE音频。我们还开发了一种名为AcoustAug的音频增强算法,该算法基于三种潜在声学特征,从两种语言的原始音频生成增强音频。BENYO-S2ST-Corpus-1每种语言包含12,032个音频样本,总计24,064个样本。两种语言的总音频时长为41.20小时。这一规模相当可观。除了构建S2ST模型外,BENYO-S2ST-Corpus-1还可用于构建预训练模型或改进现有模型。作为概念验证,我们利用创建的语料库和Coqui框架构建了一个预训练的约鲁巴语TTS模型(命名为YoruTTS-1.5)。YoruTTS-1.5在1,000个训练周期后,其F0 RMSE值为63.54,这表明其基频与参考实时音频具有中等程度的相似性。最终,本研究中的语料库架构可供研究者和开发者借鉴,用于为多语言的高资源到低资源非洲语言构建数据集。这将弥合高资源和低资源语言对之间在翻译方面存在的巨大数字鸿沟。BENYO-S2ST-Corpus-1和YoruTTS-1.5已在(https://bit.ly/40bGMwi)公开提供。

0
下载
关闭预览

相关内容

【CVPR2024】SHiNe:用于开放词汇目标检测的语义层次枢纽
专知会员服务
14+阅读 · 2024年5月18日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
34+阅读 · 2020年4月5日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员