We present the LEMAS-Dataset, which, to our knowledge, is currently the largest open-source multilingual speech corpus with word-level timestamps. Covering over 150,000 hours across 10 major languages, LEMAS-Dataset is constructed via a efficient data processing pipeline that ensures high-quality data and annotations. To validate the effectiveness of LEMAS-Dataset across diverse generative paradigms, we train two benchmark models with distinct architectures and task specializations on this dataset. LEMAS-TTS, built upon a non-autoregressive flow-matching framework, leverages the dataset's massive scale and linguistic diversity to achieve robust zero-shot multilingual synthesis. Our proposed accent-adversarial training and CTC loss mitigate cross-lingual accent issues, enhancing synthesis stability. Complementarily, LEMAS-Edit employs an autoregressive decoder-only architecture that formulates speech editing as a masked token infilling task. By exploiting precise word-level alignments to construct training masks and adopting adaptive decoding strategies, it achieves seamless, smooth-boundary speech editing with natural transitions. Experimental results demonstrate that models trained on LEMAS-Dataset deliver high-quality synthesis and editing performance, confirming the dataset's quality. We envision that this richly timestamp-annotated, fine-grained multilingual corpus will drive future advances in prompt-based speech generation systems.


翻译:本文介绍了LEMAS数据集,据我们所知,这是目前最大的开源多语言语音语料库,并包含词级时间戳标注。该数据集涵盖10种主要语言,总时长超过15万小时,通过高效的数据处理流程构建,确保了高质量的数据与标注。为验证LEMAS数据集在不同生成范式下的有效性,我们基于该数据集训练了两种具有不同架构与任务专长的基准模型。LEMAS-TTS基于非自回归流匹配框架构建,利用数据集的巨大规模与语言多样性实现了鲁棒的零样本多语言合成。我们提出的口音对抗训练与CTC损失缓解了跨语言口音问题,提升了合成稳定性。与之互补,LEMAS-Edit采用自回归仅解码器架构,将语音编辑任务形式化为掩码词元填充问题。通过利用精确的词级对齐构建训练掩码,并采用自适应解码策略,该模型实现了边界平滑、过渡自然的无缝语音编辑。实验结果表明,基于LEMAS数据集训练的模型能够提供高质量的合成与编辑性能,证实了数据集的质量。我们预计这一具有丰富时间戳标注、细粒度的多语言语料库将推动基于提示的语音生成系统的未来发展。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
预知未来——Gluon 时间序列工具包(GluonTS)
ApacheMXNet
24+阅读 · 2019年6月25日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员