Expressive paragraph text-to-speech synthesis with multi-step variational autoencoder

Neural networks have been able to generate high-quality single-sentence speech with high expressiveness. However, it remains a challenge concerning paragraph-level speech synthesis due to the need for coherent acoustic features while delivering sentence styles. Meanwhile, training those models directly on over-length speech suffers from degrading synthesizing quality. This paper proposes a high-quality and expressive paragraph speech synthesis system with a multi-step variational autoencoder. Our approach employs multi-step latent variables to capture speech information and predicts them with text information separately at different grammatical levels. We also propose a three-step training method to promote the performance of the decoupling process. The proposed TTS model was trained on a single-speaker French audiobook corpus released at Blizzard Challenge 2023. Experimental results underscore the significant superiority of our system over baseline models.

翻译：神经网络已能生成高质量且富有表现力的单句语音。然而，由于需要在传递句子风格的同时保持声学特征的一致性，段落级语音合成仍然是一个挑战。同时，直接在超长语音上训练这些模型会导致合成质量下降。本文提出了一种基于多步变分自编码器的高质量且富有表现力的段落语音合成系统。我们的方法采用多步潜变量来捕获语音信息，并在不同语法层级上分别使用文本信息对其进行预测。我们还提出了一种三步训练方法，以提升解耦过程的性能。所提出的TTS模型在Blizzard Challenge 2023发布的单说话人法语有声书语料库上进行了训练。实验结果凸显了我们的系统相较于基线模型的显著优势。

相关内容

语音合成

关注 491

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。

Linux导论，Introduction to Linux，96页ppt

专知会员服务

82+阅读 · 2020年7月26日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

【WSDM2020】超越统计关系：将知识关系整合到多标签音乐风格分类的风格关联中（附pdf）

专知会员服务

18+阅读 · 2019年11月23日

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

专知会员服务

34+阅读 · 2019年10月18日