CTC-TTS: LLM-based dual-streaming text-to-speech with CTC alignment

Large-language-model (LLM)-based text-to-speech (TTS) systems can generate natural speech, but most are not designed for low-latency dual-streaming synthesis. High-quality dual-streaming TTS depends on accurate text--speech alignment and well-designed training sequences that balance synthesis quality and latency. Prior work often relies on GMM-HMM based forced-alignment toolkits (e.g., MFA), which are pipeline-heavy and less flexible than neural aligners; fixed-ratio interleaving of text and speech tokens struggles to capture text--speech alignment regularities. We propose CTC-TTS, which replaces MFA with a CTC based aligner and introduces a bi-word based interleaving strategy. Two variants are designed: CTC-TTS-L (token concatenation along the sequence length) for higher quality and CTC-TTS-F (embedding stacking along the feature dimension) for lower latency. Experiments show that CTC-TTS outperforms fixed-ratio interleaving and MFA-based baselines on streaming synthesis and zero-shot tasks. Speech samples are available at https://ctctts.github.io/.

翻译：基于大语言模型（LLM）的文本转语音（TTS）系统能够生成自然语音，但多数系统并未针对低延迟的双流式合成进行设计。高质量的双流式TTS依赖于准确的文本-语音对齐以及精心设计的训练序列，以平衡合成质量与延迟。先前的研究通常依赖于基于GMM-HMM的强制对齐工具包（如MFA），这类工具流程复杂且灵活性不及神经对齐器；而固定比例交织文本与语音标记的方法难以捕捉文本-语音对齐的规律性。我们提出CTC-TTS系统，该系统使用基于CTC的对齐器替代MFA，并引入基于双词的交织策略。我们设计了两种变体：CTC-TTS-L（沿序列长度方向进行标记拼接）以追求更高音质，以及CTC-TTS-F（沿特征维度进行嵌入堆叠）以实现更低延迟。实验表明，在流式合成与零样本任务上，CTC-TTS均优于固定比例交织及基于MFA的基线方法。语音样本可在 https://ctctts.github.io/ 获取。

相关内容

语音合成

关注 491

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。

迈向可控语音合成：大语言模型时代的综述

专知会员服务

24+阅读 · 2024年12月13日

《语音大语言模型》最新进展综述

专知会员服务

57+阅读 · 2024年10月8日

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

专知会员服务

31+阅读 · 2024年9月26日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日