Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

Streaming TTS that receives streaming text is essential for interactive systems, yet this scheme faces two major challenges: unnatural prosody due to missing lookahead and long-form collapse due to unbounded context. We propose a prosodic-boundary-aware post-training strategy, adapting a pretrained LLM-based TTS model using weakly time-aligned data. Specifically, the model is adapted to learn early stopping at specified content boundaries when provided with limited future text. During inference, a sliding-window prompt carries forward previous text and speech tokens, ensuring bounded context and seamless concatenation. Evaluations show our method outperforms CosyVoice-Style interleaved baseline in both short and long-form scenarios. In long-text synthesis, especially, it achieves a 66.2% absolute reduction in word error rate (from 71.0% to 4.8%) and increases speaker and emotion similarity by 16.1% and 1.5% relatively, offering a robust solution for streaming TTS with incremental text.

翻译：接收流式文本的流式文本转语音（TTS）对于交互式系统至关重要，然而该方案面临两大挑战：因缺少前瞻信息导致的韵律不自然，以及因上下文无界导致的长文本崩溃。我们提出一种韵律边界感知的后训练策略，利用弱时间对齐数据对预训练的基于大语言模型（LLM）的TTS模型进行适配。具体而言，该模型被适配为在仅提供有限未来文本时，学习在指定的内容边界处提前停止生成。在推理过程中，一个滑动窗口提示携带先前的文本和语音标记，确保上下文有界并实现无缝拼接。评估结果表明，我们的方法在短文本和长文本场景下均优于CosyVoice-Style交错基线。尤其在长文本合成中，该方法实现了66.2%的词错误率绝对降低（从71.0%降至4.8%），并将说话人相似度和情感相似度分别相对提高了16.1%和1.5%，为增量文本的流式TTS提供了一个鲁棒的解决方案。

相关内容

语音合成

关注 491

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。

《缓解大语言模型（LLMs）幻觉：面向应用的检索增强生成（RAG）、推理与智能体系统综述》

专知会员服务

24+阅读 · 2025年10月29日

【伯克利博士论文】基于代码结构感知方法推进代码生成大型语言模型的发展

专知会员服务

23+阅读 · 2025年7月21日

《语音大语言模型》最新进展综述

专知会员服务

57+阅读 · 2024年10月8日

揭示生成式人工智能 / 大型语言模型（LLMs）的军事潜力

专知会员服务

31+阅读 · 2024年9月26日