Assessing the Ability of Neural TTS Systems to Model Consonant-Induced F0 Perturbation

This study proposes a segmental-level prosodic probing framework to evaluate neural TTS models' ability to reproduce consonant-induced f0 perturbation, a fine-grained segmental-prosodic effect that reflects local articulatory mechanisms. We compare synthetic and natural speech realizations for thousands of words, stratified by lexical frequency, using Tacotron 2 and FastSpeech 2 trained on the same speech corpus (LJ Speech). These controlled analyses are then complemented by a large-scale evaluation spanning multiple advanced TTS systems. Results show accurate reproduction for high-frequency words but poor generalization to low-frequency items, suggesting that the examined TTS architectures rely more on lexical-level memorization than on abstract segmental-prosodic encoding. This finding highlights a limitation in such TTS systems' ability to generalize prosodic detail beyond seen data. The proposed probe offers a linguistically informed diagnostic framework that may inform future TTS evaluation methods, and has implications for interpretability and authenticity assessment in synthetic speech.

翻译：本研究提出了一种分段级韵律探测框架，用于评估神经TTS模型再现辅音诱导的基频扰动（一种反映局部发音机制的细粒度分段-韵律效应）的能力。我们利用在相同语音语料库（LJ Speech）上训练的Tacotron 2和FastSpeech 2，对数千个按词频分层的单词，比较了合成语音与自然语音的实现。这些控制性分析随后通过覆盖多个先进TTS系统的大规模评估得以补充。结果表明，高频词能准确再现，但低频词的泛化性能较差，这表明所考察的TTS架构更多依赖于词汇级记忆而非抽象的分段-韵律编码。这一发现凸显了此类TTS系统在将韵律细节泛化至未见数据方面的局限性。所提出的探测框架提供了一个基于语言学知识的诊断工具，可为未来的TTS评估方法提供参考，并对合成语音的可解释性与真实性评估具有重要意义。

相关内容

语音合成

关注 491

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。

《运用人工神经网络的防空系统威胁评估模型》

专知会员服务

16+阅读 · 2月21日

《利用星基增强系统（SBAS）信号进行射频干扰（RFI）检测与特征分析》

专知会员服务

12+阅读 · 2025年11月2日

推荐系统与大语言模型技术融合：EMNLP/NeurIPS相关论文导览

专知会员服务

20+阅读 · 2024年10月14日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

51+阅读 · 2024年6月30日