Many spoken languages, including English, exhibit wide variation in dialects and accents, making accent control an important capability for flexible text-to-speech (TTS) models. Current TTS systems typically generate accented speech by conditioning on speaker embeddings associated with specific accents. While effective, this approach offers limited interpretability and controllability, as embeddings also encode traits such as timbre and emotion. In this study, we analyze the interaction between speaker embeddings and linguistically motivated phonological rules in accented speech synthesis. Using American and British English as a case study, we implement rules for flapping, rhoticity, and vowel correspondences. We propose the phoneme shift rate (PSR), a novel metric quantifying how strongly embeddings preserve or override rule-based transformations. Experiments show that combining rules with embeddings yields more authentic accents, while embeddings can attenuate or overwrite rules, revealing entanglement between accent and speaker identity. Our findings highlight rules as a lever for accent control and a framework for evaluating disentanglement in speech generation.


翻译:包括英语在内的许多口语语言在方言和口音上表现出广泛的差异,这使得口音控制成为灵活文本转语音(TTS)模型的一项重要能力。当前的TTS系统通常通过以与特定口音相关联的说话人嵌入为条件来生成带口音的语音。这种方法虽然有效,但可解释性和可控性有限,因为嵌入同时编码了音色和情感等特征。在本研究中,我们分析了口音语音合成中说话人嵌入与基于语言学的音系规则之间的交互作用。以美式英语和英式英语为案例,我们实现了闪音化、卷舌音特性及元音对应关系的规则。我们提出了音素替换率(PSR),这是一种新颖的度量标准,用于量化嵌入在多大程度上保留或覆盖基于规则的音素转换。实验表明,将规则与嵌入相结合能产生更真实的口音,而嵌入可以减弱或覆盖规则,这揭示了口音与说话人身份之间的纠缠。我们的研究结果强调了规则作为口音控制的杠杆作用,并为评估语音生成中的解纠缠提供了一个框架。

0
下载
关闭预览

相关内容

音退化问题:基于输入操控的鲁棒语音转换综述
专知会员服务
7+阅读 · 2025年12月20日
【普林斯顿博士论文】用于语音的生成式通用模型
专知会员服务
19+阅读 · 2025年12月3日
《口语语言模型研究现状:一项全面综述》
专知会员服务
16+阅读 · 2025年4月14日
迈向可控语音合成:大语言模型时代的综述
专知会员服务
23+阅读 · 2024年12月13日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
【2023新书】神经文本到语音合成,214页pdf
专知会员服务
39+阅读 · 2023年6月9日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
书单 | 语音研究进阶指南
微软研究院AI头条
12+阅读 · 2019年3月22日
NLP实践:对话系统技术原理和应用
AI100
34+阅读 · 2019年3月20日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
音退化问题:基于输入操控的鲁棒语音转换综述
专知会员服务
7+阅读 · 2025年12月20日
【普林斯顿博士论文】用于语音的生成式通用模型
专知会员服务
19+阅读 · 2025年12月3日
《口语语言模型研究现状:一项全面综述》
专知会员服务
16+阅读 · 2025年4月14日
迈向可控语音合成:大语言模型时代的综述
专知会员服务
23+阅读 · 2024年12月13日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
【2023新书】神经文本到语音合成,214页pdf
专知会员服务
39+阅读 · 2023年6月9日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员