While modern Text-to-Speech (TTS) systems achieve high fidelity for read-style speech, they struggle to generate Autonomous Sensory Meridian Response (ASMR), a specialized, low-intensity speech style essential for relaxation. The inherent challenges include ASMR's subtle, often unvoiced characteristics and the demand for zero-shot speaker adaptation. In this paper, we introduce DeepASMR, the first framework designed for zero-shot ASMR generation. We demonstrate that a single short snippet of a speaker's ordinary, read-style speech is sufficient to synthesize high-fidelity ASMR in their voice, eliminating the need for whispered training data from the target speaker. Methodologically, we first identify that discrete speech tokens provide a soft factorization of ASMR style from speaker timbre. Leveraging this insight, we propose a two-stage pipeline incorporating a Large Language Model (LLM) for content-style encoding and a flow-matching acoustic decoder for timbre reconstruction. Furthermore, we contribute DeepASMR-DB, a comprehensive 670-hour English-Chinese multi-speaker ASMR speech corpus, and introduce a novel evaluation protocol integrating objective metrics, human listening tests, LLM-based scoring and unvoiced speech analysis. Extensive experiments confirm that DeepASMR achieves state-of-the-art naturalness and style fidelity in ASMR generation for anyone of any voice, while maintaining competitive performance on normal speech synthesis.


翻译:尽管现代文本转语音(TTS)系统在朗读式语音上实现了高保真度,但它们难以生成自主感官经络反应(ASMR)这种对放松至关重要的、特殊的低强度语音风格。其固有挑战包括ASMR微妙且常为非浊音的特性,以及对零样本说话者自适应的需求。本文中,我们提出了DeepASMR,这是首个为零样本ASMR生成设计的框架。我们证明,仅需说话者一小段普通的朗读式语音片段,即可以其音色合成出高保真度的ASMR语音,从而无需目标说话者的耳语训练数据。在方法上,我们首先发现离散语音标记提供了ASMR风格与说话者音色的软因子分解。基于这一洞见,我们提出了一个两阶段流水线,结合了一个用于内容-风格编码的大语言模型(LLM)和一个用于音色重建的流匹配声学解码器。此外,我们贡献了DeepASMR-DB,一个包含670小时的英汉多说话者ASMR语音语料库,并引入了一种新颖的评估协议,该协议整合了客观指标、人类听感测试、基于LLM的评分以及非浊音语音分析。大量实验证实,DeepASMR在针对任意说话者任意音色的ASMR生成中,实现了最先进的自然度和风格保真度,同时在正常语音合成上保持了有竞争力的性能。

0
下载
关闭预览

相关内容

【普林斯顿博士论文】用于语音的生成式通用模型
专知会员服务
19+阅读 · 2025年12月3日
DeepSeek与其他大型语言模型的比较
专知会员服务
85+阅读 · 2025年2月9日
迈向可控语音合成:大语言模型时代的综述
专知会员服务
23+阅读 · 2024年12月13日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
【2023新书】神经文本到语音合成,214页pdf
专知会员服务
39+阅读 · 2023年6月9日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员