We propose Universal Speech Content Factorization (USCF), a simple and invertible linear method for extracting a low-rank speech representation in which speaker timbre is suppressed while phonetic content is preserved. USCF extends Speech Content Factorization, a closed-set voice conversion (VC) method, to an open-set setting by learning a universal speech-to-content mapping via least-squares optimization and deriving speaker-specific transformations from only a few seconds of target speech. We show through embedding analysis that USCF effectively removes speaker-dependent variation. As a zero-shot VC system, USCF achieves competitive intelligibility, naturalness, and speaker similarity compared to methods that require substantially more target-speaker data or additional neural training. Finally, we demonstrate that as a training-efficient timbre-disentangled speech feature, USCF features can serve as the acoustic representation for training timbre-prompted text-to-speech models. Speech samples and code are publicly available.


翻译:我们提出通用语音内容因式分解(USCF),这是一种简单且可逆的线性方法,用于提取低秩语音表示,其中说话人音色被抑制而语音内容得以保留。USCF将语音内容因式分解这种闭集语音转换(VC)方法扩展到开集场景,通过最小二乘优化学习通用的语音到内容映射,并仅需数秒目标语音即可推导出说话人特定变换。通过嵌入分析表明,USCF有效去除了说话人依赖的变化。作为零样本语音转换系统,USCF在可懂度、自然度和说话人相似度方面与需要更多目标说话人数据或额外神经训练的方法相比具有竞争力。最后,我们证明作为训练高效的音色解耦语音特征,USCF特征可作为声学表示用于训练音色提示文本转语音模型。语音样本和代码已公开提供。

0
下载
关闭预览

相关内容

【普林斯顿博士论文】用于语音的生成式通用模型
专知会员服务
19+阅读 · 2025年12月3日
用Attention玩转CV,一文总览自注意力语义分割进展
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
5+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关VIP内容
【普林斯顿博士论文】用于语音的生成式通用模型
专知会员服务
19+阅读 · 2025年12月3日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员