In voice conversion (VC) applications, diffusion and flow-matching models have exhibited exceptional speech quality and speaker similarity performances. However, they are limited by slow conversion owing to their iterative inference. Consequently, we propose MeanVoiceFlow, a novel one-step nonparallel VC model based on mean flows, which can be trained from scratch without requiring pretraining or distillation. Unlike conventional flow matching that uses instantaneous velocity, mean flows employ average velocity to more accurately compute the time integral along the inference path in a single step. However, training the average velocity requires its derivative to compute the target velocity, which can cause instability. Therefore, we introduce a structural margin reconstruction loss as a zero-input constraint, which moderately regularizes the input-output behavior of the model without harmful statistical averaging. Furthermore, we propose conditional diffused-input training in which a mixture of noise and source data is used as input to the model during both training and inference. This enables the model to effectively leverage source information while maintaining consistency between training and inference. Experimental results validate the effectiveness of these techniques and demonstrate that MeanVoiceFlow achieves performance comparable to that of previous multi-step and distillation-based models, even when trained from scratch. Audio samples are available at https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/meanvoiceflow/.


翻译:在语音转换应用中,扩散模型与流匹配模型已展现出卓越的语音质量与说话人相似度表现。然而,由于其迭代推理特性,这些模型存在转换速度缓慢的局限。为此,我们提出MeanVoiceFlow——一种基于均值流的新型单步非平行语音转换模型,该模型无需预训练或蒸馏即可从头训练。与使用瞬时速度的传统流匹配方法不同,均值流采用平均速度以更精确地单步计算推理路径上的时间积分。然而,训练平均速度需通过其导数计算目标速度,这可能引发训练不稳定。因此,我们引入结构边际重构损失作为零输入约束,该约束可在不产生有害统计平均的前提下,适度正则化模型的输入-输出行为。此外,我们提出条件扩散输入训练方法,即在训练与推理阶段均使用噪声与源数据的混合体作为模型输入。这使得模型能有效利用源信息,同时保持训练与推理阶段的一致性。实验结果验证了这些技术的有效性,并表明MeanVoiceFlow即使从头训练,其性能仍可与先前的多步模型及基于蒸馏的模型相媲美。音频样本可在 https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/meanvoiceflow/ 获取。

0
下载
关闭预览

相关内容

绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
7+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
15+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
3+阅读 · 4月12日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员