We propose a novel architecture and improved training objectives for non-parallel voice conversion. Our proposed CycleGAN-based model performs a shape-preserving transformation directly on a high frequency-resolution magnitude spectrogram, converting its style (i.e. speaker identity) while preserving the speech content. Throughout the entire conversion process, the model does not resort to compressed intermediate representations of any sort (e.g. mel spectrogram, low resolution spectrogram, decomposed network feature). We propose an efficient axial residual block architecture to support this expensive procedure and various modifications to the CycleGAN losses to stabilize the training process. We demonstrate via experiments that our proposed model outperforms Scyclone and shows a comparable or better performance to that of CycleGAN-VC2 even without employing a neural vocoder.


翻译:我们为非平行语音转换建议了一个新的结构和更好的培训目标。 我们提出的以循环GAN为基础的模型直接在高频分辨率分光度光谱仪上进行形状保护转换,转换其风格(即发言者身份),同时保留语音内容。在整个转换过程中,模型不使用任何类型的压缩中间显示器(如光谱仪、低分辨率光谱仪、分解网络功能 ) 。 我们提议建立一个高效的轴余块结构,以支持这一昂贵的程序和对循环GAN损失的各种修改,以稳定培训过程。 我们通过实验证明,我们提议的模型优于Scycon, 显示其性能与循环GAN-VC2相似或更好, 即使没有使用神经电动器。

0
下载
关闭预览

相关内容

专知会员服务
18+阅读 · 2021年3月16日
【IJCAI2020南大】上下文在神经机器翻译中的充分利用
专知会员服务
16+阅读 · 2020年8月17日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
最新内容
【NTU博士论文】3D人体动作生成
专知会员服务
2+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
10+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
8+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
3+阅读 · 4月24日
Top
微信扫码咨询专知VIP会员