We propose kDOT, a discrete optimal transport (OT) framework for voice conversion (VC) operating in a pretrained speech embedding space. In contrast to the averaging strategies used in kNN-VC and SinkVC, and the independence assumption adopted in MKL, our method employs the barycentric projection of the discrete OT plan to construct a transport map between source and target speaker embedding distributions. We conduct a comprehensive ablation study over the number of transported embeddings and systematically analyze the impact of source and target utterance duration. Experiments on LibriSpeech demonstrate that OT with barycentric projection consistently improves distribution alignment and often outperforms averaging-based approaches in terms of WER, MOS, and FAD. Furthermore, we show that applying discrete OT as a post-processing step can transform spoofed speech into samples that are misclassified as bona fide by a state-of-the-art spoofing detector. This demonstrates the strong domain adaptation capability of OT in embedding space, while also revealing important security implications for spoof detection systems.


翻译:我们提出了kDOT,一种在预训练语音嵌入空间中运行的离散最优传输(OT)语音转换(VC)框架。与kNN-VC和SinkVC中使用的平均策略以及MKL中采用的独立性假设不同,我们的方法利用离散OT计划的质心投影来构建源说话人与目标说话人嵌入分布之间的传输映射。我们针对传输嵌入数量进行了全面的消融研究,并系统分析了源话语与目标话语时长的影响。在LibriSpeech上的实验表明,采用质心投影的OT能够持续改善分布对齐,并且在WER、MOS和FAD指标上通常优于基于平均的方法。此外,我们证明将离散OT作为后处理步骤,可以欺骗最先进的欺骗检测器,将合成语音转换为被误判为真实语音的样本。这展示了OT在嵌入空间中的强大领域自适应能力,同时也揭示了欺骗检测系统中重要的安全隐患。

0
下载
关闭预览

相关内容

【博士论文】最优传输图表示学习,204页pdf
专知会员服务
46+阅读 · 2023年10月25日
专知会员服务
47+阅读 · 2021年7月26日
用Attention玩转CV,一文总览自注意力语义分割进展
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 6月14日
Arxiv
0+阅读 · 6月7日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员