Discrete Optimal Transport and Voice Conversion - 专知论文

会员服务 ·

0

离散 · 传输 · 嵌入 · 最优 · 最优传输 ·

Discrete Optimal Transport and Voice Conversion

翻译：离散最优传输与语音转换

Anton Selitskiy,Maitreya Kocharekar

from arxiv, 5 pages, 1 figure, 7 table

We propose kDOT, a discrete optimal transport (OT) framework for voice conversion (VC) operating in a pretrained speech embedding space. In contrast to the averaging strategies used in kNN-VC and SinkVC, and the independence assumption adopted in MKL, our method employs the barycentric projection of the discrete OT plan to construct a transport map between source and target speaker embedding distributions. We conduct a comprehensive ablation study over the number of transported embeddings and systematically analyze the impact of source and target utterance duration. Experiments on LibriSpeech demonstrate that OT with barycentric projection consistently improves distribution alignment and often outperforms averaging-based approaches in terms of WER, MOS, and FAD. Furthermore, we show that applying discrete OT as a post-processing step can transform spoofed speech into samples that are misclassified as bona fide by a state-of-the-art spoofing detector. This demonstrates the strong domain adaptation capability of OT in embedding space, while also revealing important security implications for spoof detection systems.

翻译：我们提出kDOT，一种在预训练语音嵌入空间中运行的离散最优传输（OT）语音转换（VC）框架。与kNN-VC和SinkVC中使用的平均策略以及MKL中采用的独立性假设不同，我们的方法利用离散OT方案的重心投影来构建源说话人与目标说话人嵌入分布之间的传输映射。我们对传输嵌入数量进行了全面的消融研究，并系统分析了源与目标话语时长的影响。LibriSpeech上的实验表明，采用重心投影的OT能持续改善分布对齐，并在WER、MOS和FAD指标上常优于基于平均的方法。此外，我们证明将离散OT作为后处理步骤，可将伪造语音转化为被最先进伪造检测器误判为真实语音的样本。这揭示了OT在嵌入空间中强大的域适应能力，同时也暴露了伪造检测系统的重要安全隐患。

0

相关内容

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

专知会员服务

13+阅读 · 1月28日

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

专知会员服务

12+阅读 · 2025年9月4日

【AAAI2025】StableVC：基于条件流匹配的风格可控零样本语音转换

【AAAI2025】StableVC：基于条件流匹配的风格可控零样本语音转换

专知会员服务

12+阅读 · 2024年12月15日

【博士论文】最优传输的进展：低秩结构及其在机器学习中的应用，364页pdf

【博士论文】最优传输的进展：低秩结构及其在机器学习中的应用，364页pdf

专知会员服务

49+阅读 · 2023年10月26日

【博士论文】最优传输图表示学习，204页pdf

【博士论文】最优传输图表示学习，204页pdf

专知会员服务

46+阅读 · 2023年10月25日

ICML2023教程《学习、控制与动力系统中的最优传输》, 附406页Slides

ICML2023教程《学习、控制与动力系统中的最优传输》, 附406页Slides

专知会员服务

33+阅读 · 2023年9月24日

【SIAM2021】机器学习最优传输，63页ppt教程

专知会员服务

47+阅读 · 2021年7月26日

【经典书】计算最优传输，209页pdf，Computational Optimal Transport

【经典书】计算最优传输，209页pdf，Computational Optimal Transport

专知会员服务

75+阅读 · 2021年1月10日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知会员服务

66+阅读 · 2020年6月22日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

【经典书】计算最优传输，209页pdf，Computational Optimal Transport

【经典书】计算最优传输，209页pdf，Computational Optimal Transport

专知

16+阅读 · 2021年1月10日

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

用Attention玩转CV，一文总览自注意力语义分割进展

用Attention玩转CV，一文总览自注意力语义分割进展

机器之心

14+阅读 · 2019年8月26日

近期语音类前沿论文

近期语音类前沿论文

深度学习每日摘要

14+阅读 · 2019年3月17日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

针对下一代广播通信系统中低密度奇偶校验码的研究和分析

国家自然科学基金

0+阅读 · 2016年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高速相干光OFDM通信系统基于Viterbi算法最大似然序列检测的噪声补偿算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Absorbing Discrete Diffusion for Speech Enhancement

Arxiv

0+阅读 · 2月25日

MeanVoiceFlow: One-step Nonparallel Voice Conversion with Mean Flows

Arxiv

0+阅读 · 2月20日

Discrete-Space Generative AI Pipeline for Semantic Transmission of Signals

Arxiv

0+阅读 · 2月14日

Speech to Speech Synthesis for Voice Impersonation

Arxiv

0+阅读 · 2月13日

Transmit or Idle: Efficient AoI Optimal Transmission Policy for Gossiping Receivers

Arxiv

0+阅读 · 2月12日

Fast and Large-Scale Unbalanced Optimal Transport via its Semi-Dual and Adaptive Gradient Methods

Arxiv

0+阅读 · 2月11日

Diffusion-based Signal Refiner for Speech Enhancement and Separation

Arxiv

0+阅读 · 2月10日

Riemannian Neural Optimal Transport

Arxiv

0+阅读 · 2月3日

Dual-View Predictive Diffusion: Lightweight Speech Enhancement via Spectrogram-Image Synergy

Arxiv

0+阅读 · 1月31日

Optimal Transport under Group Fairness Constraints

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

0+阅读 · 31分钟前

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

0+阅读 · 25分钟前

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

0+阅读 · 30分钟前

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

4+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

5+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

4+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

2+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

5+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

2+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

3+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

13+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

13+阅读 · 7月16日

相关VIP内容

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

降解语音：通过输入操控实现鲁棒性语音转换的全面综述

专知会员服务

13+阅读 · 1月28日

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究

专知会员服务

12+阅读 · 2025年9月4日

【AAAI2025】StableVC：基于条件流匹配的风格可控零样本语音转换

【AAAI2025】StableVC：基于条件流匹配的风格可控零样本语音转换

专知会员服务

12+阅读 · 2024年12月15日

【博士论文】最优传输的进展：低秩结构及其在机器学习中的应用，364页pdf

【博士论文】最优传输的进展：低秩结构及其在机器学习中的应用，364页pdf

专知会员服务

49+阅读 · 2023年10月26日

【博士论文】最优传输图表示学习，204页pdf

【博士论文】最优传输图表示学习，204页pdf

专知会员服务

46+阅读 · 2023年10月25日

ICML2023教程《学习、控制与动力系统中的最优传输》, 附406页Slides

ICML2023教程《学习、控制与动力系统中的最优传输》, 附406页Slides

专知会员服务

33+阅读 · 2023年9月24日

【SIAM2021】机器学习最优传输，63页ppt教程

专知会员服务

47+阅读 · 2021年7月26日

【经典书】计算最优传输，209页pdf，Computational Optimal Transport

【经典书】计算最优传输，209页pdf，Computational Optimal Transport

专知会员服务

75+阅读 · 2021年1月10日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知会员服务

66+阅读 · 2020年6月22日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

热门VIP内容

开通专知VIP会员享更多权益服务

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

相关资讯

【经典书】计算最优传输，209页pdf，Computational Optimal Transport

【经典书】计算最优传输，209页pdf，Computational Optimal Transport

专知

16+阅读 · 2021年1月10日

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

武大提出FarSeg：遥感图像分割新网络，解决前景背景不平衡问题 | CVPR 2020

CVer

17+阅读 · 2020年7月10日

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

【MIT】最优传输图神经网络，Optimal Transport Graph Neural Networks

专知

18+阅读 · 2020年6月22日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

用Attention玩转CV，一文总览自注意力语义分割进展

用Attention玩转CV，一文总览自注意力语义分割进展

机器之心

14+阅读 · 2019年8月26日

近期语音类前沿论文

近期语音类前沿论文

深度学习每日摘要

14+阅读 · 2019年3月17日

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】

人工智能前沿讲习班

74+阅读 · 2019年1月29日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

相关论文

Absorbing Discrete Diffusion for Speech Enhancement

Arxiv

0+阅读 · 2月25日

MeanVoiceFlow: One-step Nonparallel Voice Conversion with Mean Flows

Arxiv

0+阅读 · 2月20日

Discrete-Space Generative AI Pipeline for Semantic Transmission of Signals

Arxiv

0+阅读 · 2月14日

Speech to Speech Synthesis for Voice Impersonation

Arxiv

0+阅读 · 2月13日

Transmit or Idle: Efficient AoI Optimal Transmission Policy for Gossiping Receivers

Arxiv

0+阅读 · 2月12日

Fast and Large-Scale Unbalanced Optimal Transport via its Semi-Dual and Adaptive Gradient Methods

Arxiv

0+阅读 · 2月11日

Diffusion-based Signal Refiner for Speech Enhancement and Separation

Arxiv

0+阅读 · 2月10日

Riemannian Neural Optimal Transport

Arxiv

0+阅读 · 2月3日

Dual-View Predictive Diffusion: Lightweight Speech Enhancement via Spectrogram-Image Synergy

Arxiv

0+阅读 · 1月31日

Optimal Transport under Group Fairness Constraints

Arxiv

0+阅读 · 1月30日

相关基金

针对下一代广播通信系统中低密度奇偶校验码的研究和分析

国家自然科学基金

0+阅读 · 2016年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高速相干光OFDM通信系统基于Viterbi算法最大似然序列检测的噪声补偿算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员