Modern voice cloning, also known as zero-shot text-to-speech (TTS), can synthesize speech that closely matches a target speaker from only seconds of reference audio, enabling applications such as personalized speech interfaces and dubbing. In practice, these systems often face noisy reference audio, imperfect text prompts, multilingual and long-form generation, post-processing, and adversarial perturbations, all of which can weaken robustness. Despite rapid progress in codec-token language models and diffusion-based TTS, robustness under realistic deployment shifts remains underexplored. This paper introduces RVCBench, a comprehensive dataset and benchmark for evaluating robustness in voice cloning. RVCBench provides task-aligned tests covering controlled text-audio pairing, multilingual and long-form scenarios, expressive prompts, post-processing conditions, and passive or proactive audio perturbations. Across 18 robustness evaluations, 225 speakers, and 14,370 utterances, RVCBench supports unified evaluation of input sensitivity, generation stability, output resilience, perturbation robustness, speaker similarity, and deepfake detectability. We evaluate 18 representative open-source voice cloning models and reveal systematic vulnerabilities in content consistency, speaker similarity, long-form stability, post-processing resilience, adversarial robustness, and detector-facing separability. We release the code and dataset to support reproducible evaluation and future research on robust voice cloning, speech synthesis, and audio generation. Code: https://github.com/Nanboy-Ronan/RVCBench. Dataset: https://huggingface.co/datasets/Nanboy/RVCBench.


翻译:现代语音克隆技术(也称为零样本文本转语音)能够仅凭数秒参考音频合成与目标说话人高度匹配的语音,从而支持个性化语音界面与配音等应用。实际应用中,这些系统常面临含噪参考音频、不完美文本提示、多语言与长文本生成、后处理以及对抗性扰动等问题,这些因素均可能削弱系统鲁棒性。尽管编解码器令牌语言模型与扩散式TTS技术发展迅速,但真实部署场景下的鲁棒性研究仍显不足。本文提出RVCBench——一个用于评估语音克隆鲁棒性的综合数据集与基准测试框架。RVCBench提供任务对齐的测试项目,涵盖受控文本-音频配对、多语言与长文本场景、情感化提示、后处理条件以及被动/主动音频扰动。通过18项鲁棒性评估、225位说话人及14,370条语音数据,RVCBench支持对输入敏感性、生成稳定性、输出韧性、扰动鲁棒性、说话人相似度及深度伪造检测能力进行统一评估。我们对18个代表性开源语音克隆模型进行评测,揭示了其在内容一致性、说话人相似度、长文本稳定性、后处理韧性、对抗鲁棒性及检测器可分离性方面的系统性缺陷。我们已公开代码与数据集,以支持可复现的评估及未来在鲁棒语音克隆、语音合成与音频生成领域的研究。代码:https://github.com/Nanboy-Ronan/RVCBench。数据集:https://huggingface.co/datasets/Nanboy/RVCBench。

0
下载
关闭预览

相关内容

音退化问题:基于输入操控的鲁棒语音转换综述
专知会员服务
8+阅读 · 2025年12月20日
【ICLR2025】VEVO:基于自监督解耦的可控零样本语音模仿
专知会员服务
9+阅读 · 2025年2月15日
迈向可控语音合成:大语言模型时代的综述
专知会员服务
24+阅读 · 2024年12月13日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
专知会员服务
31+阅读 · 2021年8月16日
语音信号处理:基本方法与前沿技术
AINLP
10+阅读 · 2020年10月14日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员