Recent advances in Text-to-Speech (TTS) systems have substantially increased the realism of synthetic speech, raising new challenges for audio deepfake detection. This work presents a comparative evaluation of three state-of-the-art TTS models--Dia2, Maya1, and MeloTTS--representing streaming, LLM-based, and non-autoregressive architectures. A corpus of 12,000 synthetic audio samples was generated using the Daily-Dialog dataset and evaluated against four detection frameworks, including semantic, structural, and signal-level approaches. The results reveal significant variability in detector performance across generative mechanisms: models effective against one TTS architecture may fail against others, particularly LLM-based synthesis. In contrast, a multi-view detection approach combining complementary analysis levels demonstrates robust performance across all evaluated models. These findings highlight the limitations of single-paradigm detectors and emphasize the necessity of integrated detection strategies to address the evolving landscape of audio deepfake threats.


翻译:近年来,文本转语音(TTS)系统的显著进步极大地提升了合成语音的真实感,这为音频深度伪造检测带来了新的挑战。本研究对三种最先进的TTS模型——Dia2、Maya1和MeloTTS(分别代表流式、基于大语言模型和非自回归架构)进行了比较性评估。我们利用Daily-Dialog数据集生成了一个包含12,000个合成音频样本的语料库,并在四个检测框架(包括语义、结构和信号层面的方法)上对其进行了评估。结果显示,检测器性能在不同生成机制间存在显著差异:对某一TTS架构有效的检测模型可能对其他架构(尤其是基于大语言模型的合成方法)失效。相比之下,一种融合了互补分析层次的多视角检测方法在所有评估模型中均表现出稳健的性能。这些发现凸显了单一范式检测器的局限性,并强调了采用集成检测策略以应对不断演变的音频深度伪造威胁的必要性。

0
下载
关闭预览

相关内容

迈向可控语音合成:大语言模型时代的综述
专知会员服务
23+阅读 · 2024年12月13日
生成式AI时代的深伪媒体生成与检测:综述与展望
专知会员服务
30+阅读 · 2024年12月2日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
深度伪造生成与检测:基准测试和综述
专知会员服务
52+阅读 · 2024年3月27日
《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
41+阅读 · 2023年10月29日
【2023新书】神经文本到语音合成,214页pdf
专知会员服务
39+阅读 · 2023年6月9日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
深度伪造与检测技术综述(中文版),25页pdf
专知
13+阅读 · 2020年12月12日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
迈向可控语音合成:大语言模型时代的综述
专知会员服务
23+阅读 · 2024年12月13日
生成式AI时代的深伪媒体生成与检测:综述与展望
专知会员服务
30+阅读 · 2024年12月2日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
深度伪造生成与检测:基准测试和综述
专知会员服务
52+阅读 · 2024年3月27日
《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
41+阅读 · 2023年10月29日
【2023新书】神经文本到语音合成,214页pdf
专知会员服务
39+阅读 · 2023年6月9日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员