Modern audio deepfake detectors built on foundation models and large training datasets achieve promising detection performance. However, they struggle with zero-day attacks, where the audio samples are generated by novel synthesis methods that models have not seen from reigning training data. Conventional approaches fine-tune the detector, which can be problematic when prompt response is needed. This paper proposes a training-free retrieval-augmented framework for zero-day audio deepfake detection that leverages knowledge representations and voice profile matching. Within this framework, we propose simple yet effective retrieval and ensemble methods that reach performance comparable to supervised baselines and their fine-tuned counterparts on the DeepFake-Eval-2024 benchmark, without any additional model training. We also conduct ablation on voice profile attributes, and demonstrate the cross-database generalizability of the framework with introducing simple and training-free fusion strategies.


翻译:基于基础模型和大规模训练数据集构建的现代音频深度伪造检测器已展现出良好的检测性能。然而,面对零日攻击——即音频样本由模型在现有训练数据中未曾见过的新型合成方法生成时,这些检测器往往表现不佳。传统方法通过对检测器进行微调来应对,这在需要快速响应时可能存在问题。本文提出了一种无需训练的检索增强框架,用于零日音频深度伪造检测,该框架利用知识表征和声纹匹配。在此框架内,我们提出了简单而有效的检索与集成方法,在DeepFake-Eval-2024基准测试中,其性能达到了与有监督基线及其微调版本相当的水平,且无需任何额外的模型训练。我们还对声纹属性进行了消融实验,并通过引入简单且无需训练的融合策略,证明了该框架具备跨数据库的泛化能力。

0
下载
关闭预览

相关内容

CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员