With the rapid advancement of neural audio codecs, codec-based speech generation (CoSG) systems have become highly powerful. Unfortunately, CoSG also enables the creation of highly realistic deepfake speech, making it easier to mimic an individual's voice and spread misinformation. We refer to this emerging deepfake speech generated by CoSG systems as CodecFake. Detecting such CodecFake is an urgent challenge, yet most existing systems primarily focus on detecting fake speech generated by traditional speech synthesis models. In this paper, we introduce CodecFake+, a large-scale dataset designed to advance CodecFake detection. To our knowledge, CodecFake+ is the largest dataset encompassing the most diverse range of codec architectures. The training set is generated through re-synthesis using 31 publicly available open-source codec models, while the evaluation set includes web-sourced data from 17 advanced CoSG models. We also propose a comprehensive taxonomy that categorizes codecs by their root components: vector quantizer, auxiliary objectives, and decoder types. Our proposed dataset and taxonomy enable detailed analysis at multiple levels to discern the key factors for successful CodecFake detection. At the individual codec level, we validate the effectiveness of using codec re-synthesized speech (CoRS) as training data for large-scale CodecFake detection. At the taxonomy level, we show that detection performance is strongest when the re-synthesis model incorporates disentanglement auxiliary objectives or a frequency-domain decoder. Furthermore, from the perspective of using all the CoRS training data, we show that our proposed taxonomy can be used to select better training data for improving detection performance. Overall, we envision that CodecFake+ will be a valuable resource for both general and fine-grained exploration to develop better anti-spoofing models against CodecFake.


翻译:随着神经音频编解码器的快速发展,基于编解码器的语音生成系统已具备高度能力。然而,这类系统也能生成极为逼真的深度伪造语音,使得模仿他人声线并散布虚假信息更为便捷。我们将此类由编解码语音生成系统生成的新兴深度伪造语音定义为CodecFake。检测CodecFake是一项紧迫挑战,但现有系统大多聚焦于检测传统语音合成模型生成的伪造语音。本文提出CodecFake+大规模数据集,旨在推动CodecFake检测研究。据我们所知,CodecFake+是覆盖最多种类编解码器架构的最大规模数据集。其训练集通过31个开源编解码模型的重合成生成,评估集则包含来自17个先进CoSG模型的网络采集数据。我们同时提出了系统性分类体系,将编解码器按其核心组件划分为:向量量化器、辅助目标函数和解码器类型。该数据集与分类体系支持多层次精细分析,以甄别CodecFake检测的关键要素。在编解码器个体层面,我们验证了将编解码器重合成语音作为训练数据用于大规模CodecFake检测的有效性。在分类体系层面,研究表明当重合成模型采用解耦辅助目标函数或频域解码器时检测性能最优。此外,从利用全部CoRS训练数据的视角来看,我们所提出的分类体系可指导选择更优训练数据以提升检测性能。总体而言,我们预期CodecFake+将成为推动通用与细粒度探索、开发更优CodecFake反欺骗模型的重要资源。

0
下载
关闭预览

相关内容

深度伪造生成与检测:基准测试和综述
专知会员服务
52+阅读 · 2024年3月27日
【AI安全系列】从deepfakes深度伪造技术看AI安全,53页ppt
专知会员服务
81+阅读 · 2023年6月27日
专知会员服务
76+阅读 · 2020年12月12日
最新《Deepfakes:创造与检测》2020综述论文,36页pdf
专知会员服务
65+阅读 · 2020年5月15日
深度伪造与检测技术综述(中文版),25页pdf
专知
13+阅读 · 2020年12月12日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
【干货】深入理解变分自编码器
专知
21+阅读 · 2018年3月22日
【干货】深入理解自编码器(附代码实现)
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员