Codecfakes (CFs) are a type of speech deepfakes generated through Audio Language Models (ALMs), with Neural Audio Codecs (NACs) forming the core mechanism for speech encoding and generation. CFs exhibit distributional characteristics that differ from vocoder-based deepfakes, causing detectors trained on vocoder data to generalize poorly to CFs detection. Although this has led to the development of CF detection benchmarks, existing resources are largely confined to English -- and to a limited extent Chinese -- leaving South-East Asian (SEA) languages unexplored. To bridge this gap, we introduce SEA-CF, the first large-scale benchmark for CF detection spanning multiple SEA languages, diverse speaker profiles, and a wide range of NAC architectures. SEA-CF is constructed by synthesizing publicly available real speech corpora. Our experiments show that state-of-the-art (SOTA) CF detectors trained on English-centric datasets fail to generalize to SEA speech due to language-specific phonetic structures, tonal variations, and rich prosodic diversity. We further conduct a comprehensive zero-shot and fine-tuned evaluation of recent SOTA ALMs on SEA-CF. Fine-tuning the ALMs improves performance, however, these are very large being impractical for real-world application due to their scale, particularly in low-resource and latency-constrained settings. To address this limitation, we propose a novel small-ALM, GARUDA tailored for CF detection, which delivers strong performance while remaining lightweight. Extensive evaluations demonstrate that the proposed Small-ALM outperforms strong end-to-end and ALM-based baselines, establishing a new, practical direction for robust CF detection in SEA languages and beyond.


翻译:Codecfake(CF)是通过音频语言模型(ALM)生成的一类语音深度伪造,其核心机制依赖神经音频编解码器(NAC)进行语音编码与生成。CF表现出与基于声码器的深度伪造不同的分布特征,导致基于声码器数据训练的检测器难以泛化至CF检测。尽管已有研究者开发了CF检测基准,但现有资源主要局限于英语(少量涉及中文),东南亚(SEA)语言领域仍为空白。为填补这一空白,我们提出SEA-CF——首个覆盖多语种、多元说话人特征及多种NAC架构的CF检测大规模基准。SEA-CF通过合成公开真实语音语料库构建。实验表明,基于英语数据集训练的最优(SOTA)CF检测器因语言特有的语音结构、声调变化及丰富韵律多样性,无法有效泛化至SEA语言。我们进一步在SEA-CF上对近期SOTA ALM进行了全面的零样本与微调评估。微调ALM虽能提升性能,但其模型规模庞大,在资源受限和延迟敏感场景下难以实用。为解决此局限,我们提出面向CF检测的新型小规模ALM——GARUDA,兼具强检测性能与轻量化特性。广泛评估表明,该小型ALM优于强端到端及基于ALM的基线模型,为SEA语言及其他场景下的稳健CF检测开辟了新的实用方向。

0
下载
关闭预览

相关内容

CF:ACM International Conference on Computing Frontiers。 Explanation:计算机前沿国际会议。 Publisher: ACM。 SIT: http://dblp.uni-trier.de/db/conf/cf
深度伪造及其取证技术综述
专知会员服务
30+阅读 · 2024年4月26日
深度伪造生成与检测:基准测试和综述
专知会员服务
52+阅读 · 2024年3月27日
【AI安全系列】从deepfakes深度伪造技术看AI安全,53页ppt
专知会员服务
81+阅读 · 2023年6月27日
专知会员服务
76+阅读 · 2020年12月12日
深度伪造与检测技术综述(中文版),25页pdf
专知
13+阅读 · 2020年12月12日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员