Audio deepfake detection is well-studied as a binary problem, but partially manipulated speech, where a short synthesised segment is spliced into an otherwise genuine utterance, poses a harder and more realistic threat. Detecting such half-truth audio requires not only distinguishing it from real and fully fake speech, but also localising where the manipulation occurs. We present CAFNet, a 576k-parameter architecture that addresses both tasks jointly: it performs ternary classification (real, fully-fake, or half-truth) and regresses the temporal boundaries of the synthesised region in a single forward pass. CAFNet fuses Mel-Frequency Cepstral Coefficient (MFCC), Linear-Frequency Cepstral Coefficient (LFCC), and Chroma Short-Time Fourier Transform (Chroma-STFT) features through parallel depthwise-separable convolution branches with cross-attention, followed by a Bidirectional Long Short-Term Memory (BiLSTM) regression head for boundary prediction. On the combined Multi-Lingual Audio Deepfake Detection Corpus (MLADDC) T2+T3 test set, CAFNet achieves 92.71% accuracy and macro Area Under the Curve (AUC) of 0.9910, with boundary localisation Mean Absolute Error (MAE) of 0.075s and a median error of 0.052s. On binary detection, it achieves 96.76% accuracy and 3.20% Equal Error Rate (EER), outperforming fine-tuned XLS-R 300M (78.31%) and AST 87M (93.03%) at over 500 times fewer parameters. A cross-dataset study further shows that standard fine-tuning collapses cross-domain representations even under reduced backbone learning rates.


翻译:音频深度伪造检测作为二分类问题已被广泛研究,但部分篡改语音——即短合成片段嵌入真实话语的音频——构成更困难且更具现实威胁的挑战。检测此类半真音频不仅需要区分真实语音、完全伪造语音,还需定位篡改发生的时间位置。我们提出CAFNet(576k参数架构),通过单次前向传播联合执行两项任务:三分类(真实、完全伪造或半真)以及合成区域时间边界的回归。CAFNet通过并行深度可分离卷积分支与交叉注意力机制,融合梅尔频率倒谱系数(MFCC)、线性频率倒谱系数(LFCC)和色度短时傅里叶变换(Chroma-STFT)特征,随后接入双向长短期记忆(BiLSTM)回归头进行边界预测。在联合多语言音频深度伪造检测语料库(MLADDC)T2+T3测试集上,CAFNet达到92.71%的准确率和0.9910的宏曲线下面积(AUC),边界定位平均绝对误差(MAE)为0.075秒,中位误差为0.052秒。在二分类检测中,它以96.76%的准确率和3.20%的等错误率(EER)超越微调后的XLS-R 300M(78.31%)和AST 87M(93.03%),参数量减少超过500倍。跨数据集研究进一步表明,即使降低骨干网络学习率,标准微调仍会导致跨域表示崩溃。

0
下载
关闭预览

相关内容

深度伪造生成与检测:基准测试和综述
专知会员服务
52+阅读 · 2024年3月27日
《网络战中的深度伪造: 威胁、检测、技术和对策》
专知会员服务
50+阅读 · 2023年11月22日
《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
42+阅读 · 2023年10月29日
「多模态深度伪造及检测技术」最新2023研究综述
专知会员服务
41+阅读 · 2023年3月26日
视觉深度伪造检测技术综述
专知会员服务
37+阅读 · 2022年1月28日
专知会员服务
76+阅读 · 2020年12月12日
【中科院信工所】视听觉深度伪造检测技术研究综述
专知会员服务
43+阅读 · 2020年4月15日
深度伪造与检测技术综述(中文版),25页pdf
专知
13+阅读 · 2020年12月12日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
深度伪造生成与检测:基准测试和综述
专知会员服务
52+阅读 · 2024年3月27日
《网络战中的深度伪造: 威胁、检测、技术和对策》
专知会员服务
50+阅读 · 2023年11月22日
《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
42+阅读 · 2023年10月29日
「多模态深度伪造及检测技术」最新2023研究综述
专知会员服务
41+阅读 · 2023年3月26日
视觉深度伪造检测技术综述
专知会员服务
37+阅读 · 2022年1月28日
专知会员服务
76+阅读 · 2020年12月12日
【中科院信工所】视听觉深度伪造检测技术研究综述
专知会员服务
43+阅读 · 2020年4月15日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员