Partial audio deepfakes, where synthesized segments are spliced into genuine recordings, are particularly deceptive because most of the audio remains authentic. Existing detectors are supervised: they require frame-level annotations, overfit to specific synthesis pipelines, and must be retrained as new generative models emerge. We argue that this supervision is unnecessary. We hypothesize that speech foundation models implicitly encode a forensic signal: genuine speech forms smooth, slowly varying embedding trajectories, while splice boundaries introduce abrupt disruptions in frame-level transitions. Building on this, we propose TRACE (Training-free Representation-based Audio Countermeasure via Embedding dynamics), a training-free framework that detects partial audio deepfakes by analyzing the first-order dynamics of frozen speech foundation model representations without any training, labeled data, or architectural modification. We evaluate TRACE on four benchmarks that span two languages using six speech foundation models. In PartialSpoof, TRACE achieves 8.08% EER, competitive with fine-tuned supervised baselines. In LlamaPartialSpoof, the most challenging benchmark featuring LLM-driven commercial synthesis, TRACE surpasses a supervised baseline outright (24.12% vs. 24.49% EER) without any target-domain data. These results show that temporal dynamics in speech foundation models provide an effective, generalize signal for training-free audio forensics.


翻译:局部音频深度伪造(部分合成片段被拼接至真实录音中)因大部分音频内容保持真实而极具欺骗性。现有检测器采用监督学习范式,需要帧级标注、过度适配特定合成流程,且当新生成模型出现时必须重新训练。我们认为这种监督方式并非必要。我们假设语音基础模型隐式编码了取证信号:真实语音形成平滑且缓慢变化的嵌入轨迹,而拼接边界会在帧级转换中引发突变。基于此,我们提出TRACE(基于嵌入动态的无训练表征音频对抗方法),这是一种无需训练的检测框架,通过分析冻结语音基础模型表征的一阶动态来检测局部音频深度伪造,无需任何训练、标注数据或架构修改。我们在覆盖两种语言的四个基准数据集上使用六种语音基础模型对TRACE进行评估。在PartialSpoof测试中,TRACE取得8.08%等错误率,与经微调的监督基线相当。在最具挑战性的LlamaPartialSpoof基准(采用大模型驱动的商业合成)中,TRACE在无需目标域数据情况下直接超越监督基线(EER 24.12% vs 24.49%)。这些结果表明,语音基础模型的时间动态特性为无训练音频取证提供了有效且泛化的信号。

0
下载
关闭预览

相关内容

基于深度学习的伪装目标检测研究进展
专知会员服务
31+阅读 · 2025年4月12日
《用于语音取证和高超音速飞行器应用的机器学习》200页
深度伪造生成与检测:基准测试和综述
专知会员服务
52+阅读 · 2024年3月27日
《网络战中的深度伪造: 威胁、检测、技术和对策》
专知会员服务
50+阅读 · 2023年11月22日
《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
42+阅读 · 2023年10月29日
「多模态深度伪造及检测技术」最新2023研究综述
专知会员服务
41+阅读 · 2023年3月26日
专知会员服务
76+阅读 · 2020年12月12日
【中科院信工所】视听觉深度伪造检测技术研究综述
专知会员服务
43+阅读 · 2020年4月15日
深度伪造与检测技术综述(中文版),25页pdf
专知
13+阅读 · 2020年12月12日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
6+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
基于深度学习的伪装目标检测研究进展
专知会员服务
31+阅读 · 2025年4月12日
《用于语音取证和高超音速飞行器应用的机器学习》200页
深度伪造生成与检测:基准测试和综述
专知会员服务
52+阅读 · 2024年3月27日
《网络战中的深度伪造: 威胁、检测、技术和对策》
专知会员服务
50+阅读 · 2023年11月22日
《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
42+阅读 · 2023年10月29日
「多模态深度伪造及检测技术」最新2023研究综述
专知会员服务
41+阅读 · 2023年3月26日
专知会员服务
76+阅读 · 2020年12月12日
【中科院信工所】视听觉深度伪造检测技术研究综述
专知会员服务
43+阅读 · 2020年4月15日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员