The rapid advancement of generative AI has made audio deepfakes increasingly indistinguishable from authentic human vocals, posing significant threats to persons-of-interest (POI) such as public figures. Current detection systems primarily rely on generic, black-box models that fail to capture speaker-specific idiosyncratic traits and lack interpretability. In this paper, we propose Phoneme-based Voice Profiling (PVP), a novel personalized defense framework. By shifting the detection paradigm from macro-utterance analysis to micro-phonetic modeling, PVP captures the unique acoustic distributions underlying a POI's habitual articulatory patterns. Specifically, our framework models speaker-specific phonetic realizations using lightweight Gaussian Mixture Models (GMMs) estimated solely from bona fide reference speech. This design enables data-efficient profiling and robust generalization to previously unseen spoofing attacks without requiring heavy spoof-specific training. Furthermore, we introduce the first large-scale Chinese POI deepfake dataset to benchmark speaker-specific detection. Experimental results demonstrate that PVP significantly outperforms state-of-the-art generic detectors in POI spoofing scenarios, achieving substantial EER reductions while providing fine-grained, phoneme-level interpretability for forensic analysis. Code and data are available at: https://github.com/JunXue-tech/PVP


翻译:生成式人工智能的快速发展使得音频深度伪造在真实性上日益逼近真实人声,对公众人物等关注对象构成重大威胁。现有检测系统主要依赖通用型黑盒模型,既无法捕捉说话人特有的个性化特征,也缺乏可解释性。本文提出一种基于音素的语音画像(PVP)新框架,它将检测范式从宏观话语分析转向微观音素建模,通过捕获关注对象习惯性发音模式背后的独特声学分布来实现个性化防御。具体地,该框架利用仅从参考真实语音中估计的轻量级高斯混合模型,对说话人特有的音素实现进行建模。这种设计能够实现数据高效的语音画像,并在无需大量伪造样本训练的情况下,稳健泛化至未见过的欺骗攻击。此外,我们构建了首个大规模中文关注对象深度伪造数据集,用于基准测试说话人特异性检测。实验结果表明,在关注对象欺骗场景下,PVP显著优于最先进的通用检测器,在实现等错误率大幅降低的同时,还能提供细粒度的音素级可解释性以支持取证分析。代码与数据公开于:https://github.com/JunXue-tech/PVP

0
下载
关闭预览

相关内容

深度伪造生成与检测:基准测试和综述
专知会员服务
52+阅读 · 2024年3月27日
《网络战中的深度伪造: 威胁、检测、技术和对策》
专知会员服务
50+阅读 · 2023年11月22日
《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
42+阅读 · 2023年10月29日
视觉深度伪造检测技术综述
专知会员服务
37+阅读 · 2022年1月28日
专知会员服务
76+阅读 · 2020年12月12日
深度伪造与检测技术综述(中文版),25页pdf
专知
13+阅读 · 2020年12月12日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员