In this work, we introduce a multi-task transformer for speech deepfake detection, capable of predicting formant trajectories and voicing patterns over time, ultimately classifying speech as real or fake, and highlighting whether its decisions rely more on voiced or unvoiced regions. Building on a prior speaker-formant transformer architecture, we streamline the model with an improved input segmentation strategy, redesign the decoding process, and integrate built-in explainability. Compared to the baseline, our model requires fewer parameters, trains faster, and provides better interpretability, without sacrificing prediction performance.


翻译:本研究提出一种用于语音深度伪造检测的多任务Transformer模型,该模型能够预测随时间变化的共振峰轨迹和浊音模式,最终将语音分类为真实或伪造,并突出显示其决策是否更依赖于浊音或清音区域。基于先前的说话人-共振峰Transformer架构,我们通过改进的输入分段策略简化模型结构,重新设计解码过程,并集成内置可解释性机制。与基线模型相比,本模型在保持预测性能的同时,所需参数量更少、训练速度更快,且具有更好的可解释性。

0
下载
关闭预览

相关内容

深度伪造生成与检测:基准测试和综述
专知会员服务
52+阅读 · 2024年3月27日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
4+阅读 · 4月25日
多智能体协作机制
专知会员服务
3+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
8+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
7+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
10+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员