WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning for Speech Deepfake Detection - 专知论文

会员服务 ·

0

伪造检测 · 变换 · 深度伪造检测 · 提示调优 · 深度伪造 ·

WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning for Speech Deepfake Detection

翻译：WaveSP-Net：用于语音深度伪造检测的可学习小波域稀疏提示调优

Xi Xuan,Xuechen Liu,Wenxin Zhang,Yi-Cheng Lin,Xiaojian Lin,Tomi Kinnunen

from arxiv, Accepted at ICASSP 2026

Modern front-end design for speech deepfake detection relies on full fine-tuning of large pre-trained models like XLSR. However, this approach is not parameter-efficient and may lead to suboptimal generalization to realistic, in-the-wild data types. To address these limitations, we introduce a new family of parameter-efficient front-ends that fuse prompt-tuning with classical signal processing transforms. These include FourierPT-XLSR, which uses the Fourier Transform, and two variants based on the Wavelet Transform: WSPT-XLSR and Partial-WSPT-XLSR. We further propose WaveSP-Net, a novel architecture combining a Partial-WSPT-XLSR front-end and a bidirectional Mamba-based back-end. This design injects multi-resolution features into the prompt embeddings, which enhances the localization of subtle synthetic artifacts without altering the frozen XLSR parameters. Experimental results demonstrate that WaveSP-Net outperforms several state-of-the-art models on two new and challenging benchmarks, Deepfake-Eval-2024 and SpoofCeleb, with low trainable parameters and notable performance gains. The code and models are available at https://github.com/xxuan-acoustics/WaveSP-Net.

翻译：当前语音深度伪造检测的前端设计依赖于对XLSR等大型预训练模型进行全量微调。然而，这种方法参数效率不高，且可能导致对现实世界中真实数据类型的泛化能力欠佳。为应对这些局限性，我们提出了一系列参数高效的新型前端，它们将提示调优与经典信号处理变换相融合。其中包括使用傅里叶变换的FourierPT-XLSR，以及两种基于小波变换的变体：WSPT-XLSR和Partial-WSPT-XLSR。我们进一步提出了WaveSP-Net，这是一种新颖的架构，结合了Partial-WSPT-XLSR前端和基于双向Mamba的后端。该设计将多分辨率特征注入到提示嵌入中，从而在不改变冻结的XLSR参数的情况下，增强了对细微合成伪影的定位能力。实验结果表明，在两个新颖且具有挑战性的基准测试集Deepfake-Eval-2024和SpoofCeleb上，WaveSP-Net以较少的可训练参数和显著的性能提升，超越了多个最先进的模型。代码与模型可在 https://github.com/xxuan-acoustics/WaveSP-Net 获取。

0

相关内容

伪造检测

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

专知会员服务

15+阅读 · 2025年7月3日

基于深度学习的伪装目标检测研究进展

基于深度学习的伪装目标检测研究进展

专知会员服务

31+阅读 · 2025年4月12日

【ICLR2025】DynaPrompt：动态测试时提示调优

【ICLR2025】DynaPrompt：动态测试时提示调优

专知会员服务

10+阅读 · 2025年2月2日

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

专知会员服务

17+阅读 · 2025年1月12日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

《网络战中的深度伪造：威胁、检测、技术和对策》

《网络战中的深度伪造：威胁、检测、技术和对策》

专知会员服务

50+阅读 · 2023年11月22日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

深度学习网络调参技巧

深度学习网络调参技巧

AINLP

15+阅读 · 2019年11月15日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

泡泡机器人SLAM

11+阅读 · 2019年1月20日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

泡泡机器人SLAM

10+阅读 · 2018年11月8日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

详述DeepMind wavenet原理及其TensorFlow实现

详述DeepMind wavenet原理及其TensorFlow实现

深度学习每日摘要

12+阅读 · 2017年6月26日

水声信号检测与识别中信号处理和特征约简的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

有理小波理论在多途信号解析与水声网络设计中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

陷波频率精确可调的FIR稀疏多频陷波器设计算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

无线传感器网络中高效的虚假数据过滤方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于广域多通道量测信号的低频振荡模态参数辨识与安全预警方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

HyperPotter: Spell the Charm of High-Order Interactions in Audio Deepfake Detection

Arxiv

0+阅读 · 2月5日

Fine-Grained Frame Modeling in Multi-head Self-Attention for Speech Deepfake Detection

Arxiv

0+阅读 · 2月4日

Towards Sustainable Universal Deepfake Detection with Frequency-Domain Masking

Arxiv

0+阅读 · 2月3日

WST-X Series: Wavelet Scattering Transform for Interpretable Speech Deepfake Detection

Arxiv

0+阅读 · 2月3日

HierCon: Hierarchical Contrastive Attention for Audio Deepfake Detection

Arxiv

0+阅读 · 2月1日

Towards Explicit Acoustic Evidence Perception in Audio LLMs for Speech Deepfake Detection

Arxiv

0+阅读 · 1月30日

Localizing Speech Deepfakes Beyond Transitions via Segment-Aware Learning

Arxiv

0+阅读 · 1月29日

Multi-Task Transformer for Explainable Speech Deepfake Detection via Formant Modeling

Arxiv

0+阅读 · 1月22日

Multi-Tast Transformer for Explainable Speech Deepfake Detection via Formant Modeling

Arxiv

0+阅读 · 1月21日

XMAD-Bench: Cross-Domain Multilingual Audio Deepfake Benchmark

Arxiv

0+阅读 · 1月18日

VIP会员

文章信息

相关主题

深度伪造检测

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

1+阅读 · 今天16:54

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

1+阅读 · 今天16:52

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

相关VIP内容

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

《假新闻检测的特征计算流程：基于大语言模型的提取方法》

专知会员服务

15+阅读 · 2025年7月3日

基于深度学习的伪装目标检测研究进展

基于深度学习的伪装目标检测研究进展

专知会员服务

31+阅读 · 2025年4月12日

【ICLR2025】DynaPrompt：动态测试时提示调优

【ICLR2025】DynaPrompt：动态测试时提示调优

专知会员服务

10+阅读 · 2025年2月2日

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

专知会员服务

17+阅读 · 2025年1月12日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

《网络战中的深度伪造：威胁、检测、技术和对策》

《网络战中的深度伪造：威胁、检测、技术和对策》

专知会员服务

50+阅读 · 2023年11月22日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

深度学习网络调参技巧

深度学习网络调参技巧

AINLP

15+阅读 · 2019年11月15日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

泡泡机器人SLAM

11+阅读 · 2019年1月20日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

【泡泡点云时空】SpiderCNN：利用参数化卷积滤波进行点集深度学习（ECCV2018-13）

泡泡机器人SLAM

10+阅读 · 2018年11月8日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

详述DeepMind wavenet原理及其TensorFlow实现

详述DeepMind wavenet原理及其TensorFlow实现

深度学习每日摘要

12+阅读 · 2017年6月26日

相关论文

HyperPotter: Spell the Charm of High-Order Interactions in Audio Deepfake Detection

Arxiv

0+阅读 · 2月5日

Fine-Grained Frame Modeling in Multi-head Self-Attention for Speech Deepfake Detection

Arxiv

0+阅读 · 2月4日

Towards Sustainable Universal Deepfake Detection with Frequency-Domain Masking

Arxiv

0+阅读 · 2月3日

WST-X Series: Wavelet Scattering Transform for Interpretable Speech Deepfake Detection

Arxiv

0+阅读 · 2月3日

HierCon: Hierarchical Contrastive Attention for Audio Deepfake Detection

Arxiv

0+阅读 · 2月1日

Towards Explicit Acoustic Evidence Perception in Audio LLMs for Speech Deepfake Detection

Arxiv

0+阅读 · 1月30日

Localizing Speech Deepfakes Beyond Transitions via Segment-Aware Learning

Arxiv

0+阅读 · 1月29日

Multi-Task Transformer for Explainable Speech Deepfake Detection via Formant Modeling

Arxiv

0+阅读 · 1月22日

Multi-Tast Transformer for Explainable Speech Deepfake Detection via Formant Modeling

Arxiv

0+阅读 · 1月21日

XMAD-Bench: Cross-Domain Multilingual Audio Deepfake Benchmark

Arxiv

0+阅读 · 1月18日

相关基金

水声信号检测与识别中信号处理和特征约简的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

有理小波理论在多途信号解析与水声网络设计中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

陷波频率精确可调的FIR稀疏多频陷波器设计算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

无线传感器网络中高效的虚假数据过滤方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于广域多通道量测信号的低频振荡模态参数辨识与安全预警方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员