Addressing Gradient Misalignment in Data-Augmented Training for Robust Speech Deepfake Detection - 专知论文

会员服务 ·

0

梯度 · 数据增强 · 伪造检测 · 深度伪造检测 · 对齐 ·

Addressing Gradient Misalignment in Data-Augmented Training for Robust Speech Deepfake Detection

翻译：解决数据增强训练中的梯度失配问题以实现鲁棒的语音深度伪造检测

Duc-Tuan Truong,Tianchi Liu,Junjie Li,Ruijie Tao,Kong Aik Lee,Eng Siong Chng

from arxiv, Accepted by ICASSP 2026

In speech deepfake detection (SDD), data augmentation (DA) is commonly used to improve model generalization across varied speech conditions and spoofing attacks. However, during training, the backpropagated gradients from original and augmented inputs may misalign, which can result in conflicting parameter updates. These conflicts could hinder convergence and push the model toward suboptimal solutions, thereby reducing the benefits of DA. To investigate and address this issue, we design a dual-path data-augmented (DPDA) training framework with gradient alignment for SDD. In our framework, each training utterance is processed through two input paths: one using the original speech and the other with its augmented version. This design allows us to compare and align their backpropagated gradient directions to reduce optimization conflicts. Our analysis shows that approximately 25% of training iterations exhibit gradient conflicts between the original inputs and their augmented counterparts when using RawBoost augmentation. By resolving these conflicts with gradient alignment, our method accelerates convergence by reducing the number of training epochs and achieves up to an 18.69% relative reduction in Equal Error Rate on the In-the-Wild dataset compared to the baseline.

翻译：在语音深度伪造检测（SDD）中，数据增强（DA）通常用于提升模型在不同语音条件和欺骗攻击下的泛化能力。然而，在训练过程中，来自原始输入与增强输入的反向传播梯度可能出现失配，这可能导致参数更新产生冲突。这些冲突可能阻碍模型收敛，并将模型推向次优解，从而降低数据增强的收益。为探究并解决此问题，我们设计了一种面向SDD的、具有梯度对齐机制的双路径数据增强（DPDA）训练框架。在我们的框架中，每个训练话语通过两个输入路径处理：一路使用原始语音，另一路使用其增强版本。这一设计使我们能够比较并对齐其反向传播梯度的方向，从而减少优化冲突。我们的分析表明，在使用RawBoost增强方法时，约有25%的训练迭代在原始输入与其增强版本之间表现出梯度冲突。通过梯度对齐解决这些冲突后，我们的方法通过减少训练周期数加速了收敛，并在In-the-Wild数据集上相比基线实现了高达18.69%的等错误率相对降低。

0

相关内容

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

专知会员服务

10+阅读 · 2025年10月1日

使用多模态大语言模型进行深度学习的图像、文本和语音数据增强：综述

使用多模态大语言模型进行深度学习的图像、文本和语音数据增强：综述

专知会员服务

28+阅读 · 2025年2月4日

《网络战中的深度伪造：威胁、检测、技术和对策》

《网络战中的深度伪造：威胁、检测、技术和对策》

专知会员服务

50+阅读 · 2023年11月22日

《深度伪造检测模型的准确性和鲁棒性》2023最新论文

《深度伪造检测模型的准确性和鲁棒性》2023最新论文

专知会员服务

42+阅读 · 2023年10月29日

《大型语言模型能否加强假新闻检测？利用数据增强改进假新闻检测》2023最新报告

《大型语言模型能否加强假新闻检测？利用数据增强改进假新闻检测》2023最新报告

专知会员服务

57+阅读 · 2023年10月16日

ChatAug: 利用ChatGPT进行文本数据增强

ChatAug: 利用ChatGPT进行文本数据增强

专知会员服务

81+阅读 · 2023年3月4日

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

专知会员服务

31+阅读 · 2022年12月29日

【MIT博士论文】鲁棒高效的深度学习在虚假信息预防中的应用

【MIT博士论文】鲁棒高效的深度学习在虚假信息预防中的应用

专知会员服务

27+阅读 · 2022年7月13日

哈工大最新《自然语言处理数据增强方法》综述论文，155页pdf阐述复述、噪声和抽样三大数据增强方法

专知会员服务

48+阅读 · 2021年10月16日

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

专知会员服务

97+阅读 · 2020年3月17日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

数据增强：数据有限时如何使用深度学习？（续）

数据增强：数据有限时如何使用深度学习？（续）

AI研习社

14+阅读 · 2018年5月6日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

信息隐藏技术在OFDM系统峰值功率问题中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

From Diet to Free Lunch: Estimating Auxiliary Signal Properties using Dynamic Pruning Masks in Speech Enhancement Networks

Arxiv

0+阅读 · 2月11日

Calibrating Generative AI to Produce Realistic Essays for Data Augmentation

Arxiv

0+阅读 · 2月6日

Universal Robust Speech Adaptation for Cross-Domain Speech Recognition and Enhancement

Arxiv

0+阅读 · 2月4日

Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It

Arxiv

0+阅读 · 2月2日

Towards Explicit Acoustic Evidence Perception in Audio LLMs for Speech Deepfake Detection

Arxiv

0+阅读 · 1月30日

An Analysis of Causal Effect Estimation using Outcome Invariant Data Augmentation

Arxiv

0+阅读 · 1月30日

Mind the Shift: Using Delta SSL Embeddings to Enhance Child ASR

Arxiv

0+阅读 · 1月28日

DeepShield: Fortifying Deepfake Video Detection with Local and Global Forgery Analysis

Arxiv

0+阅读 · 1月23日

Towards noise-robust speech inversion through multi-task learning with speech enhancement

Arxiv

0+阅读 · 1月20日

Confidence-based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens

Arxiv

0+阅读 · 1月18日

VIP会员

文章信息

相关主题

深度伪造检测

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

8+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

3+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

7+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

6+阅读 · 7月22日

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

15+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

11+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

9+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

7+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

9+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

8+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

10+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

9+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

【NeurIPS2025】MIDAS：一种基于错配的用于失衡多模态学习的数据增强策略

专知会员服务

10+阅读 · 2025年10月1日

使用多模态大语言模型进行深度学习的图像、文本和语音数据增强：综述

使用多模态大语言模型进行深度学习的图像、文本和语音数据增强：综述

专知会员服务

28+阅读 · 2025年2月4日

《网络战中的深度伪造：威胁、检测、技术和对策》

《网络战中的深度伪造：威胁、检测、技术和对策》

专知会员服务

50+阅读 · 2023年11月22日

《深度伪造检测模型的准确性和鲁棒性》2023最新论文

《深度伪造检测模型的准确性和鲁棒性》2023最新论文

专知会员服务

42+阅读 · 2023年10月29日

《大型语言模型能否加强假新闻检测？利用数据增强改进假新闻检测》2023最新报告

《大型语言模型能否加强假新闻检测？利用数据增强改进假新闻检测》2023最新报告

专知会员服务

57+阅读 · 2023年10月16日

ChatAug: 利用ChatGPT进行文本数据增强

ChatAug: 利用ChatGPT进行文本数据增强

专知会员服务

81+阅读 · 2023年3月4日

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

专知会员服务

31+阅读 · 2022年12月29日

【MIT博士论文】鲁棒高效的深度学习在虚假信息预防中的应用

【MIT博士论文】鲁棒高效的深度学习在虚假信息预防中的应用

专知会员服务

27+阅读 · 2022年7月13日

哈工大最新《自然语言处理数据增强方法》综述论文，155页pdf阐述复述、噪声和抽样三大数据增强方法

专知会员服务

48+阅读 · 2021年10月16日

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

【论文推荐】深度学习中的异常实例检测:综述，Anomalous Instance Detection in Deep Learning: A Survey

专知会员服务

97+阅读 · 2020年3月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

【综述】深度学习攻防对抗在图像数据、图数据以及文本数据上的应用

专知

14+阅读 · 2019年10月31日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

数据增强：数据有限时如何使用深度学习？（续）

数据增强：数据有限时如何使用深度学习？（续）

AI研习社

14+阅读 · 2018年5月6日

相关论文

From Diet to Free Lunch: Estimating Auxiliary Signal Properties using Dynamic Pruning Masks in Speech Enhancement Networks

Arxiv

0+阅读 · 2月11日

Calibrating Generative AI to Produce Realistic Essays for Data Augmentation

Arxiv

0+阅读 · 2月6日

Universal Robust Speech Adaptation for Cross-Domain Speech Recognition and Enhancement

Arxiv

0+阅读 · 2月4日

Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It

Arxiv

0+阅读 · 2月2日

Towards Explicit Acoustic Evidence Perception in Audio LLMs for Speech Deepfake Detection

Arxiv

0+阅读 · 1月30日

An Analysis of Causal Effect Estimation using Outcome Invariant Data Augmentation

Arxiv

0+阅读 · 1月30日

Mind the Shift: Using Delta SSL Embeddings to Enhance Child ASR

Arxiv

0+阅读 · 1月28日

DeepShield: Fortifying Deepfake Video Detection with Local and Global Forgery Analysis

Arxiv

0+阅读 · 1月23日

Towards noise-robust speech inversion through multi-task learning with speech enhancement

Arxiv

0+阅读 · 1月20日

Confidence-based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens

Arxiv

0+阅读 · 1月18日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

信息隐藏技术在OFDM系统峰值功率问题中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员