DUAP: Dual-task Universal Adversarial Perturbations Against Voice Control Systems - 专知论文

会员服务 ·

0

对抗 · 扰动 · 语音识别 · 系统 · 攻击 ·

DUAP: Dual-task Universal Adversarial Perturbations Against Voice Control Systems

翻译：DUAP：针对语音控制系统的双任务通用对抗扰动

Suyang Sun,Weifei Jin,Yuxin Cao,Wei Song,Jie Hao

Modern Voice Control Systems (VCS) rely on the collaboration of Automatic Speech Recognition (ASR) and Speaker Recognition (SR) for secure interaction. However, prior adversarial attacks typically target these tasks in isolation, overlooking the coupled decision pipeline in real-world scenarios. Consequently, single-task attacks often fail to pose a practical threat. To fill this gap, we first utilize gradient analysis to reveal that ASR and SR exhibit no inherent conflicts. Building on this, we propose Dual-task Universal Adversarial Perturbation (DUAP). Specifically, DUAP employs a targeted surrogate objective to effectively disrupt ASR transcription and introduces a Dynamic Normalized Ensemble (DNE) strategy to enhance transferability across diverse SR models. Furthermore, we incorporate psychoacoustic masking to ensure perturbation imperceptibility. Extensive evaluations across five ASR and six SR models demonstrate that DUAP achieves high simultaneous attack success rates and superior imperceptibility, significantly outperforming existing single-task baselines.

翻译：现代语音控制系统依赖于自动语音识别与说话人识别的协同工作以实现安全交互。然而，现有的对抗攻击通常孤立地针对其中一项任务，忽略了实际场景中耦合的决策流程。因此，单任务攻击往往无法构成实际威胁。为填补这一空白，我们首先通过梯度分析揭示了ASR与SR之间不存在固有冲突。基于此，我们提出了双任务通用对抗扰动方法。具体而言，DUAP采用定向代理目标以有效干扰ASR转录，并引入动态归一化集成策略来增强跨不同SR模型的可迁移性。此外，我们结合心理声学掩蔽技术来确保扰动的不可感知性。在五个ASR模型和六个SR模型上的大量实验表明，DUAP能实现较高的同步攻击成功率与卓越的不可感知性，显著优于现有的单任务基线方法。

0

相关内容

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

【NTU博士论文】端到端鲁棒自动语音识别的最新进展

【NTU博士论文】端到端鲁棒自动语音识别的最新进展

专知会员服务

12+阅读 · 2025年10月15日

【CUHK博士论文】提升自动语音识别系统的效率与可靠性

【CUHK博士论文】提升自动语音识别系统的效率与可靠性

专知会员服务

11+阅读 · 2025年4月15日

重新定义防空：先进指挥与控制，实现卓越态势感知能力

重新定义防空：先进指挥与控制，实现卓越态势感知能力

专知会员服务

34+阅读 · 2025年2月3日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

《从指挥和控制的角度防御智能高超音速武器》30页最新论文，加拿大国防研究与发展部（DRDC）

《从指挥和控制的角度防御智能高超音速武器》30页最新论文，加拿大国防研究与发展部（DRDC）

专知会员服务

54+阅读 · 2022年5月14日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

达摩院基于元学习的对话系统

达摩院基于元学习的对话系统

专知会员服务

25+阅读 · 2021年1月1日

【CVPR2020-小鹏汽车】判别性多模态语音识别, Discriminative Multi-modality SR

【CVPR2020-小鹏汽车】判别性多模态语音识别, Discriminative Multi-modality SR

专知会员服务

41+阅读 · 2020年5月13日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

博客 | 一文看懂任务型对话中的对话策略学习（DPL）

博客 | 一文看懂任务型对话中的对话策略学习（DPL）

AI研习社

10+阅读 · 2019年4月22日

NLP实践：对话系统技术原理和应用

NLP实践：对话系统技术原理和应用

AI100

34+阅读 · 2019年3月20日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

基于多节点协作的高鲁棒性低度复杂的抗窃听技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于管制通话语音个体特征的管制员不良工作状态识别方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

拦截高超声速目标的多拦截器协同制导控制理论与方法研究

国家自然科学基金

14+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

基于角度欺骗的编队协同探测与干扰技术

国家自然科学基金

10+阅读 · 2012年12月31日

雷达系统自适应抗干扰方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

DuetUI: A Bidirectional Context Loop for Human-Agent Co-Generation of Task-Oriented Interfaces

Arxiv

0+阅读 · 2月13日

Speaker-Aware Simulation Improves Conversational Speech Recognition

Arxiv

0+阅读 · 2月4日

Adapting Where It Matters: Depth-Aware Adaptation for Efficient Multilingual Speech Recognition in Low-Resource Languages

Arxiv

0+阅读 · 2月1日

CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR

Arxiv

0+阅读 · 1月30日

Impact of Phonetics on Speaker Identity in Adversarial Voice Attack

Arxiv

0+阅读 · 1月29日

SpatialEmb: Extract and Encode Spatial Information for 1-Stage Multi-channel Multi-speaker ASR on Arbitrary Microphone Arrays

Arxiv

0+阅读 · 1月25日

Towards noise-robust speech inversion through multi-task learning with speech enhancement

Arxiv

0+阅读 · 1月20日

ATOD: An Evaluation Framework and Benchmark for Agentic Task-Oriented Dialogue System

Arxiv

0+阅读 · 1月17日

Navigating the Reality Gap: Privacy-Preserving On-Device Continual Adaptation of ASR for Clinical Telephony

Arxiv

0+阅读 · 1月14日

Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

专知会员服务

1+阅读 · 34分钟前

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

专知会员服务

0+阅读 · 47分钟前

探秘Palantir：驱动美情报的科技巨头

探秘Palantir：驱动美情报的科技巨头

专知会员服务

1+阅读 · 56分钟前

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

专知会员服务

1+阅读 · 今天3:09

《美国海军军事海运司令部 2026年手册》

《美国海军军事海运司令部 2026年手册》

专知会员服务

1+阅读 · 今天3:05

别再只盯着“杀手机器人”了：人工智能真正变革现代战争的三种方式

别再只盯着“杀手机器人”了：人工智能真正变革现代战争的三种方式

专知会员服务

0+阅读 · 今天2:36

《人工智能使能系统可靠性框架》

《人工智能使能系统可靠性框架》

专知会员服务

2+阅读 · 今天2:28

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

10+阅读 · 4月26日

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

7+阅读 · 4月26日

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

7+阅读 · 4月26日

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

6+阅读 · 4月26日

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

12+阅读 · 4月26日

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

10+阅读 · 4月26日

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

7+阅读 · 4月26日

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

7+阅读 · 4月26日

相关VIP内容

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

【NTU博士论文】端到端鲁棒自动语音识别的最新进展

【NTU博士论文】端到端鲁棒自动语音识别的最新进展

专知会员服务

12+阅读 · 2025年10月15日

【CUHK博士论文】提升自动语音识别系统的效率与可靠性

【CUHK博士论文】提升自动语音识别系统的效率与可靠性

专知会员服务

11+阅读 · 2025年4月15日

重新定义防空：先进指挥与控制，实现卓越态势感知能力

重新定义防空：先进指挥与控制，实现卓越态势感知能力

专知会员服务

34+阅读 · 2025年2月3日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

《从指挥和控制的角度防御智能高超音速武器》30页最新论文，加拿大国防研究与发展部（DRDC）

《从指挥和控制的角度防御智能高超音速武器》30页最新论文，加拿大国防研究与发展部（DRDC）

专知会员服务

54+阅读 · 2022年5月14日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

达摩院基于元学习的对话系统

达摩院基于元学习的对话系统

专知会员服务

25+阅读 · 2021年1月1日

【CVPR2020-小鹏汽车】判别性多模态语音识别, Discriminative Multi-modality SR

【CVPR2020-小鹏汽车】判别性多模态语音识别, Discriminative Multi-modality SR

专知会员服务

41+阅读 · 2020年5月13日

热门VIP内容

开通专知VIP会员享更多权益服务

算法战加速推进：五角大楼项目、供应商生态体系与军事创新的战略重塑

《从技术突破到战场应用：发挥原型开发效能的最佳实践》报告

《美国首席数字与人工智能办公室（CDAO）人工智能治理与采办流程效能评估》报告

探秘Palantir：驱动美情报的科技巨头

相关资讯

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

博客 | 一文看懂任务型对话中的对话策略学习（DPL）

博客 | 一文看懂任务型对话中的对话策略学习（DPL）

AI研习社

10+阅读 · 2019年4月22日

NLP实践：对话系统技术原理和应用

NLP实践：对话系统技术原理和应用

AI100

34+阅读 · 2019年3月20日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

一文读懂智能对话系统

一文读懂智能对话系统

数据派THU

16+阅读 · 2018年1月27日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

相关论文

DuetUI: A Bidirectional Context Loop for Human-Agent Co-Generation of Task-Oriented Interfaces

Arxiv

0+阅读 · 2月13日

Speaker-Aware Simulation Improves Conversational Speech Recognition

Arxiv

0+阅读 · 2月4日

Adapting Where It Matters: Depth-Aware Adaptation for Efficient Multilingual Speech Recognition in Low-Resource Languages

Arxiv

0+阅读 · 2月1日

CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR

Arxiv

0+阅读 · 1月30日

Impact of Phonetics on Speaker Identity in Adversarial Voice Attack

Arxiv

0+阅读 · 1月29日

SpatialEmb: Extract and Encode Spatial Information for 1-Stage Multi-channel Multi-speaker ASR on Arbitrary Microphone Arrays

Arxiv

0+阅读 · 1月25日

Towards noise-robust speech inversion through multi-task learning with speech enhancement

Arxiv

0+阅读 · 1月20日

ATOD: An Evaluation Framework and Benchmark for Agentic Task-Oriented Dialogue System

Arxiv

0+阅读 · 1月17日

Navigating the Reality Gap: Privacy-Preserving On-Device Continual Adaptation of ASR for Clinical Telephony

Arxiv

0+阅读 · 1月14日

Survey of End-to-End Multi-Speaker Automatic Speech Recognition for Monaural Audio

Arxiv

0+阅读 · 1月13日

相关基金

基于多节点协作的高鲁棒性低度复杂的抗窃听技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于管制通话语音个体特征的管制员不良工作状态识别方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

双微阵列语音增强与定位方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

拦截高超声速目标的多拦截器协同制导控制理论与方法研究

国家自然科学基金

14+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

基于角度欺骗的编队协同探测与干扰技术

国家自然科学基金

10+阅读 · 2012年12月31日

雷达系统自适应抗干扰方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员