Sirens' Whisper: Inaudible Near-Ultrasonic Jailbreaks of Speech-Driven LLMs - 专知论文

会员服务 ·

0

攻击 · 越狱 · 语言模型 · 超声 · 越狱攻击 ·

Sirens' Whisper: Inaudible Near-Ultrasonic Jailbreaks of Speech-Driven LLMs

翻译：塞壬的低语：针对语音驱动大语言模型的不可听近超声越狱攻击

Zijian Ling,Pingyi Hu,Xiuyong Gao,Xiaojing Ma,Man Zhou,Jun Feng,Songfeng Lu,Dongmei Zhang,Bin Benjamin Zhu

from arxiv, USENIX Security'26 Camera-ready

Speech-driven large language models (LLMs) are increasingly accessed through speech interfaces, introducing new security risks via open acoustic channels. We present Sirens' Whisper (SWhisper), the first practical framework for covert prompt-based attacks against speech-driven LLMs under realistic black-box conditions using commodity hardware. SWhisper enables robust, inaudible delivery of arbitrary target baseband audio-including long and structured prompts-on commodity devices by encoding it into near-ultrasound waveforms that demodulate faithfully after acoustic transmission and microphone nonlinearity. This is achieved through a simple yet effective approach to modeling nonlinear channel characteristics across devices and environments, combined with lightweight channel-inversion pre-compensation. Building on this high-fidelity covert channel, we design a voice-aware jailbreak generation method that ensures intelligibility, brevity, and transferability under speech-driven interfaces. Experiments across both commercial and open-source speech-driven LLMs demonstrate strong black-box effectiveness. On commercial models, SWhisper achieves up to 0.94 non-refusal (NR) and 0.925 specific-convincing (SC). A controlled user study further shows that the injected jailbreak audio is perceptually indistinguishable from background-only playback for human listeners. Although jailbreaks serve as a case study, the underlying covert acoustic channel enables a broader class of high-fidelity prompt-injection and commandexecution attacks.

翻译：语音驱动大语言模型正日益通过语音接口被访问，这通过开放的声学信道引入了新的安全风险。我们提出了塞壬的低语，这是首个在现实黑盒条件下使用商用硬件、针对语音驱动大语言模型进行隐蔽提示攻击的实用框架。SWhisper通过将任意目标基带音频（包括长且结构化的提示）编码为近超声波波形，能够在商用设备上实现稳健、不可听的传输，这些波形在声学传输和麦克风非线性效应后能忠实地解调。这是通过一种简单而有效的方法实现的，该方法对跨设备和环境的非线性信道特性进行建模，并结合轻量级的信道反转预补偿。基于这个高保真的隐蔽信道，我们设计了一种语音感知的越狱生成方法，确保其在语音驱动接口下的可理解性、简洁性和可迁移性。在商业和开源语音驱动大语言模型上的实验证明了其强大的黑盒有效性。在商业模型上，SWhisper实现了高达0.94的非拒绝率和0.925的特定说服率。一项受控用户研究进一步表明，对于人类听者而言，注入的越狱音频在感知上与仅播放背景音无法区分。尽管越狱攻击是作为一个案例研究，但底层的隐蔽声学信道支持更广泛的高保真提示注入和命令执行攻击类别。

0

相关内容

【综述】大型音频语言模型综述：泛化、可信与未来展望

【综述】大型音频语言模型综述：泛化、可信与未来展望

专知会员服务

12+阅读 · 5月21日

大语言模型越狱攻击：模型、根因及其攻防演化

大语言模型越狱攻击：模型、根因及其攻防演化

专知会员服务

22+阅读 · 2025年4月28日

【CVPR2025】BadToken：针对多模态大语言模型的词元级后门攻击

【CVPR2025】BadToken：针对多模态大语言模型的词元级后门攻击

专知会员服务

10+阅读 · 2025年3月22日

大语言模型越狱攻击: 模型、根因及其攻防演化

大语言模型越狱攻击: 模型、根因及其攻防演化

专知会员服务

24+阅读 · 2025年2月16日

《语音大语言模型》最新进展综述

《语音大语言模型》最新进展综述

专知会员服务

58+阅读 · 2024年10月8日

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

专知会员服务

45+阅读 · 2024年3月12日

【CVPR2024】SNIFFER：用于可解释的脱离上下文谣言检测的多模态大型语言模型

【CVPR2024】SNIFFER：用于可解释的脱离上下文谣言检测的多模态大型语言模型

专知会员服务

19+阅读 · 2024年3月6日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

26+阅读 · 2024年1月2日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

GAN生成式对抗网络

34+阅读 · 2019年9月23日

台大李宏毅：生成式对抗网络GAN在语音自然语言处理中的应用|附247页PPT下载

台大李宏毅：生成式对抗网络GAN在语音自然语言处理中的应用|附247页PPT下载

新智元

18+阅读 · 2019年9月22日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

Kaldi拜拜！PyTorch语音工具包SpeechBrain要来了，支持多种语音任务，实现最强水准

Kaldi拜拜！PyTorch语音工具包SpeechBrain要来了，支持多种语音任务，实现最强水准

量子位

10+阅读 · 2019年9月12日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

近期语音类前沿论文

近期语音类前沿论文

深度学习每日摘要

14+阅读 · 2019年3月17日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

黑白之道

17+阅读 · 2019年2月27日

CCCF动态：徐文渊 | 海豚音攻击的幕后故事

CCCF动态：徐文渊 | 海豚音攻击的幕后故事

中国计算机学会

12+阅读 · 2018年7月17日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

基于抹香鲸嘀嗒声的主动声呐伪装隐蔽探测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

SafeReview: Defending LLM-based Review Systems Against Adversarial Hidden Prompts

Arxiv

0+阅读 · 4月29日

CacheTrap: Unveiling a Stealthier Gray-Box Trojan against LLMs

Arxiv

0+阅读 · 4月27日

Stealthy Backdoor Attacks against LLMs Based on Natural Style Triggers

Arxiv

0+阅读 · 4月23日

Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection

Arxiv

0+阅读 · 4月16日

Enhancing Jailbreak Attacks on LLMs via Persona Prompts

Arxiv

0+阅读 · 3月25日

SUAD: Solid-Channel Ultrasound Injection Attack and Defense to Voice Assistants

Arxiv

0+阅读 · 3月25日

Evolving Jailbreaks: Automated Multi-Objective Long-Tail Attacks on Large Language Models

Arxiv

0+阅读 · 3月20日

Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads

Arxiv

0+阅读 · 3月13日

PolyJailbreak: Cross-Modal Jailbreaking Attacks on Black-Box Multimodal LLMs

Arxiv

0+阅读 · 3月7日

JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

Arxiv

0+阅读 · 2月28日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 今天15:26

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

0+阅读 · 今天15:19

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

【综述】大型音频语言模型综述：泛化、可信与未来展望

【综述】大型音频语言模型综述：泛化、可信与未来展望

专知会员服务

12+阅读 · 5月21日

大语言模型越狱攻击：模型、根因及其攻防演化

大语言模型越狱攻击：模型、根因及其攻防演化

专知会员服务

22+阅读 · 2025年4月28日

【CVPR2025】BadToken：针对多模态大语言模型的词元级后门攻击

【CVPR2025】BadToken：针对多模态大语言模型的词元级后门攻击

专知会员服务

10+阅读 · 2025年3月22日

大语言模型越狱攻击: 模型、根因及其攻防演化

大语言模型越狱攻击: 模型、根因及其攻防演化

专知会员服务

24+阅读 · 2025年2月16日

《语音大语言模型》最新进展综述

《语音大语言模型》最新进展综述

专知会员服务

58+阅读 · 2024年10月8日

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

专知会员服务

45+阅读 · 2024年3月12日

【CVPR2024】SNIFFER：用于可解释的脱离上下文谣言检测的多模态大型语言模型

【CVPR2024】SNIFFER：用于可解释的脱离上下文谣言检测的多模态大型语言模型

专知会员服务

19+阅读 · 2024年3月6日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

26+阅读 · 2024年1月2日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

19+阅读 · 2020年2月26日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师

GAN生成式对抗网络

34+阅读 · 2019年9月23日

台大李宏毅：生成式对抗网络GAN在语音自然语言处理中的应用|附247页PPT下载

台大李宏毅：生成式对抗网络GAN在语音自然语言处理中的应用|附247页PPT下载

新智元

18+阅读 · 2019年9月22日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

Kaldi拜拜！PyTorch语音工具包SpeechBrain要来了，支持多种语音任务，实现最强水准

Kaldi拜拜！PyTorch语音工具包SpeechBrain要来了，支持多种语音任务，实现最强水准

量子位

10+阅读 · 2019年9月12日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

近期语音类前沿论文

近期语音类前沿论文

深度学习每日摘要

14+阅读 · 2019年3月17日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

黑白之道

17+阅读 · 2019年2月27日

CCCF动态：徐文渊 | 海豚音攻击的幕后故事

CCCF动态：徐文渊 | 海豚音攻击的幕后故事

中国计算机学会

12+阅读 · 2018年7月17日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

相关论文

SafeReview: Defending LLM-based Review Systems Against Adversarial Hidden Prompts

Arxiv

0+阅读 · 4月29日

CacheTrap: Unveiling a Stealthier Gray-Box Trojan against LLMs

Arxiv

0+阅读 · 4月27日

Stealthy Backdoor Attacks against LLMs Based on Natural Style Triggers

Arxiv

0+阅读 · 4月23日

Hijacking Large Audio-Language Models via Context-Agnostic and Imperceptible Auditory Prompt Injection

Arxiv

0+阅读 · 4月16日

Enhancing Jailbreak Attacks on LLMs via Persona Prompts

Arxiv

0+阅读 · 3月25日

SUAD: Solid-Channel Ultrasound Injection Attack and Defense to Voice Assistants

Arxiv

0+阅读 · 3月25日

Evolving Jailbreaks: Automated Multi-Objective Long-Tail Attacks on Large Language Models

Arxiv

0+阅读 · 3月20日

Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads

Arxiv

0+阅读 · 3月13日

PolyJailbreak: Cross-Modal Jailbreaking Attacks on Black-Box Multimodal LLMs

Arxiv

0+阅读 · 3月7日

JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

Arxiv

0+阅读 · 2月28日

相关基金

基于抹香鲸嘀嗒声的主动声呐伪装隐蔽探测方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员