Modern Large audio-language models (LALMs) power intelligent voice interactions by tightly integrating audio and text. This integration, however, expands the attack surface beyond text and introduces vulnerabilities in the continuous, high-dimensional audio channel. While prior work studied audio jailbreaks, the security risks of malicious audio injection and downstream behavior manipulation remain underexamined. In this work, we reveal a previously overlooked threat, auditory prompt injection, under realistic constraints of audio data-only access and strong perceptual stealth. To systematically analyze this threat, we propose \textit{AudioHijack}, a general framework that generates context-agnostic and imperceptible adversarial audio to hijack LALMs. \textit{AudioHijack} employs sampling-based gradient estimation for end-to-end optimization across diverse models, bypassing non-differentiable audio tokenization. Through attention supervision and multi-context training, it steers model attention toward adversarial audio and generalizes to unseen user contexts. We also design a convolutional blending method that modulates perturbations into natural reverberation, making them highly imperceptible to users. Extensive experiments on 13 state-of-the-art LALMs show consistent hijacking across 6 misbehavior categories, achieving average success rates of 79\%-96\% on unseen user contexts with high acoustic fidelity. Real-world studies demonstrate that commercial voice agents from Mistral AI and Microsoft Azure can be induced to execute unauthorized actions on behalf of users. These findings expose critical vulnerabilities in LALMs and highlight the urgent need for dedicated defense.


翻译:现代大型音频-语言模型(LALMs)通过紧密整合音频与文本来驱动智能语音交互。然而,这种整合在文本之外扩展了攻击面,并在连续、高维的音频通道中引入了漏洞。尽管已有研究探讨了音频越狱,但恶意音频注入与下游行为操纵的安全风险仍未得到充分审视。在本工作中,我们揭示了一种此前被忽视的威胁——听觉提示注入,该威胁在仅能访问音频数据且需高度感知隐蔽性的现实约束下成立。为系统性分析此威胁,我们提出 *AudioHijack* 通用框架,可生成上下文无关且不易察觉的对抗性音频以劫持LALMs。*AudioHijack* 采用基于采样的梯度估计方法,在无需可微音频分词化的条件下实现跨多样模型的端到端优化。通过注意力监督与多上下文训练,该框架将模型注意力导向对抗性音频,并泛化至未见过的用户上下文。我们还设计了一种卷积混合方法,将扰动调制为自然混响效应,使其对用户高度不可感知。针对13个最先进LALMs的广泛实验表明,该框架在6种异常行为类别中实现了一致劫持,在未见用户上下文上达到79%-96%的平均成功率,且保持高听觉保真度。真实场景研究证实,来自Mistral AI与Microsoft Azure的商业语音代理可被诱导代表用户执行未授权操作。这些发现暴露了LALMs中的关键漏洞,凸显了针对性防御的迫切需求。

0
下载
关闭预览

相关内容

多模态大型语言模型:综述
专知会员服务
47+阅读 · 2025年6月14日
《语音大语言模型》最新进展综述
专知会员服务
58+阅读 · 2024年10月8日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
如何提示?浙大最新《大型语言模型提示框架》综述
专知会员服务
83+阅读 · 2023年11月23日
通信网络中大型语言模型的后门攻击的综述
专知会员服务
30+阅读 · 2023年9月5日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关主题
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
6+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
2+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
1+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
1+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
10+阅读 · 6月24日
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关VIP内容
多模态大型语言模型:综述
专知会员服务
47+阅读 · 2025年6月14日
《语音大语言模型》最新进展综述
专知会员服务
58+阅读 · 2024年10月8日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
《多模态大语言模型评估综述》
专知会员服务
41+阅读 · 2024年8月29日
大型语言模型网络安全综述
专知会员服务
68+阅读 · 2024年5月12日
如何提示?浙大最新《大型语言模型提示框架》综述
专知会员服务
83+阅读 · 2023年11月23日
通信网络中大型语言模型的后门攻击的综述
专知会员服务
30+阅读 · 2023年9月5日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员