CAPTCHAs are widely used by websites to block bots and spam by presenting challenges that are easy for humans but difficult for automated programs to solve. To improve accessibility, audio CAPTCHAs are designed to complement visual ones. However, the robustness of audio CAPTCHAs against advanced Large Audio Language Models (LALMs) and Automatic Speech Recognition (ASR) models remains unclear. In this paper, we introduce AI-CAPTCHA, a unified framework that offers (i) an evaluation framework, ACEval, which includes advanced LALM- and ASR-based solvers, and (ii) a novel audio CAPTCHA approach, IllusionAudio, leveraging audio illusions. Through extensive evaluations of seven widely deployed audio CAPTCHAs, we show that most existing methods can be solved with high success rates by advanced LALMs and ASR models, exposing critical security weaknesses. To address these vulnerabilities, we design a new audio CAPTCHA approach, IllusionAudio, which exploits perceptual illusion cues rooted in human auditory mechanisms. Extensive experiments demonstrate that our method defeats all tested LALM- and ASR-based attacks while achieving a 100% human pass rate, significantly outperforming existing audio CAPTCHA methods.


翻译:CAPTCHA(全自动区分计算机和人类的公开图灵测试)被网站广泛用于通过呈现人类易于解决但自动化程序难以应对的挑战来阻挡机器人和垃圾信息。为提高可访问性,音频CAPTCHA被设计用于补充视觉方案。然而,音频CAPTCHA在面对先进的大型音频语言模型和自动语音识别模型时的鲁棒性仍不明确。本文提出了AI-CAPTCHA统一框架,该框架包含:(i)评估框架ACEval,集成了基于先进LALM和ASR的求解器;(ii)新型音频CAPTCHA方法IllusionAudio,该方法利用音频错觉原理。通过对七种广泛部署的音频CAPTCHA进行大规模评估,我们发现现有方法大多能被先进的LALM和ASR模型以高成功率破解,暴露出严重的安全缺陷。为应对这些漏洞,我们设计了新型音频CAPTCHA方法IllusionAudio,该方法利用植根于人类听觉机制的感知错觉线索。大量实验表明,我们的方法能抵御所有已测试的基于LALM和ASR的攻击,同时实现100%的人类通过率,显著优于现有音频CAPTCHA方案。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
迈向可控语音合成:大语言模型时代的综述
专知会员服务
23+阅读 · 2024年12月13日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
41+阅读 · 2023年10月29日
【CMU博士论文】鲁棒大规模音频/视觉学习,309页pdf
专知会员服务
26+阅读 · 2023年8月14日
使用 FastAI 和即时频率变换进行音频分类
AI研习社
11+阅读 · 2019年5月9日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员