Audio Language Models (ALMs) offer a promising shift towards explainable audio deepfake detections (ADD), moving beyond \textit{black-box} classifiers by providing transparency to their predictions via reasoning traces. However, such reasoning may not support the model predictions, reflecting poor coherence, or, worse, may rationalize incorrect predictions with plausible but misleading explanation. Moreover, the behavior of ALM reasoning under adversarial attacks remains under-explored, raising questions about the practical reliability of such explanation capabilities. To address this gap, this study introduces \textbf{SARA} (\textbf{S}hift \textbf{A}nalysis of \textbf{R}easoning in \textbf{A}udio), a diagnostic framework that evaluates ALM reasoning across three dimensions: acoustic perception, reasoning-verdict coherence and dissonance. We test five open-source ALMs against both acoustic and linguistic adversarial attacks. We show that acoustic attacks significantly degrade reasoning-verdict coherence (average decrease of 14.20\%), frequently inducing internal logical conflicts. Conversely, linguistic attacks achieve higher attack success rates while maintaining reasoning coherence. We further demonstrate that the textual coherence of generated reasoning traces also serves as a latent indicator of adversarial inputs, enabling effective detection of perturbed audio (0.78 in F1) \textit{without accessing the raw acoustic signal}. These findings suggest that reasoning traces provide diagnostic utility that persists even when final classification outputs are compromised.


翻译:音频语言模型(ALM)为可解释的音频深度伪造检测(ADD)提供了有前景的转变,通过推理轨迹为预测提供透明度,从而超越了“黑箱”分类器。然而,此类推理可能无法支撑模型预测,反映出较差的连贯性,甚至更糟的是,可能用看似合理但具有误导性的解释来合理化错误的预测。此外,ALM推理在对抗性攻击下的行为仍未被充分探索,引发了关于此类解释能力实际可靠性的疑问。为填补这一空白,本研究提出了**SARA**(音频推理的偏移分析),这是一个诊断框架,从三个维度评估ALM推理:声学感知、推理-判决连贯性与不协调性。我们测试了五个开源ALM在声学和语言对抗性攻击下的表现。研究表明,声学攻击显著降低了推理-判决连贯性(平均下降14.20%),频繁引发内部逻辑冲突。相反,语言攻击在保持推理连贯性的同时实现了更高的攻击成功率。我们进一步证明,生成的推理轨迹的文本连贯性也可作为对抗性输入的潜在指标,从而在**不访问原始声学信号**的情况下有效检测扰动音频(F1得分0.78)。这些发现表明,即使最终分类输出受损,推理轨迹仍能提供持续有效的诊断效用。

0
下载
关闭预览

相关内容

深度伪造与检测技术综述(中文版),25页pdf
专知
13+阅读 · 2020年12月12日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员