While Vision-Language Models (VLMs) and Multimodal Large Language Models (MLLMs) have shown strong generalisation in detecting image and video deepfakes, their use for audio deepfake detection remains largely unexplored. In this work, we aim to explore the potential of MLLMs for audio deepfake detection. Combining audio inputs with a range of text prompts as queries to find out the viability of MLLMs to learn robust representations across modalities for audio deepfake detection. Therefore, we attempt to explore text-aware and context-rich, question-answer based prompts with binary decisions. We hypothesise that such a feature-guided reasoning will help in facilitating deeper multimodal understanding and enable robust feature learning for audio deepfake detection. We evaluate the performance of two MLLMs, Qwen2-Audio-7B-Instruct and SALMONN, in two evaluation modes: (a) zero-shot and (b) fine-tuned. Our experiments demonstrate that combining audio with a multi-prompt approach could be a viable way forward for audio deepfake detection. Our experiments show that the models perform poorly without task-specific training and struggle to generalise to out-of-domain data. However, they achieve good performance on in-domain data with minimal supervision, indicating promising potential for audio deepfake detection.


翻译:尽管视觉语言模型(VLMs)和多模态大语言模型(MLLMs)在检测图像和视频深度伪造方面展现出强大的泛化能力,但它们在音频深度伪造检测中的应用仍基本未被探索。本研究旨在探索MLLMs在音频深度伪造检测中的潜力。通过将音频输入与一系列文本提示作为查询相结合,以探究MLLMs能否学习跨模态的鲁棒表示用于音频深度伪造检测。因此,我们尝试探索基于文本感知、上下文丰富且带有二元决策的问答式提示。我们假设,这种特征引导的推理将有助于促进更深层次的多模态理解,并为音频深度伪造检测实现鲁棒的特征学习。我们评估了两种MLLMs——Qwen2-Audio-7B-Instruct和SALMONN——在两种评估模式下的性能:(a)零样本和(b)微调。我们的实验表明,将音频与多提示方法相结合可能是音频深度伪造检测的一条可行路径。实验结果显示,未经任务特定训练时模型表现不佳,且难以泛化到域外数据。然而,在最小监督下,它们能在域内数据上取得良好性能,这表明其在音频深度伪造检测中具有广阔的应用前景。

0
下载
关闭预览

相关内容

多模态大语言模型下游调优中“保持自我”的重要性
专知会员服务
17+阅读 · 2025年12月15日
多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
西工大最新《多模态大型语言模型》全面综述
专知会员服务
70+阅读 · 2024年8月6日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
58+阅读 · 2024年5月28日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
深度伪造与检测技术综述(中文版),25页pdf
专知
13+阅读 · 2020年12月12日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
多模态大语言模型下游调优中“保持自我”的重要性
专知会员服务
17+阅读 · 2025年12月15日
多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
《多模态大语言模型评估综述》
专知会员服务
39+阅读 · 2024年8月29日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
西工大最新《多模态大型语言模型》全面综述
专知会员服务
70+阅读 · 2024年8月6日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
58+阅读 · 2024年5月28日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员