MVAD: A Benchmark Dataset for Multimodal AI-Generated Video-Audio Detection - 专知论文

会员服务 ·

0

模态 · 多模 · 视频 · 数据集 · 多模态 ·

MVAD: A Benchmark Dataset for Multimodal AI-Generated Video-Audio Detection

翻译：MVAD：面向多模态AI生成视频-音频检测的基准数据集

Mengxue Hu,Yunfeng Diao,Changtao Miao,Tairui Ge,Taize Ge,Zhiqing Guo,Jianshu Li,Zhe Li,Zhongjie Ba,Joey Tianyi Zhou

from arxiv, 10 pages,2 figures

The rapid advancement of AI-generated multimodal video-audio content has raised significant concerns regarding information security and content authenticity. Existing synthetic video datasets predominantly focus on the visual modality alone, while the few incorporating audio are largely confined to facial deepfakes--a limitation that fails to address the expanding landscape of general multimodal AI-generated content and substantially impedes the development of trustworthy detection systems. To bridge this critical gap, we introduce the Multimodal Video-Audio Dataset (MVAD), the first comprehensive dataset specifically designed for detecting AI-generated multimodal video-audio content. Our dataset exhibits three key characteristics: (1) genuine multimodality with samples generated according to three realistic video-audio forgery patterns; (2) high perceptual quality achieved through diverse state-of-the-art generative models; and (3) comprehensive diversity spanning realistic and anime visual styles, four content categories (humans, animals, objects, and scenes), and four video-audio multimodal data types. Our dataset will be available at https://github.com/HuMengXue0104/MVAD.

翻译：人工智能生成的多模态视频-音频内容的快速发展，对信息安全和内容真实性引发了重大关切。现有合成视频数据集主要关注视觉模态，而少数包含音频的数据集也大多局限于面部深度伪造——这种局限未能覆盖日益扩展的通用多模态AI生成内容领域，并显著阻碍了可信检测系统的发展。为弥合这一关键差距，我们提出多模态视频-音频数据集（MVAD），这是首个专门用于检测AI生成多模态视频-音频内容的综合性数据集。该数据集具有三个关键特征：（1）真实的 multimodality（多模态性），样本依据三种逼真的视频-音频伪造模式生成；（2）通过多种最先进的生成模型实现的高感知质量；（3）涵盖现实与动漫视觉风格、四类内容（人类、动物、物体与场景）以及四种视频-音频多模态数据类型的全面多样性。本数据集将于 https://github.com/HuMengXue0104/MVAD 提供。

0

相关内容

综述：AI生成视频检测，从视觉取证走向事实保真验证

综述：AI生成视频检测，从视觉取证走向事实保真验证

专知会员服务

11+阅读 · 7月14日

音视频大数据基础模型全面综述

音视频大数据基础模型全面综述

专知会员服务

11+阅读 · 5月7日

【ICCV2025】AIGI-Holmes：面向可解释性与可泛化性的AI生成图像检测方法 —— 基于多模态大语言模型的研究

【ICCV2025】AIGI-Holmes：面向可解释性与可泛化性的AI生成图像检测方法 —— 基于多模态大语言模型的研究

专知会员服务

10+阅读 · 2025年7月4日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

专知会员服务

18+阅读 · 2025年2月11日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

如何检测AIGC？最新《检测大型AI模型生成的多媒体内容》综述，详述机器文本、图像、视频、音频和多模态内容生成检测

如何检测AIGC？最新《检测大型AI模型生成的多媒体内容》综述，详述机器文本、图像、视频、音频和多模态内容生成检测

专知会员服务

70+阅读 · 2024年2月4日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

69+阅读 · 2023年10月5日

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

专知会员服务

151+阅读 · 2022年6月25日

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

专知会员服务

45+阅读 · 2022年3月1日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

【资源】深度学习视频分析/多模态学习资源大列表

【资源】深度学习视频分析/多模态学习资源大列表

专知

48+阅读 · 2019年10月17日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

13+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

基于视频的目标检测的发展【附PPT与视频资料】

基于视频的目标检测的发展【附PPT与视频资料】

人工智能前沿讲习班

19+阅读 · 2018年12月14日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation

Arxiv

0+阅读 · 6月15日

Teacher-Student Structure for Domain Adaptation in Ensemble Audio-Visual Video Deepfake Detection

Arxiv

0+阅读 · 6月13日

VGGSounder: Audio-Visual Evaluations for Foundation Models

Arxiv

0+阅读 · 6月3日

DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities

Arxiv

0+阅读 · 6月2日

AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models

Arxiv

0+阅读 · 5月23日

Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation

Arxiv

0+阅读 · 5月17日

Audio-Visual Intelligence in Large Foundation Models

Arxiv

0+阅读 · 5月5日

CMTA: Leveraging Cross-Modal Temporal Artifacts for Generalizable AI-Generated Video Detection

Arxiv

0+阅读 · 5月1日

MTAVG-Bench: A Diagnostic Benchmark for Multi-Talker Dialogue-Centric Audio-Video Generation

Arxiv

0+阅读 · 4月30日

AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction

Arxiv

0+阅读 · 4月15日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

综述：AI生成视频检测，从视觉取证走向事实保真验证

综述：AI生成视频检测，从视觉取证走向事实保真验证

专知会员服务

11+阅读 · 7月14日

音视频大数据基础模型全面综述

音视频大数据基础模型全面综述

专知会员服务

11+阅读 · 5月7日

【ICCV2025】AIGI-Holmes：面向可解释性与可泛化性的AI生成图像检测方法 —— 基于多模态大语言模型的研究

【ICCV2025】AIGI-Holmes：面向可解释性与可泛化性的AI生成图像检测方法 —— 基于多模态大语言模型的研究

专知会员服务

10+阅读 · 2025年7月4日

文本、视觉与语音生成的自动化评估方法综述

文本、视觉与语音生成的自动化评估方法综述

专知会员服务

20+阅读 · 2025年6月15日

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

专知会员服务

18+阅读 · 2025年2月11日

《AI生成视频评估综述》

《AI生成视频评估综述》

专知会员服务

28+阅读 · 2024年10月30日

如何检测AIGC？最新《检测大型AI模型生成的多媒体内容》综述，详述机器文本、图像、视频、音频和多模态内容生成检测

如何检测AIGC？最新《检测大型AI模型生成的多媒体内容》综述，详述机器文本、图像、视频、音频和多模态内容生成检测

专知会员服务

70+阅读 · 2024年2月4日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

69+阅读 · 2023年10月5日

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

专知会员服务

151+阅读 · 2022年6月25日

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

AI换脸、合成语音大爆发！清华《深度合成十大趋势报告（2022）》发布

专知会员服务

45+阅读 · 2022年3月1日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

【资源】深度学习视频分析/多模态学习资源大列表

【资源】深度学习视频分析/多模态学习资源大列表

专知

48+阅读 · 2019年10月17日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

13+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

基于视频的目标检测的发展【附PPT与视频资料】

基于视频的目标检测的发展【附PPT与视频资料】

人工智能前沿讲习班

19+阅读 · 2018年12月14日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation

Arxiv

0+阅读 · 6月15日

Teacher-Student Structure for Domain Adaptation in Ensemble Audio-Visual Video Deepfake Detection

Arxiv

0+阅读 · 6月13日

VGGSounder: Audio-Visual Evaluations for Foundation Models

Arxiv

0+阅读 · 6月3日

DetectZoo: A Unified Toolkit for AI-Generated Content Detection Across Text, Audio, and Image Modalities

Arxiv

0+阅读 · 6月2日

AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models

Arxiv

0+阅读 · 5月23日

Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation

Arxiv

0+阅读 · 5月17日

Audio-Visual Intelligence in Large Foundation Models

Arxiv

0+阅读 · 5月5日

CMTA: Leveraging Cross-Modal Temporal Artifacts for Generalizable AI-Generated Video Detection

Arxiv

0+阅读 · 5月1日

MTAVG-Bench: A Diagnostic Benchmark for Multi-Talker Dialogue-Centric Audio-Video Generation

Arxiv

0+阅读 · 4月30日

AVID: A Benchmark for Omni-Modal Audio-Visual Inconsistency Understanding via Agent-Driven Construction

Arxiv

0+阅读 · 4月15日

相关基金

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员