Perception, Understanding and Reasoning, A Multimodal Benchmark for Video Fake News Detection - 专知论文

会员服务 ·

0

基准 · 视频 · 假新闻检测 · 新闻 · 虚假新闻检测 ·

Perception, Understanding and Reasoning, A Multimodal Benchmark for Video Fake News Detection

翻译：感知、理解与推理：面向视频虚假新闻检测的多模态基准

Cui Yakun,Peng Qi,Fushuo Huo,Hang Du,Weijie Shi,Juntao Dai,Zhenghao Zhu,Sirui Han,Yike Guo

The advent of multi-modal large language models (MLLMs) has greatly advanced research on video fake news detection (VFND) tasks. Existing benchmarks typically focus on the detection accuracy, while failing to provide fine-grained assessments for the entire detection process. To address these limitations, we introduce {POVFNDB (Process-oriented Video Fake News Detection Benchmark)}, a process-oriented benchmark comprising 10 tasks designed to systematically evaluate MLLMs' perception, understanding, and reasoning capabilities in VFND. This benchmark contains \textit{36,240} human-annotated question-answer (QA) in structured or open-ended formats, spanning 15 distinct evaluation dimensions that characterize different aspects of the video fake news detection process. Using POVFNDB, we conduct comprehensive evaluations on both proprietary and open-source MLLMs. Moreover, we establish a strong benchmark baseline by fine-tuning Qwen2.5VL-7B-Instruct on process-oriented chain-of-thought data constructed with our proposed POVFND-CoT framework, achieving state-of-the-art performance on VFND.

翻译：多模态大语言模型（MLLMs）的出现极大地推动了视频虚假新闻检测（VFND）任务的研究。现有基准通常侧重于检测准确率，而未能为整个检测过程提供细粒度的评估。为应对这些局限，我们引入了{POVFNDB（面向过程的视频虚假新闻检测基准）}，这是一个面向过程的基准，包含10项任务，旨在系统评估MLLMs在VFND中的感知、理解与推理能力。该基准包含\textit{36,240}个人工标注的结构化或开放式问答对，涵盖15个不同的评估维度，这些维度刻画了视频虚假新闻检测过程的不同方面。利用POVFNDB，我们对专有及开源MLLMs进行了全面评估。此外，我们通过使用所提出的POVFND-CoT框架构建的面向过程思维链数据对Qwen2.5VL-7B-Instruct进行微调，建立了一个强大的基准基线，在VFND上实现了最先进的性能。

0

相关内容

大视觉语言模型在多模态虚假新闻检测中的应用综述

大视觉语言模型在多模态虚假新闻检测中的应用综述

专知会员服务

17+阅读 · 1月27日

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

专知会员服务

30+阅读 · 2025年10月1日

多模态幻觉的评估与检测综述

多模态幻觉的评估与检测综述

专知会员服务

18+阅读 · 2025年7月28日

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

专知会员服务

26+阅读 · 2025年5月16日

【CIKM2024】使用大型视觉语言模型的多模态虚假信息检测

【CIKM2024】使用大型视觉语言模型的多模态虚假信息检测

专知会员服务

18+阅读 · 2024年7月22日

《多模态大型语言模型的幻觉现象》综述

《多模态大型语言模型的幻觉现象》综述

专知会员服务

46+阅读 · 2024年4月30日

科研动态| 不依赖GPT-4的多模态幻觉评估benchmark来了！一键实现多维度幻觉自动分析

科研动态| 不依赖GPT-4的多模态幻觉评估benchmark来了！一键实现多维度幻觉自动分析

专知会员服务

26+阅读 · 2023年11月15日

《大型语言模型能否加强假新闻检测？利用数据增强改进假新闻检测》2023最新报告

《大型语言模型能否加强假新闻检测？利用数据增强改进假新闻检测》2023最新报告

专知会员服务

56+阅读 · 2023年10月16日

基于多模态学习的虚假新闻检测研究

基于多模态学习的虚假新闻检测研究

专知会员服务

34+阅读 · 2023年9月8日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

智源-计算所虚假新闻检测大赛 | 探秘假新闻中的视觉信息

智源-计算所虚假新闻检测大赛 | 探秘假新闻中的视觉信息

PaperWeekly

18+阅读 · 2019年9月24日

【VLDB2019】虚假新闻（Fake News）检测全面综述教程，156页PPT带你进入这一领域

【VLDB2019】虚假新闻（Fake News）检测全面综述教程，156页PPT带你进入这一领域

专知

10+阅读 · 2019年9月3日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

一文看懂虚假新闻检测（附数据集 & 论文推荐）

一文看懂虚假新闻检测（附数据集 & 论文推荐）

PaperWeekly

36+阅读 · 2019年2月19日

揭秘AI识别虚假新闻背后的原理

揭秘AI识别虚假新闻背后的原理

DeepTech深科技

10+阅读 · 2018年8月5日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于广域多通道量测信号的低频振荡模态参数辨识与安全预警方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

Visual Reasoning Benchmark: Evaluating Multimodal LLMs on Classroom-Authentic Visual Problems from Primary Education

Arxiv

0+阅读 · 2月12日

See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

Arxiv

0+阅读 · 2月5日

MultiPriv: Benchmarking Individual-Level Privacy Reasoning in Vision-Language Models

Arxiv

0+阅读 · 2月4日

FinMTM: A Multi-Turn Multimodal Benchmark for Financial Reasoning and Agent Evaluation

Arxiv

0+阅读 · 2月3日

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Arxiv

0+阅读 · 2月2日

Seeing Is Believing? A Benchmark for Multimodal Large Language Models on Visual Illusions and Anomalies

Arxiv

0+阅读 · 2月2日

Divide and Conquer: Multimodal Video Deepfake Detection via Cross-Modal Fusion and Localization

Arxiv

0+阅读 · 1月30日

LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding

Arxiv

0+阅读 · 1月21日

RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video

Arxiv

0+阅读 · 1月15日

Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

假新闻检测

虚假新闻检测

最新内容

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

2+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

4+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

9+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

7+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

9+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

12+阅读 · 4月22日

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

8+阅读 · 4月22日

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

6+阅读 · 4月22日

相关VIP内容

大视觉语言模型在多模态虚假新闻检测中的应用综述

大视觉语言模型在多模态虚假新闻检测中的应用综述

专知会员服务

17+阅读 · 1月27日

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

从感知到认知：多模态大语言模型中视觉-语言交互推理综述

专知会员服务

30+阅读 · 2025年10月1日

多模态幻觉的评估与检测综述

多模态幻觉的评估与检测综述

专知会员服务

18+阅读 · 2025年7月28日

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

专知会员服务

26+阅读 · 2025年5月16日

【CIKM2024】使用大型视觉语言模型的多模态虚假信息检测

【CIKM2024】使用大型视觉语言模型的多模态虚假信息检测

专知会员服务

18+阅读 · 2024年7月22日

《多模态大型语言模型的幻觉现象》综述

《多模态大型语言模型的幻觉现象》综述

专知会员服务

46+阅读 · 2024年4月30日

科研动态| 不依赖GPT-4的多模态幻觉评估benchmark来了！一键实现多维度幻觉自动分析

科研动态| 不依赖GPT-4的多模态幻觉评估benchmark来了！一键实现多维度幻觉自动分析

专知会员服务

26+阅读 · 2023年11月15日

《大型语言模型能否加强假新闻检测？利用数据增强改进假新闻检测》2023最新报告

《大型语言模型能否加强假新闻检测？利用数据增强改进假新闻检测》2023最新报告

专知会员服务

56+阅读 · 2023年10月16日

基于多模态学习的虚假新闻检测研究

基于多模态学习的虚假新闻检测研究

专知会员服务

34+阅读 · 2023年9月8日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能赋能无人机：俄乌战争（万字长文）

美军条令《海军陆战队规划流程（2026版）》

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

国外海军作战管理系统与作战训练系统

相关资讯

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

智源-计算所虚假新闻检测大赛 | 探秘假新闻中的视觉信息

智源-计算所虚假新闻检测大赛 | 探秘假新闻中的视觉信息

PaperWeekly

18+阅读 · 2019年9月24日

【VLDB2019】虚假新闻（Fake News）检测全面综述教程，156页PPT带你进入这一领域

【VLDB2019】虚假新闻（Fake News）检测全面综述教程，156页PPT带你进入这一领域

专知

10+阅读 · 2019年9月3日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

一文看懂虚假新闻检测（附数据集 & 论文推荐）

一文看懂虚假新闻检测（附数据集 & 论文推荐）

PaperWeekly

36+阅读 · 2019年2月19日

揭秘AI识别虚假新闻背后的原理

揭秘AI识别虚假新闻背后的原理

DeepTech深科技

10+阅读 · 2018年8月5日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

相关论文

Visual Reasoning Benchmark: Evaluating Multimodal LLMs on Classroom-Authentic Visual Problems from Primary Education

Arxiv

0+阅读 · 2月12日

See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

Arxiv

0+阅读 · 2月5日

MultiPriv: Benchmarking Individual-Level Privacy Reasoning in Vision-Language Models

Arxiv

0+阅读 · 2月4日

FinMTM: A Multi-Turn Multimodal Benchmark for Financial Reasoning and Agent Evaluation

Arxiv

0+阅读 · 2月3日

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Arxiv

0+阅读 · 2月2日

Seeing Is Believing? A Benchmark for Multimodal Large Language Models on Visual Illusions and Anomalies

Arxiv

0+阅读 · 2月2日

Divide and Conquer: Multimodal Video Deepfake Detection via Cross-Modal Fusion and Localization

Arxiv

0+阅读 · 1月30日

LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding

Arxiv

0+阅读 · 1月21日

RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video

Arxiv

0+阅读 · 1月15日

Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method

Arxiv

0+阅读 · 1月15日

相关基金

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

基于广域多通道量测信号的低频振荡模态参数辨识与安全预警方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员