Short-video platforms have become major channels for misinformation, where deceptive claims frequently leverage visual experiments and social cues. While Multimodal Large Language Models (MLLMs) have demonstrated impressive reasoning capabilities, their robustness against misinformation entangled with cognitive biases remains under-explored. In this paper, we introduce a comprehensive evaluation framework using a high-quality, manually annotated dataset of 200 short videos spanning four health domains. This dataset provides fine-grained annotations for three deceptive patterns, experimental errors, logical fallacies, and fabricated claims, each verified by evidence such as national standards and academic literature. We evaluate eight frontier MLLMs across five modality settings. Experimental results demonstrate that Gemini-2.5-Pro achieves the highest performance in the multimodal setting with a belief score of 71.5/100, while o3 performs the worst at 35.2. Furthermore, we investigate social cues that induce false beliefs in videos and find that models are susceptible to biases like authoritative channel IDs.


翻译:短视频平台已成为虚假信息传播的主要渠道,其中欺骗性主张常利用视觉实验和社交线索。尽管多模态大语言模型(MLLMs)已展现出卓越的推理能力,但其对与认知偏见交织的虚假信息的鲁棒性仍未得到充分探索。本文引入一个综合评估框架,使用一个涵盖四个健康领域、包含200个短视频的高质量人工标注数据集。该数据集为三种欺骗模式——实验错误、逻辑谬误和捏造主张——提供细粒度标注,每种模式均通过国家标准和学术文献等证据进行验证。我们在五种模态设置下评估了八个前沿MLLMs。实验结果表明,Gemini-2.5-Pro在多模态设置中表现最佳,信念得分为71.5/100,而o3表现最差,仅为35.2。此外,我们研究了视频中诱发错误信念的社交线索,发现模型易受权威频道ID等偏见影响。

0
下载
关闭预览

相关内容

大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
《多模态大语言模型评估综述》
专知会员服务
40+阅读 · 2024年8月29日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
【CIKM2024】使用大型视觉语言模型的多模态虚假信息检测
从数据中心视角看多模态大型语言模型的综述
专知会员服务
58+阅读 · 2024年5月28日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月20日
VIP会员
最新内容
澳大利亚发布《国防战略(2026年)》
专知会员服务
0+阅读 · 19分钟前
【CMU博士论文】迈向基于基础先验的 4D 感知研究
专知会员服务
0+阅读 · 15分钟前
全球高超音速武器最新发展趋势
专知会员服务
0+阅读 · 44分钟前
人工智能在战场行动中的演进及伊朗案例
专知会员服务
7+阅读 · 4月18日
美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
4+阅读 · 4月18日
【博士论文】面向城市环境的可解释计算机视觉
相关VIP内容
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
《多模态大语言模型视觉提示》综述
专知会员服务
36+阅读 · 2024年9月25日
《多模态大语言模型评估综述》
专知会员服务
40+阅读 · 2024年8月29日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
【CIKM2024】使用大型视觉语言模型的多模态虚假信息检测
从数据中心视角看多模态大型语言模型的综述
专知会员服务
58+阅读 · 2024年5月28日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员