Multimodal misinformation, such as miscaptioned images, where captions misrepresent an image's origin, context, or meaning, poses a growing challenge in the digital age. Due to the scarcity of large-scale annotated datasets for multimodal misinformation detection (MMD), recent approaches rely on synthetic training data created via out-of-context pairings or named entity manipulations (e.g., altering names, dates, or locations). However, these often yield simplistic, unrealistic examples, which limits their utility as training examples. To address this, we introduce "MisCaption This!", a framework for generating high-fidelity synthetic miscaptioned datasets through Adversarial Prompting of Vision-Language Models (VLMs). Additionally, we introduce "Latent Multimodal Reconstruction" (LAMAR), a Transformer-based network trained to reconstruct the embeddings of truthful captions, providing a strong auxiliary signal to guide detection. We explore various training strategies (end-to-end vs. large-scale pre-training) and integration mechanisms (direct, mask, gate, and attention). Extensive experiments show that models trained on "MisCaption This!" data generalize better to real-world misinformation, while LAMAR achieves new state-of-the-art on NewsCLIPpings, VERITE, and the newly introduced VERITE 24/25 benchmark; highlighting the efficacy of VLM-generated data and reconstruction-based networks for advancing MMD. Our code is available at https://github.com/stevejpapad/miscaptioned-image-reconstruction


翻译:多模态虚假信息(例如错误标注的图像,其中标题歪曲了图像的来源、背景或含义)在数字时代构成了日益严峻的挑战。由于用于多模态虚假信息检测的大规模标注数据集稀缺,近期方法依赖于通过上下文外配对或命名实体操作(例如,更改名称、日期或地点)创建的合成训练数据。然而,这些方法通常产生过于简单、不真实的示例,限制了其作为训练样本的效用。为解决此问题,我们提出了“MisCaption This!”,一个通过对抗性提示视觉-语言模型来生成高保真合成错误标注数据集的框架。此外,我们提出了“隐式多模态重构”,这是一个基于Transformer的网络,旨在重构真实标题的嵌入表示,为检测任务提供强有力的辅助信号。我们探索了多种训练策略(端到端与大规模预训练)和集成机制(直接、掩码、门控和注意力)。大量实验表明,在“MisCaption This!”数据上训练的模型能更好地泛化到现实世界的虚假信息,而LAMAR在NewsCLIPpings、VERITE以及新引入的VERITE 24/25基准测试中均达到了新的最先进水平;这凸显了VLM生成的数据和基于重构的网络在推进多模态虚假信息检测方面的有效性。我们的代码可在 https://github.com/stevejpapad/miscaptioned-image-reconstruction 获取。

0
下载
关闭预览

相关内容

【CIKM2024】使用大型视觉语言模型的多模态虚假信息检测
《多模态假新闻检测框架》2023最新80页论文
专知会员服务
44+阅读 · 2023年10月30日
基于多模态学习的虚假新闻检测研究
专知会员服务
34+阅读 · 2023年9月8日
专知会员服务
23+阅读 · 2021年9月23日
专知会员服务
34+阅读 · 2021年9月16日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
数据受限条件下的多模态处理技术综述
专知
22+阅读 · 2022年7月16日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
深度伪造与检测技术综述(中文版),25页pdf
专知
13+阅读 · 2020年12月12日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员