Misleading visualizations are a potent driver of misinformation on social media and the web. By violating chart design principles, they distort data and lead readers to draw inaccurate conclusions. Prior work has shown that both humans and multimodal large language models (MLLMs) are frequently deceived by such visualizations. Automatically detecting misleading visualizations and identifying the specific design rules they violate could help protect readers and reduce the spread of misinformation. However, the training and evaluation of AI models has been limited by the absence of large, diverse, and openly available datasets. In this work, we introduce Misviz, a benchmark of 2,604 real-world visualizations annotated with 12 types of misleaders. To support model training, we also create Misviz-synth, a synthetic dataset of 57,665 visualizations generated using Matplotlib and based on real-world data tables. We perform a comprehensive evaluation on both datasets using state-of-the-art MLLMs, rule-based systems, and image-axis classifiers. Our results reveal that the task remains highly challenging. We release Misviz, Misviz-synth, and the accompanying code.


翻译:误导性可视化是社交媒体和网络平台上错误信息传播的重要推手。这类图表通过违反设计准则扭曲数据,导致读者得出错误结论。先前研究表明,人类与多模态大语言模型(MLLMs)均易受此类可视化误导。若能自动检测误导性可视化并识别其违反的具体设计规则,将有助于保护读者并遏制错误信息传播。然而,现有AI模型的训练与评估一直受限于缺乏大规模、多样化且公开可用的数据集。本研究提出Misviz基准数据集,包含2,604个标注了12类误导特征的真实世界可视化图表。为支持模型训练,我们同时创建了Misviz-synth合成数据集,该数据集基于真实数据表格通过Matplotlib生成,包含57,665个可视化样本。我们采用前沿的多模态大语言模型、基于规则的系统以及图像坐标轴分类器对两个数据集进行全面评估。实验结果表明该任务仍具高度挑战性。我们公开了Misviz、Misviz-synth数据集及相关代码。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
虚假信息检测综述
专知会员服务
8+阅读 · 2025年7月9日
视频大模型中视觉上下文表示的scaling law
专知会员服务
24+阅读 · 2024年10月21日
《大型视觉语言模型中的幻觉现象》综述
专知会员服务
57+阅读 · 2024年2月2日
【博士论文】结构化数据自动可视化关键技术研究
专知会员服务
47+阅读 · 2023年12月6日
深度伪造与检测技术综述(中文版),25页pdf
专知
13+阅读 · 2020年12月12日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
动态可视化指南:一步步拆解LSTM和GRU
论智
17+阅读 · 2018年10月25日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
【机器视觉】表面缺陷检测:机器视觉检测技术
产业智能官
25+阅读 · 2018年5月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
VIP会员
相关资讯
深度伪造与检测技术综述(中文版),25页pdf
专知
13+阅读 · 2020年12月12日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
动态可视化指南:一步步拆解LSTM和GRU
论智
17+阅读 · 2018年10月25日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
【机器视觉】表面缺陷检测:机器视觉检测技术
产业智能官
25+阅读 · 2018年5月30日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员