We introduce VisualQuest, a novel dataset designed to rigorously evaluate multimodal large language models (MLLMs) on abstract visual reasoning tasks that require the integration of symbolic, cultural, and linguistic knowledge. Unlike existing benchmarks that focus on direct image captioning or classification of realistic images, VisualQuest comprises 3,551 non-photographic, stylized images spanning four categories: Public Figures, Popular Culture, Linguistic Expressions, and Literary Works. Each image is paired with targeted questions to probe complex reasoning. We benchmark ten state-of-the-art MLLMs and find that only Gemini-2.5-flash and GPT-4o achieve strong overall performance, while 3.7 percent of the images remain unrecognized by any model, underscoring persistent challenges in multimodal understanding. Fine-grained analysis shows that Gemini excels at recognizing stylized public figures, whereas GPT-4o leads in linguistic reasoning tasks such as visual puns and emoji combinations. VisualQuest provides a comprehensive and challenging resource for advancing research in abstract visual reasoning and highlights key areas for future model improvement. The dataset is available at https://github.com/xkt88/VISUALQUEST.


翻译:我们提出了VisualQuest,这是一个新颖的数据集,旨在严格评估多模态大语言模型在需要整合符号、文化和语言知识的抽象视觉推理任务上的表现。与现有专注于真实图像直接描述或分类的基准不同,VisualQuest包含3,551张非摄影、风格化的图像,涵盖四个类别:公众人物、流行文化、语言表达和文学作品。每张图像都配有针对性问题,以探究复杂推理能力。我们对十个最先进的多模态大语言模型进行了基准测试,发现只有Gemini-2.5-flash和GPT-4o取得了较强的整体性能,同时有3.7%的图像未被任何模型识别,这突显了多模态理解中持续存在的挑战。细粒度分析表明,Gemini在识别风格化的公众人物方面表现出色,而GPT-4o在视觉双关和表情符号组合等语言推理任务中领先。VisualQuest为推进抽象视觉推理研究提供了一个全面且具有挑战性的资源,并指明了未来模型改进的关键领域。该数据集可通过 https://github.com/xkt88/VISUALQUEST 获取。

0
下载
关闭预览

相关内容

VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员