Existing multimodal retrieval benchmarks largely emphasize semantic matching on daily-life images and offer limited diagnostics of professional knowledge and complex reasoning. To address this gap, we introduce ARK, a benchmark designed to analyze multimodal retrieval from two complementary perspectives: (i) knowledge domains (five domains with 17 subtypes), which characterize the content and expertise retrieval relies on, and (ii) reasoning skills (six categories), which characterize the type of inference over multimodal evidence required to identify the correct candidate. Specifically, ARK evaluates retrieval with both unimodal and multimodal queries and candidates, covering 16 heterogeneous visual data types. To avoid shortcut matching during evaluation, most queries are paired with targeted hard negatives that require multi-step reasoning. We evaluate 23 representative text-based and multimodal retrievers on ARK and observe a pronounced gap between knowledge-intensive and reasoning-intensive retrieval, with fine-grained visual and spatial reasoning emerging as persistent bottlenecks. We further show that simple enhancements such as re-ranking and rewriting yield consistent improvements, but substantial headroom remains.


翻译:现有的多模态检索基准主要侧重于日常生活图像的语义匹配,对专业知识和复杂推理的诊断能力有限。为弥补这一不足,我们提出了ARK基准,旨在从两个互补的视角分析多模态检索:(i)知识领域(涵盖5个领域及17个子类型),用于刻画检索所依赖的内容与专业知识;(ii)推理技能(分为6个类别),用于刻画识别正确候选答案所需对多模态证据进行的推理类型。具体而言,ARK通过单模态与多模态查询及候选数据对检索进行评估,覆盖16种异构视觉数据类型。为避免评估过程中的捷径匹配,大多数查询均搭配了需要多步推理的针对性困难负例。我们在ARK上评估了23个具有代表性的基于文本及多模态的检索模型,观察到知识密集型检索与推理密集型检索之间存在显著差距,其中细粒度视觉推理与空间推理成为持续的瓶颈。进一步研究表明,重排序与查询改写等简单增强方法能带来一致的性能提升,但仍有巨大的改进空间。

0
下载
关闭预览

相关内容

多模态推理的基础、方法与未来前沿
专知会员服务
27+阅读 · 2025年7月6日
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
专知会员服务
53+阅读 · 2021年8月13日
专知会员服务
62+阅读 · 2021年3月25日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
赛尔笔记 | 多模态信息抽取简述
专知
29+阅读 · 2020年4月12日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
多模态推理的基础、方法与未来前沿
专知会员服务
27+阅读 · 2025年7月6日
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
专知会员服务
53+阅读 · 2021年8月13日
专知会员服务
62+阅读 · 2021年3月25日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员