Existing retrieval benchmarks primarily consist of text-based queries where keyword or semantic matching is usually sufficient. Many real-world queries contain multimodal elements, particularly, images such as diagrams, charts, and screenshots that require intensive reasoning to identify relevant documents. To address this gap, we introduce MM-BRIGHT, the first multimodal benchmark for reasoning-intensive retrieval. Our dataset consists of 2,803 real-world queries spanning 29 diverse technical domains, with four tasks of increasing complexity: text-to-text, multimodal-to-text, multimodal-to-image, and multimodal-to-multimodal retrieval. Extensive evaluation reveals that state-of-the-art models struggle across all tasks: BM25 achieves only 8.5 nDCG@10 on text-only retrieval, while the best multimodal model Nomic-Vision reaches just 27.6 nDCG@10 on multimodal-to-text retrieval actually underperforming the best text-only model (DiVeR: 32.2). These results highlight substantial headroom and position MM-BRIGHT as a testbed for next-generation retrieval models that better integrate visual reasoning. Our code and data are available at https://github.com/mm-bright/MM-BRIGHT. See also our official website: https://mm-bright.github.io/.


翻译:现有检索基准主要由基于文本的查询构成,其中通常仅需关键词或语义匹配即可完成。然而,许多现实世界的查询包含多模态元素,特别是如图表、示意图和屏幕截图等图像,这些元素需要深入的推理才能识别相关文档。为填补这一空白,我们提出了MM-BRIGHT,这是首个用于推理密集型检索的多模态基准。我们的数据集包含来自29个不同技术领域的2,803个真实世界查询,并设置了四个复杂度递增的任务:文本到文本检索、多模态到文本检索、多模态到图像检索以及多模态到多模态检索。广泛的评估表明,最先进的模型在所有任务上都表现不佳:BM25在纯文本检索上仅获得8.5的nDCG@10,而最佳多模态模型Nomic-Vision在多模态到文本检索上仅达到27.6的nDCG@10,实际上表现不及最佳纯文本模型(DiVeR:32.2)。这些结果凸显了巨大的提升空间,并使MM-BRIGHT成为下一代能更好整合视觉推理的检索模型的测试平台。我们的代码和数据可在 https://github.com/mm-bright/MM-BRIGHT 获取。另请参见我们的官方网站:https://mm-bright.github.io/。

0
下载
关闭预览

相关内容

《多模态大型语言模型》最新进展,详述26种现有MM-LLMs
专知会员服务
65+阅读 · 2024年1月25日
MM-REACT:提示ChatGPT进行多模态推理和行动
专知会员服务
35+阅读 · 2023年3月26日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员