We introduce MRMR, the first expert-level multidisciplinary multimodal retrieval benchmark requiring intensive reasoning. MRMR contains 1,502 queries spanning 23 domains, with positive documents carefully verified by human experts. Compared to prior benchmarks, MRMR introduces three key advancements. First, it challenges retrieval systems across diverse areas of expertise, enabling fine-grained model comparison across domains. Second, queries are reasoning-intensive, with images requiring deeper interpretation such as diagnosing microscopic slides. We further introduce Contradiction Retrieval, a novel task requiring models to identify conflicting concepts. Finally, queries and documents are constructed as image-text interleaved sequences. Unlike earlier benchmarks restricted to single images or unimodal documents, MRMR offers a realistic setting with multi-image queries and mixed-modality corpus documents. We conduct an extensive evaluation of 4 categories of multimodal retrieval systems and 14 frontier models on MRMR. The text embedding model Qwen3-Embedding with LLM-generated image captions achieves the highest performance, highlighting substantial room for improving multimodal retrieval models. Although latest multimodal models such as Ops-MM-Embedding perform competitively on expert-domain queries, they fall short on reasoning-intensive tasks. We believe that MRMR paves the way for advancing multimodal retrieval in more realistic and challenging scenarios.


翻译:我们提出了MRMR,首个需要密集推理的专家级多学科多模态检索基准。MRMR包含跨越23个领域的1,502个查询,其正例文档均经过人类专家严格验证。与先前基准相比,MRMR引入了三项关键进展。首先,它挑战检索系统在多样化的专业领域中的能力,支持跨领域的细粒度模型比较。其次,查询具有推理密集性,图像需要更深层次的解读,例如诊断显微镜切片。我们进一步引入了矛盾检索这一新颖任务,要求模型识别相互冲突的概念。最后,查询和文档被构建为图文交错的序列。与早期局限于单张图像或单模态文档的基准不同,MRMR提供了包含多图像查询和混合模态语料库文档的真实场景。我们在MRMR上对4类多模态检索系统和14个前沿模型进行了广泛评估。结合LLM生成图像描述文本的文本嵌入模型Qwen3-Embedding取得了最高性能,这凸显了多模态检索模型仍有巨大的改进空间。尽管最新的多模态模型(如Ops-MM-Embedding)在专家领域查询上表现具有竞争力,但在推理密集型任务上仍显不足。我们相信MRMR将为在更真实和更具挑战性的场景中推进多模态检索研究开辟道路。

0
下载
关闭预览

相关内容

多模态推理的基础、方法与未来前沿
专知会员服务
27+阅读 · 2025年7月6日
多模态检索增强生成综述
专知会员服务
39+阅读 · 2025年4月15日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
161页《大模型推理》最新综述,涵盖650多篇大模型论文
专知会员服务
127+阅读 · 2024年1月27日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
人工智能学家
29+阅读 · 2019年1月19日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
人工智能学家
29+阅读 · 2019年1月19日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员