Recent advances in multimodal large language models (MLLMs) have substantially expanded the capabilities of multimodal retrieval, enabling systems to align and retrieve information across visual and textual modalities. Yet, existing benchmarks largely focus on coarse-grained or single-condition alignment, overlooking real-world scenarios where user queries specify multiple interdependent constraints across modalities. To bridge this gap, we introduce MCMR (Multi-Conditional Multimodal Retrieval): a large-scale benchmark designed to evaluate fine-grained, multi-condition cross-modal retrieval under natural-language queries. MCMR spans five product domains: upper and bottom clothing, jewelry, shoes, and furniture. It also preserves rich long-form metadata essential for compositional matching. Each query integrates complementary visual and textual attributes, requiring models to jointly satisfy all specified conditions for relevance. We benchmark a diverse suite of MLLM-based multimodal retrievers and vision-language rerankers to assess their condition-aware reasoning abilities. Experimental results reveal: (i) distinct modality asymmetries across models; (ii) visual cues dominate early-rank precision, while textual metadata stabilizes long-tail ordering; and (iii) MLLM-based pointwise rerankers markedly improve fine-grained matching by explicitly verifying query-candidate consistency. Overall, MCMR establishes a challenging and diagnostic benchmark for advancing multimodal retrieval toward compositional, constraint-aware, and interpretable understanding. Our code and dataset is available at https://github.com/EIT-NLP/MCMR


翻译:近年来,多模态大语言模型(MLLMs)的进展显著扩展了多模态检索的能力,使系统能够跨视觉与文本模态对齐并检索信息。然而,现有基准主要关注粗粒度或单条件对齐,忽视了现实场景中用户查询常指定跨模态的多个相互依赖约束。为弥补这一差距,我们提出了MCMR(多条件多模态检索):一个大规模基准,旨在评估自然语言查询下的细粒度、多条件跨模态检索。MCMR涵盖五个产品领域:上装、下装、珠宝、鞋类和家具,并保留了对于组合匹配至关重要的丰富长格式元数据。每个查询整合了互补的视觉与文本属性,要求模型联合满足所有指定条件以确定相关性。我们对一系列基于MLLM的多模态检索器和视觉语言重排序器进行了基准测试,以评估其条件感知推理能力。实验结果表明:(i)不同模型间存在显著的模态不对称性;(ii)视觉线索主导了早期排序精度,而文本元数据稳定了长尾排序;(iii)基于MLLM的点式重排序器通过显式验证查询-候选一致性,显著提升了细粒度匹配性能。总体而言,MCMR为推进多模态检索向组合式、约束感知和可解释理解发展,建立了一个具有挑战性和诊断性的基准。我们的代码与数据集发布于 https://github.com/EIT-NLP/MCMR。

0
下载
关闭预览

相关内容

多模态大型语言模型:综述
专知会员服务
46+阅读 · 2025年6月14日
面向医学的多模态大型语言模型:全面综述
专知会员服务
25+阅读 · 2025年5月1日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
32+阅读 · 2025年3月5日
多模态大规模语言模型基准的综述
专知会员服务
41+阅读 · 2024年8月25日
数据与多模态大型语言模型的协同作用综述
专知会员服务
58+阅读 · 2024年7月13日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员