Composed Image Retrieval (CIR) is a pivotal and complex task in multimodal understanding. Current CIR benchmarks typically feature limited query categories and fail to capture the diverse requirements of real-world scenarios. To bridge this evaluation gap, we leverage image editing to achieve precise control over modification types and content, enabling a pipeline for synthesizing queries across a broad spectrum of categories. Using this pipeline, we construct EDIR, a novel fine-grained CIR benchmark. EDIR encompasses 5,000 high-quality queries structured across five main categories and fifteen subcategories. Our comprehensive evaluation of 13 multimodal embedding models reveals a significant capability gap; even state-of-the-art models (e.g., RzenEmbed and GME) struggle to perform consistently across all subcategories, highlighting the rigorous nature of our benchmark. Through comparative analysis, we further uncover inherent limitations in existing benchmarks, such as modality biases and insufficient categorical coverage. Furthermore, an in-domain training experiment demonstrates the feasibility of our benchmark. This experiment clarifies the task challenges by distinguishing between categories that are solvable with targeted data and those that expose intrinsic limitations of current model architectures.


翻译:组合图像检索(CIR)是多模态理解领域一项关键且复杂的任务。当前的CIR基准通常查询类别有限,难以涵盖现实场景的多样化需求。为弥补这一评估差距,我们利用图像编辑技术实现对修改类型和内容的精确控制,从而构建了一个能够跨广泛类别合成查询的流程。基于此流程,我们构建了EDIR——一个新颖的细粒度CIR基准。EDIR包含5000个高质量查询,其结构涵盖五个主要类别和十五个子类别。通过对13个多模态嵌入模型的全面评估,我们揭示了显著的能力差距:即使是最先进的模型(如RzenEmbed和GME)也难以在所有子类别中保持稳定性能,这凸显了我们基准的严谨性。通过对比分析,我们进一步发现了现有基准的内在局限性,例如模态偏差和类别覆盖不足。此外,一项领域内训练实验证明了我们基准的可行性。该实验通过区分哪些类别可通过针对性数据解决、哪些类别暴露了当前模型架构的内在局限性,从而阐明了任务的挑战性。

0
下载
关闭预览

相关内容

【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 2025年4月5日
【CVPR2025】CoLLM:面向组合图像检索的大语言模型
专知会员服务
12+阅读 · 2025年3月26日
组合图像检索的全面综述
专知会员服务
17+阅读 · 2025年3月2日
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
基于深度学习的图像目标检测算法综述
专知会员服务
100+阅读 · 2022年4月15日
综述 | 图像配准 Image registration
计算机视觉life
19+阅读 · 2019年9月12日
关于CNN图像分类的一份综合设计指南
云栖社区
11+阅读 · 2018年5月15日
微信OCR(1)——公众号图文识别中的文本检测
微信AI
17+阅读 · 2017年11月22日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员