重新思考组合图像检索评估：基于图像编辑的细粒度基准 (Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing) - 专知论文

会员服务 ·

0

类别 · 基准 · 细粒度 · 粒度 · 模态 ·

Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing

翻译：重新思考组合图像检索评估：基于图像编辑的细粒度基准

Tingyu Song,Yanzhao Zhang,Mingxin Li,Zhuoning Guo,Dingkun Long,Pengjun Xie,Siyue Zhang,Yilun Zhao,Shu Wu

from arxiv, Under review

Composed Image Retrieval (CIR) is a pivotal and complex task in multimodal understanding. Current CIR benchmarks typically feature limited query categories and fail to capture the diverse requirements of real-world scenarios. To bridge this evaluation gap, we leverage image editing to achieve precise control over modification types and content, enabling a pipeline for synthesizing queries across a broad spectrum of categories. Using this pipeline, we construct EDIR, a novel fine-grained CIR benchmark. EDIR encompasses 5,000 high-quality queries structured across five main categories and fifteen subcategories. Our comprehensive evaluation of 13 multimodal embedding models reveals a significant capability gap; even state-of-the-art models (e.g., RzenEmbed and GME) struggle to perform consistently across all subcategories, highlighting the rigorous nature of our benchmark. Through comparative analysis, we further uncover inherent limitations in existing benchmarks, such as modality biases and insufficient categorical coverage. Furthermore, an in-domain training experiment demonstrates the feasibility of our benchmark. This experiment clarifies the task challenges by distinguishing between categories that are solvable with targeted data and those that expose intrinsic limitations of current model architectures.

翻译：组合图像检索（CIR）是多模态理解领域一项关键且复杂的任务。当前的CIR基准通常查询类别有限，难以涵盖现实场景的多样化需求。为弥补这一评估差距，我们利用图像编辑技术实现对修改类型和内容的精确控制，从而构建了一个能够跨广泛类别合成查询的流程。基于此流程，我们构建了EDIR——一个新颖的细粒度CIR基准。EDIR包含5000个高质量查询，其结构涵盖五个主要类别和十五个子类别。通过对13个多模态嵌入模型的全面评估，我们揭示了显著的能力差距：即使是最先进的模型（如RzenEmbed和GME）也难以在所有子类别中保持稳定性能，这凸显了我们基准的严谨性。通过对比分析，我们进一步发现了现有基准的内在局限性，例如模态偏差和类别覆盖不足。此外，一项领域内训练实验证明了我们基准的可行性。该实验通过区分哪些类别可通过针对性数据解决、哪些类别暴露了当前模型架构的内在局限性，从而阐明了任务的挑战性。

0

相关内容

【ICML2025】QuRe：通过困难负样本采样实现查询相关的组合图像检索

【ICML2025】QuRe：通过困难负样本采样实现查询相关的组合图像检索

专知会员服务

7+阅读 · 2025年7月20日

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

专知会员服务

12+阅读 · 2025年4月22日

【CVPR2025】基于组合表示移植的图像编辑方法

【CVPR2025】基于组合表示移植的图像编辑方法

专知会员服务

8+阅读 · 2025年4月5日

【CVPR2025】CoLLM：面向组合图像检索的大语言模型

【CVPR2025】CoLLM：面向组合图像检索的大语言模型

专知会员服务

13+阅读 · 2025年3月26日

组合图像检索的全面综述

组合图像检索的全面综述

专知会员服务

17+阅读 · 2025年3月2日

多模态复合编辑与检索综述

多模态复合编辑与检索综述

专知会员服务

25+阅读 · 2024年9月14日

基于深度学习的图像目标检测算法综述

基于深度学习的图像目标检测算法综述

专知会员服务

100+阅读 · 2022年4月15日

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

专知会员服务

40+阅读 · 2020年3月2日

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

专知会员服务

20+阅读 · 2020年1月26日

【NeurlPS2019论文总结】它是这样的:用于可解释图像识别的深度学习，This Looks Like That: Deep Learning for Interpretable Image Recognition

【NeurlPS2019论文总结】它是这样的:用于可解释图像识别的深度学习，This Looks Like That: Deep Learning for Interpretable Image Recognition

专知会员服务

22+阅读 · 2019年12月17日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知

12+阅读 · 2021年11月21日

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

专知

15+阅读 · 2020年1月7日

综述 | 图像配准 Image registration

综述 | 图像配准 Image registration

计算机视觉life

19+阅读 · 2019年9月12日

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

专知

14+阅读 · 2018年6月11日

关于CNN图像分类的一份综合设计指南

关于CNN图像分类的一份综合设计指南

云栖社区

11+阅读 · 2018年5月15日

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

专知

33+阅读 · 2018年4月23日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

微信OCR(1)——公众号图文识别中的文本检测

微信OCR(1)——公众号图文识别中的文本检测

微信AI

17+阅读 · 2017年11月22日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于高阶信息和深度表示的图像复原研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

InfoCIR: Multimedia Analysis for Composed Image Retrieval

Arxiv

0+阅读 · 2月13日

Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis

Arxiv

0+阅读 · 2月13日

A Sketch+Text Composed Image Retrieval Dataset for Thangka

Arxiv

0+阅读 · 2月9日

ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation

Arxiv

0+阅读 · 2月8日

SDR-CIR: Semantic Debias Retrieval Framework for Training-Free Zero-Shot Composed Image Retrieval

Arxiv

0+阅读 · 2月4日

Generating a Paracosm for Training-Free Zero-Shot Composed Image Retrieval

Arxiv

0+阅读 · 2月3日

ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval

Arxiv

0+阅读 · 2月2日

XR: Cross-Modal Agents for Composed Image Retrieval

Arxiv

0+阅读 · 1月20日

Fine-Grained Zero-Shot Composed Image Retrieval with Complementary Visual-Semantic Integration

Arxiv

0+阅读 · 1月20日

GraphBench: Next-generation graph learning benchmarking

Arxiv

0+阅读 · 1月18日

VIP会员

文章信息

相关主题

最新内容

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

5+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

4+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

3+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

6+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

2+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

5+阅读 · 4月18日

人工智能在战场行动中的演进及伊朗案例

人工智能在战场行动中的演进及伊朗案例

专知会员服务

4+阅读 · 4月18日

美AI公司Anthropic推出网络安全模型“Mythos”

美AI公司Anthropic推出网络安全模型“Mythos”

专知会员服务

2+阅读 · 4月18日

【博士论文】面向城市环境的可解释计算机视觉

【博士论文】面向城市环境的可解释计算机视觉

专知会员服务

0+阅读 · 4月18日

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

专知会员服务

0+阅读 · 4月18日

大语言模型的自改进机制：技术综述与未来展望

大语言模型的自改进机制：技术综述与未来展望

专知会员服务

0+阅读 · 4月18日

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

专知会员服务

8+阅读 · 4月18日

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

专知会员服务

8+阅读 · 4月18日

《第四代军事特种作战部队选拔与评估》

《第四代军事特种作战部队选拔与评估》

专知会员服务

1+阅读 · 4月18日

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

专知会员服务

4+阅读 · 4月18日

相关VIP内容

【ICML2025】QuRe：通过困难负样本采样实现查询相关的组合图像检索

【ICML2025】QuRe：通过困难负样本采样实现查询相关的组合图像检索

专知会员服务

7+阅读 · 2025年7月20日

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

专知会员服务

12+阅读 · 2025年4月22日

【CVPR2025】基于组合表示移植的图像编辑方法

【CVPR2025】基于组合表示移植的图像编辑方法

专知会员服务

8+阅读 · 2025年4月5日

【CVPR2025】CoLLM：面向组合图像检索的大语言模型

【CVPR2025】CoLLM：面向组合图像检索的大语言模型

专知会员服务

13+阅读 · 2025年3月26日

组合图像检索的全面综述

组合图像检索的全面综述

专知会员服务

17+阅读 · 2025年3月2日

多模态复合编辑与检索综述

多模态复合编辑与检索综述

专知会员服务

25+阅读 · 2024年9月14日

基于深度学习的图像目标检测算法综述

基于深度学习的图像目标检测算法综述

专知会员服务

100+阅读 · 2022年4月15日

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

深度学习生物图像重建综述，Deep Learning for Biomedical Image Reconstruction: A Survey

专知会员服务

40+阅读 · 2020年3月2日

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

基于破坏和构造学习的细粒度图像识别（Destruction and Construction Learning for Fine-grained Image Recognition）

专知会员服务

20+阅读 · 2020年1月26日

【NeurlPS2019论文总结】它是这样的:用于可解释图像识别的深度学习，This Looks Like That: Deep Learning for Interpretable Image Recognition

【NeurlPS2019论文总结】它是这样的:用于可解释图像识别的深度学习，This Looks Like That: Deep Learning for Interpretable Image Recognition

专知会员服务

22+阅读 · 2019年12月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《利用大语言模型增强多域作战兵棋推演》（报告）

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

相关资讯

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知

12+阅读 · 2021年11月21日

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

美国埃默里大学医学院发布最新「医学图像配准深度学习」综述论文

专知

15+阅读 · 2020年1月7日

综述 | 图像配准 Image registration

综述 | 图像配准 Image registration

计算机视觉life

19+阅读 · 2019年9月12日

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

专知

14+阅读 · 2018年6月11日

关于CNN图像分类的一份综合设计指南

关于CNN图像分类的一份综合设计指南

云栖社区

11+阅读 · 2018年5月15日

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

专知

33+阅读 · 2018年4月23日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

微信OCR(1)——公众号图文识别中的文本检测

微信OCR(1)——公众号图文识别中的文本检测

微信AI

17+阅读 · 2017年11月22日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

相关论文

InfoCIR: Multimedia Analysis for Composed Image Retrieval

Arxiv

0+阅读 · 2月13日

Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis

Arxiv

0+阅读 · 2月13日

A Sketch+Text Composed Image Retrieval Dataset for Thangka

Arxiv

0+阅读 · 2月9日

ImageRAG: Dynamic Image Retrieval for Reference-Guided Image Generation

Arxiv

0+阅读 · 2月8日

SDR-CIR: Semantic Debias Retrieval Framework for Training-Free Zero-Shot Composed Image Retrieval

Arxiv

0+阅读 · 2月4日

Generating a Paracosm for Training-Free Zero-Shot Composed Image Retrieval

Arxiv

0+阅读 · 2月3日

ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval

Arxiv

0+阅读 · 2月2日

XR: Cross-Modal Agents for Composed Image Retrieval

Arxiv

0+阅读 · 1月20日

Fine-Grained Zero-Shot Composed Image Retrieval with Complementary Visual-Semantic Integration

Arxiv

0+阅读 · 1月20日

GraphBench: Next-generation graph learning benchmarking

Arxiv

0+阅读 · 1月18日

相关基金

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于高阶信息和深度表示的图像复原研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员