Composed Image Retrieval (CIR) aims to retrieve a target image from a query composed of a reference image and modification text. Recent training-free zero-shot methods often employ Multimodal Large Language Models (MLLMs) with Chain-of-Thought (CoT) to compose a target image description for retrieval. However, due to the fuzzy matching nature of ZS-CIR, the generated description is prone to semantic bias relative to the target image. We propose SDR-CIR, a training-free Semantic Debias Ranking method based on CoT reasoning. First, Selective CoT guides the MLLM to extract visual content relevant to the modification text during image understanding, thereby reducing visual noise at the source. We then introduce a Semantic Debias Ranking with two steps, Anchor and Debias, to mitigate semantic bias. In the Anchor step, we fuse reference image features with target description features to reinforce useful semantics and supplement omitted cues. In the Debias step, we explicitly model the visual semantic contribution of the reference image to the description and incorporate it into the similarity score as a penalty term. By supplementing omitted cues while suppressing redundancy, SDR-CIR mitigates semantic bias and improves retrieval performance. Experiments on three standard CIR benchmarks show that SDR-CIR achieves state-of-the-art results among one-stage methods while maintaining high efficiency. The code is publicly available at https://github.com/suny105/SDR-CIR.


翻译:组合图像检索旨在根据由参考图像和修改文本组成的查询,检索出目标图像。近期的免训练零样本方法通常采用多模态大语言模型结合思维链技术,生成目标图像描述以进行检索。然而,由于零样本组合图像检索固有的模糊匹配特性,生成的描述容易相对于目标图像产生语义偏差。本文提出SDR-CIR,一种基于思维链推理的免训练语义去偏排序方法。首先,选择性思维链引导多模态大语言模型在图像理解过程中提取与修改文本相关的视觉内容,从而从源头减少视觉噪声。随后,我们引入包含锚定与去偏两个步骤的语义去偏排序机制以缓解语义偏差。在锚定步骤中,我们将参考图像特征与目标描述特征相融合,以强化有用语义并补充遗漏线索。在去偏步骤中,我们显式建模参考图像对描述的视觉语义贡献,并将其作为惩罚项纳入相似度评分。通过补充遗漏线索同时抑制冗余信息,SDR-CIR有效减轻了语义偏差并提升了检索性能。在三个标准组合图像检索基准上的实验表明,SDR-CIR在单阶段方法中取得了最先进的性能,同时保持了较高的效率。代码已公开于 https://github.com/suny105/SDR-CIR。

0
下载
关闭预览

相关内容

【CVPR2025】CoLLM:面向组合图像检索的大语言模型
专知会员服务
12+阅读 · 2025年3月26日
组合图像检索的全面综述
专知会员服务
17+阅读 · 2025年3月2日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
深度学习图像检索(CBIR): 十年之大综述
专知
66+阅读 · 2020年12月5日
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
七月在线实验室
11+阅读 · 2018年7月18日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【CVPR2025】CoLLM:面向组合图像检索的大语言模型
专知会员服务
12+阅读 · 2025年3月26日
组合图像检索的全面综述
专知会员服务
17+阅读 · 2025年3月2日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员