SDR-CIR：面向免训练零样本组合图像检索的语义去偏排序框架 (SDR-CIR: Semantic Debias Retrieval Framework for Training-Free Zero-Shot Composed Image Retrieval) - 专知论文

会员服务 ·

0

组合图像检索 · 图像检索 · 样本 · 排序 · 零样本 ·

SDR-CIR: Semantic Debias Retrieval Framework for Training-Free Zero-Shot Composed Image Retrieval

翻译：SDR-CIR：面向免训练零样本组合图像检索的语义去偏排序框架

Yi Sun,Jinyu Xu,Qing Xie,Jiachen Li,Yanchun Ma,Yongjian Liu

Composed Image Retrieval (CIR) aims to retrieve a target image from a query composed of a reference image and modification text. Recent training-free zero-shot methods often employ Multimodal Large Language Models (MLLMs) with Chain-of-Thought (CoT) to compose a target image description for retrieval. However, due to the fuzzy matching nature of ZS-CIR, the generated description is prone to semantic bias relative to the target image. We propose SDR-CIR, a training-free Semantic Debias Ranking method based on CoT reasoning. First, Selective CoT guides the MLLM to extract visual content relevant to the modification text during image understanding, thereby reducing visual noise at the source. We then introduce a Semantic Debias Ranking with two steps, Anchor and Debias, to mitigate semantic bias. In the Anchor step, we fuse reference image features with target description features to reinforce useful semantics and supplement omitted cues. In the Debias step, we explicitly model the visual semantic contribution of the reference image to the description and incorporate it into the similarity score as a penalty term. By supplementing omitted cues while suppressing redundancy, SDR-CIR mitigates semantic bias and improves retrieval performance. Experiments on three standard CIR benchmarks show that SDR-CIR achieves state-of-the-art results among one-stage methods while maintaining high efficiency. The code is publicly available at https://github.com/suny105/SDR-CIR.

翻译：组合图像检索旨在根据由参考图像和修改文本组成的查询，检索出目标图像。近期的免训练零样本方法通常采用多模态大语言模型结合思维链技术，生成目标图像描述以进行检索。然而，由于零样本组合图像检索固有的模糊匹配特性，生成的描述容易相对于目标图像产生语义偏差。本文提出SDR-CIR，一种基于思维链推理的免训练语义去偏排序方法。首先，选择性思维链引导多模态大语言模型在图像理解过程中提取与修改文本相关的视觉内容，从而从源头减少视觉噪声。随后，我们引入包含锚定与去偏两个步骤的语义去偏排序机制以缓解语义偏差。在锚定步骤中，我们将参考图像特征与目标描述特征相融合，以强化有用语义并补充遗漏线索。在去偏步骤中，我们显式建模参考图像对描述的视觉语义贡献，并将其作为惩罚项纳入相似度评分。通过补充遗漏线索同时抑制冗余信息，SDR-CIR有效减轻了语义偏差并提升了检索性能。在三个标准组合图像检索基准上的实验表明，SDR-CIR在单阶段方法中取得了最先进的性能，同时保持了较高的效率。代码已公开于 https://github.com/suny105/SDR-CIR。

0

相关内容

组合图像检索

组合图像检索

【ICML2025】QuRe：通过困难负样本采样实现查询相关的组合图像检索

【ICML2025】QuRe：通过困难负样本采样实现查询相关的组合图像检索

专知会员服务

7+阅读 · 2025年7月20日

【CVPR2025】CoLLM：面向组合图像检索的大语言模型

【CVPR2025】CoLLM：面向组合图像检索的大语言模型

专知会员服务

13+阅读 · 2025年3月26日

组合图像检索的全面综述

组合图像检索的全面综述

专知会员服务

17+阅读 · 2025年3月2日

【CVPR 2022】一个完全无监督的框架，从噪声和部分测量中学习图像，Robust Equivariant Imaging: a fully unsupervised framework for learning to image

【CVPR 2022】一个完全无监督的框架，从噪声和部分测量中学习图像，Robust Equivariant Imaging: a fully unsupervised framework for learning to image

专知会员服务

25+阅读 · 2022年3月3日

最新《图像描述Image Captioning》综述论文，22页pdf220篇文献

专知会员服务

43+阅读 · 2021年7月17日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

【论文推荐】一种用于逆合成预测的图到图框架，A Graph to Graphs Framework for Retrosynthesis Prediction

【论文推荐】一种用于逆合成预测的图到图框架，A Graph to Graphs Framework for Retrosynthesis Prediction

专知会员服务

12+阅读 · 2020年4月1日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

【AAAI2020】知识图谱的生成式对抗零样本关系学习，Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs

【AAAI2020】知识图谱的生成式对抗零样本关系学习，Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs

专知会员服务

64+阅读 · 2020年1月11日

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

专知会员服务

74+阅读 · 2019年11月20日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

深度学习图像检索(CBIR): 十年之大综述

深度学习图像检索(CBIR): 十年之大综述

专知

66+阅读 · 2020年12月5日

滑铁卢大学2020新书《预训练Transformer模型文本排序》，155页pdf

滑铁卢大学2020新书《预训练Transformer模型文本排序》，155页pdf

专知

10+阅读 · 2020年10月19日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

七月在线实验室

11+阅读 · 2018年7月18日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络图像标注中多视图半监督稀疏特征选择算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

A Unified Framework for Zero-Shot Reinforcement Learning

Arxiv

0+阅读 · 3月9日

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Arxiv

0+阅读 · 3月4日

PRIMA: Pre-training with Risk-integrated Image-Metadata Alignment for Medical Diagnosis via LLM

Arxiv

0+阅读 · 2月26日

ZeroScene: A Zero-Shot Framework for 3D Scene Generation from a Single Image and Controllable Texture Editing

Arxiv

0+阅读 · 2月17日

InfoCIR: Multimedia Analysis for Composed Image Retrieval

Arxiv

0+阅读 · 2月13日

FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing

Arxiv

0+阅读 · 2月9日

FlexID: Training-Free Flexible Identity Injection via Intent-Aware Modulation for Text-to-Image Generation

Arxiv

0+阅读 · 2月7日

SDR-CIR: Semantic Debias Retrieval Framework for Training-Free Zero-Shot Composed Image Retrieval

Arxiv

0+阅读 · 2月5日

FlowBypass: Rectified Flow Trajectory Bypass for Training-Free Image Editing

Arxiv

0+阅读 · 2月2日

ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

组合图像检索

最新内容

《反小型无人机系统的雷达高度估计相干干扰研究》60页

《反小型无人机系统的雷达高度估计相干干扰研究》60页

专知会员服务

0+阅读 · 今天9:52

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

专知会员服务

3+阅读 · 今天9:28

（中文）以机器速度作战：来自Maven特遣队主任的见解

（中文）以机器速度作战：来自Maven特遣队主任的见解

专知会员服务

7+阅读 · 今天3:42

（中文）AUKUS第二支柱中的人工智能与自主性方案

（中文）AUKUS第二支柱中的人工智能与自主性方案

专知会员服务

3+阅读 · 今天3:24

（译文）认知战：以士兵为目标，塑造战略

（译文）认知战：以士兵为目标，塑造战略

专知会员服务

2+阅读 · 今天3:12

（中文）认知战的本体论基础（2026报告）

（中文）认知战的本体论基础（2026报告）

专知会员服务

17+阅读 · 今天1:45

美空军条令（2026）：外国对内防御

美空军条令（2026）：外国对内防御

专知会员服务

3+阅读 · 今天1:32

美国与以色列如何在攻击伊朗中使用人工智能

美国与以色列如何在攻击伊朗中使用人工智能

专知会员服务

7+阅读 · 4月16日

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

《面向大语言模型引导规划、Bandit算法驱动探索与多智能体导航的分层决策问题研究》180页

专知会员服务

7+阅读 · 4月16日

《自动化战略情报管控》

《自动化战略情报管控》

专知会员服务

3+阅读 · 4月16日

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

《反无人机蜂群技术研究：基于小队策略构建大规模无人机防御》

专知会员服务

13+阅读 · 4月16日

得失评估：审视对伊朗战争的轨迹（简报）

得失评估：审视对伊朗战争的轨迹（简报）

专知会员服务

3+阅读 · 4月16日

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

5+阅读 · 4月16日

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

专知会员服务

4+阅读 · 4月16日

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

6+阅读 · 4月16日

相关VIP内容

【ICML2025】QuRe：通过困难负样本采样实现查询相关的组合图像检索

【ICML2025】QuRe：通过困难负样本采样实现查询相关的组合图像检索

专知会员服务

7+阅读 · 2025年7月20日

【CVPR2025】CoLLM：面向组合图像检索的大语言模型

【CVPR2025】CoLLM：面向组合图像检索的大语言模型

专知会员服务

13+阅读 · 2025年3月26日

组合图像检索的全面综述

组合图像检索的全面综述

专知会员服务

17+阅读 · 2025年3月2日

【CVPR 2022】一个完全无监督的框架，从噪声和部分测量中学习图像，Robust Equivariant Imaging: a fully unsupervised framework for learning to image

【CVPR 2022】一个完全无监督的框架，从噪声和部分测量中学习图像，Robust Equivariant Imaging: a fully unsupervised framework for learning to image

专知会员服务

25+阅读 · 2022年3月3日

最新《图像描述Image Captioning》综述论文，22页pdf220篇文献

专知会员服务

43+阅读 · 2021年7月17日

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

【CVPR2020】语义增强的场景文本识别的编码-解码器框架，SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

专知会员服务

25+阅读 · 2020年5月22日

【论文推荐】一种用于逆合成预测的图到图框架，A Graph to Graphs Framework for Retrosynthesis Prediction

【论文推荐】一种用于逆合成预测的图到图框架，A Graph to Graphs Framework for Retrosynthesis Prediction

专知会员服务

12+阅读 · 2020年4月1日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

【AAAI2020】知识图谱的生成式对抗零样本关系学习，Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs

【AAAI2020】知识图谱的生成式对抗零样本关系学习，Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs

专知会员服务

64+阅读 · 2020年1月11日

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

【WSDN 2020 论文】一种结构图表示学习框架（A Structural Graph Representation Learning Framework）

专知会员服务

74+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能战争迷雾：洞悉乌克兰、加沙和伊朗三战区

（中文）AUKUS第二支柱中的人工智能与自主性方案

《反小型无人机系统的雷达高度估计相干干扰研究》60页

（中文）以机器速度作战：来自Maven特遣队主任的见解

相关资讯

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

深度学习图像检索(CBIR): 十年之大综述

深度学习图像检索(CBIR): 十年之大综述

专知

66+阅读 · 2020年12月5日

滑铁卢大学2020新书《预训练Transformer模型文本排序》，155页pdf

滑铁卢大学2020新书《预训练Transformer模型文本排序》，155页pdf

专知

10+阅读 · 2020年10月19日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

七月在线实验室

11+阅读 · 2018年7月18日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

相关论文

A Unified Framework for Zero-Shot Reinforcement Learning

Arxiv

0+阅读 · 3月9日

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Arxiv

0+阅读 · 3月4日

PRIMA: Pre-training with Risk-integrated Image-Metadata Alignment for Medical Diagnosis via LLM

Arxiv

0+阅读 · 2月26日

ZeroScene: A Zero-Shot Framework for 3D Scene Generation from a Single Image and Controllable Texture Editing

Arxiv

0+阅读 · 2月17日

InfoCIR: Multimedia Analysis for Composed Image Retrieval

Arxiv

0+阅读 · 2月13日

FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing

Arxiv

0+阅读 · 2月9日

FlexID: Training-Free Flexible Identity Injection via Intent-Aware Modulation for Text-to-Image Generation

Arxiv

0+阅读 · 2月7日

SDR-CIR: Semantic Debias Retrieval Framework for Training-Free Zero-Shot Composed Image Retrieval

Arxiv

0+阅读 · 2月5日

FlowBypass: Rectified Flow Trajectory Bypass for Training-Free Image Editing

Arxiv

0+阅读 · 2月2日

ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval

Arxiv

0+阅读 · 2月2日

相关基金

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络图像标注中多视图半监督稀疏特征选择算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于草图语义部件的三维模型检索技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员