Composed Image Retrieval (CIR) enables users to search for target images using both a reference image and manipulation text, offering substantial advantages over single-modality retrieval systems. However, existing CIR methods suffer from representation space fragmentation: queries and targets comprise heterogeneous modalities and are processed by distinct encoders, forcing models to bridge misaligned representation spaces only through post-hoc alignment, which fundamentally limits retrieval performance. This architectural asymmetry manifests as three distinct, well-separated clusters in the feature space, directly demonstrating how heterogeneous modalities create fundamentally misaligned representation spaces from initialization. In this work, we propose CSMCIR, a unified representation framework that achieves efficient query-target alignment through three synergistic components. First, we introduce a Multi-level Chain-of-Thought (MCoT) prompting strategy that guides Multimodal Large Language Models to generate discriminative, semantically compatible captions for target images, establishing modal symmetry. Building upon this, we design a symmetric dual-tower architecture where both query and target sides utilize the identical shared-parameter Q-Former for cross-modal encoding, ensuring consistent feature representations and further reducing the alignment gap. Finally, this architectural symmetry enables an entropy-based, temporally dynamic Memory Bank strategy that provides high-quality negative samples while maintaining consistency with the evolving model state. Extensive experiments on four benchmark datasets demonstrate that our CSMCIR achieves state-of-the-art performance with superior training efficiency. Comprehensive ablation studies further validate the effectiveness of each proposed component.


翻译:组合图像检索(CIR)允许用户同时使用参考图像和操作文本来搜索目标图像,相比单模态检索系统具有显著优势。然而,现有CIR方法存在表征空间碎片化问题:查询与目标由异构模态构成,且由不同编码器处理,迫使模型仅能通过事后对齐来弥合未对齐的表征空间,这从根本上限制了检索性能。这种架构不对称性在特征空间中表现为三个明显分离的聚类,直接证明了异构模态如何从初始化阶段就产生根本未对齐的表征空间。本文提出CSMCIR,一个通过三个协同组件实现高效查询-目标对齐的统一表征框架。首先,我们引入多级思维链(MCoT)提示策略,引导多模态大语言模型为目标图像生成具有区分性且语义兼容的描述,从而建立模态对称性。在此基础上,我们设计了对称双塔架构,其中查询端和目标端均采用参数共享的Q-Former进行跨模态编码,确保特征表示的一致性并进一步缩小对齐间隙。最后,这种架构对称性支持基于熵的时序动态记忆库策略,该策略在提供高质量负样本的同时保持与模型动态演化状态的一致性。在四个基准数据集上的大量实验表明,我们的CSMCIR以卓越的训练效率实现了最先进的性能。全面的消融研究进一步验证了每个提出组件的有效性。

0
下载
关闭预览

相关内容

国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员