Retrieval is being redefined by agentic AI, demanding multimodal reasoning beyond conventional similarity-based paradigms. Composed Image Retrieval (CIR) exemplifies this shift as each query combines a reference image with textual modifications, requiring compositional understanding across modalities. While embedding-based CIR methods have achieved progress, they remain narrow in perspective, capturing limited cross-modal cues and lacking semantic reasoning. To address these limitations, we introduce XR, a training-free multi-agent framework that reframes retrieval as a progressively coordinated reasoning process. It orchestrates three specialized types of agents: imagination agents synthesize target representations through cross-modal generation, similarity agents perform coarse filtering via hybrid matching, and question agents verify factual consistency through targeted reasoning for fine filtering. Through progressive multi-agent coordination, XR iteratively refines retrieval to meet both semantic and visual query constraints, achieving up to a 38% gain over strong training-free and training-based baselines on FashionIQ, CIRR, and CIRCO, while ablations show each agent is essential. Code is available: https://01yzzyu.github.io/xr.github.io/.


翻译:检索正被智能体人工智能重新定义,这要求超越传统基于相似性范式的多模态推理。组合图像检索(CIR)体现了这一转变,因为每个查询都结合了参考图像和文本修改,需要跨模态的组合理解。虽然基于嵌入的CIR方法已取得进展,但其视角仍然狭窄,捕获的跨模态线索有限且缺乏语义推理。为应对这些局限性,我们提出了XR——一个无需训练的多智能体框架,将检索重构为渐进协调的推理过程。它协调三种专门类型的智能体:想象智能体通过跨模态生成合成目标表示,相似性智能体通过混合匹配执行粗过滤,而提问智能体通过针对性推理验证事实一致性以实现细过滤。通过渐进式多智能体协调,XR迭代优化检索以满足语义和视觉查询约束,在FashionIQ、CIRR和CIRCO数据集上相比强大的无需训练和基于训练的基线方法实现了高达38%的性能提升,消融实验表明每个智能体都不可或缺。代码已公开:https://01yzzyu.github.io/xr.github.io/。

0
下载
关闭预览

相关内容

在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
【CVPR2025】CoLLM:面向组合图像检索的大语言模型
专知会员服务
12+阅读 · 2025年3月26日
组合图像检索的全面综述
专知会员服务
17+阅读 · 2025年3月2日
深度多模态数据融合
专知会员服务
55+阅读 · 2024年11月9日
专知会员服务
62+阅读 · 2021年3月25日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
【CVPR2025】CoLLM:面向组合图像检索的大语言模型
专知会员服务
12+阅读 · 2025年3月26日
组合图像检索的全面综述
专知会员服务
17+阅读 · 2025年3月2日
深度多模态数据融合
专知会员服务
55+阅读 · 2024年11月9日
专知会员服务
62+阅读 · 2021年3月25日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员