Existing multimodal retrieval systems excel at semantic matching but implicitly assume that query-image relevance can be measured in isolation. This paradigm overlooks the rich dependencies inherent in realistic visual streams, where information is distributed across temporal sequences rather than confined to single snapshots. To bridge this gap, we introduce DeepImageSearch, a novel agentic paradigm that reformulates image retrieval as an autonomous exploration task. Models must plan and perform multi-step reasoning over raw visual histories to locate targets based on implicit contextual cues. We construct DISBench, a challenging benchmark built on interconnected visual data. To address the scalability challenge of creating context-dependent queries, we propose a human-model collaborative pipeline that employs vision-language models to mine latent spatiotemporal associations, effectively offloading intensive context discovery before human verification. Furthermore, we build a robust baseline using a modular agent framework equipped with fine-grained tools and a dual-memory system for long-horizon navigation. Extensive experiments demonstrate that DISBench poses significant challenges to state-of-the-art models, highlighting the necessity of incorporating agentic reasoning into next-generation retrieval systems.


翻译:现有的多模态检索系统在语义匹配方面表现出色,但其隐含地假设查询与图像的相关性可以独立衡量。这种范式忽略了现实视觉流中固有的丰富依赖关系,在这些场景中,信息分布于时间序列中,而非局限于单张快照。为弥补这一差距,我们提出了DeepImageSearch,一种新颖的智能体范式,它将图像检索重新定义为自主探索任务。模型必须对原始视觉历史进行规划和执行多步推理,以基于隐式的上下文线索定位目标。我们构建了DISBench,一个基于互连视觉数据构建的具有挑战性的基准测试。为应对创建上下文相关查询的可扩展性挑战,我们提出了一种人机协作流程,该流程利用视觉-语言模型挖掘潜在的时空关联,从而在人工验证之前有效地卸载密集的上下文发现任务。此外,我们使用模块化智能体框架构建了一个鲁棒的基线系统,该框架配备了细粒度工具和用于长程导航的双记忆系统。大量实验表明,DISBench对当前最先进的模型构成了重大挑战,凸显了将智能体推理能力融入下一代检索系统的必要性。

0
下载
关闭预览

相关内容

专知会员服务
62+阅读 · 2021年3月25日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
Deep Image Prior:深度卷积网络先天就理解自然图像
极市平台
10+阅读 · 2017年12月5日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
VIP会员
相关VIP内容
专知会员服务
62+阅读 · 2021年3月25日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员