Open-domain multimodal document retrieval aims to retrieve specific components (paragraphs, tables, or images) from large and interconnected document corpora. Existing graph-based retrieval approaches typically rely on a uniform similarity metric that overlooks hop-specific semantics, and their rigid pre-defined plans hinder dynamic error correction. These limitations suggest that a retriever should adapt its reasoning to the evolving context and recover intelligently from dead ends. To address these needs, we propose Failure is Feedback (FiF), which casts subgraph retrieval as a sequential decision process and introduces two key innovations. (i) We introduce a history-aware backtracking mechanism; unlike standard backtracking that simply reverts the state, our approach piggybacks on the context of failed traversals, leveraging insights from previous failures. (ii) We implement an economically-rational agentic workflow. Unlike conventional agents with static strategies, our orchestrator employs a cost-aware traversal method to dynamically manage the trade-off between retrieval accuracy and inference costs, escalating to intensive LLM-based reasoning only when the prior failure justifies the additional computational investment. Extensive experiments show that FiF achieves state-of-the-art retrieval on the benchmarks of MultimodalQA, MMCoQA and WebQA.


翻译:开放域多模态文档检索旨在从大规模互连文档语料库中检索特定组件(段落、表格或图像)。现有基于图的检索方法通常依赖统一的相似性度量,忽视了跳转特定语义,且其僵化的预定义规划阻碍了动态错误修正。这些局限性表明检索器应使其推理适应不断演化的上下文,并能从死胡同中智能恢复。为应对这些需求,我们提出"失败即反馈"方法,将子图检索构建为序列决策过程并引入两项关键创新:(i)我们提出历史感知回溯机制;与仅简单回退状态的标准回溯不同,本方法依托失败遍历的上下文,充分利用先前失败的洞察。(ii)我们实现了经济理性的智能体工作流。与采用静态策略的传统智能体不同,我们的编排器采用成本感知遍历方法,动态权衡检索精度与推理成本,仅当先前的失败证明额外计算投入合理时,才升级至基于大型语言模型的密集推理。大量实验表明,FiF在MultimodalQA、MMCoQA和WebQA基准测试中实现了最先进的检索性能。

0
下载
关闭预览

相关内容

多模态检索增强生成的综合综述
专知会员服务
43+阅读 · 2025年2月17日
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
专知会员服务
53+阅读 · 2021年8月13日
专知会员服务
62+阅读 · 2021年3月25日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
多模态检索增强生成的综合综述
专知会员服务
43+阅读 · 2025年2月17日
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
专知会员服务
53+阅读 · 2021年8月13日
专知会员服务
62+阅读 · 2021年3月25日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员