DocRetriever: A Plug-and-Play Framework for Multimodal Document Retrieval with Comprehensive Benchmark - 专知论文

会员服务 ·

0

多峰值 · 多样性 · MoDELS · 监督 · 泛化理论 ·

DocRetriever: A Plug-and-Play Framework for Multimodal Document Retrieval with Comprehensive Benchmark

翻译：DocRetriever：面向多模态文档检索的即插即用框架与综合基准

Ruofan Hu,Menghui Zhu,Jieming Zhu,Bo Chen,Shengyang Xu,Minjie Hong,Xiaoda Yang,Sashuai Zhou,Li Tang,Tao Jin,Zhou Zhao

from arxiv, Accepted at KDD 2026 Research Track

Multimodal documents contain diverse elements, such as tables, figures, and layouts, which can complicate retrieval tasks. While current approaches typically combine dense visual embedding models with supervised rerankers to achieve high-precision retrieval, they face inherent limitations. First, the coarse-grained nature of dense embeddings tends to obfuscate explicit semantics, failing to leverage structurally salient information. Second, supervised reranking models suffer from generalization bottlenecks, as their performance heavily relies on domain-specific training data. Furthermore, existing benchmarks often lack diverse assessment dimensions and comprehensive relevance annotations, limiting reliable evaluation. To address these challenges, we propose DocRetriever, a plug-and-play framework. It enhances visual retrieval via a layout-aware sparse embedding technique, enabling effective hybrid encoding without the overhead of optical character recognition (OCR). We also introduce a generalizable reranker that leverages reasoning-augmented demonstrations and optimized sampling to improve accuracy in few-shot settings. Finally, we construct a new benchmark, MultiDocR, to enable more rigorous evaluation. Experiments across diverse benchmarks validate DocRetriever's superiority over state-of-the-art methods.

翻译：多模态文档包含表格、图形和布局等多种元素，这使检索任务复杂化。当前方法通常将密集视觉嵌入模型与有监督重排序器相结合以实现高精度检索，但其存在固有局限。首先，密集嵌入的粗粒度特性易模糊显式语义，无法有效利用结构性显著信息。其次，有监督重排序模型面临泛化瓶颈，其性能严重依赖领域特定训练数据。此外，现有基准常缺乏多样化评估维度与全面相关性标注，限制了可靠评估。为应对这些挑战，我们提出即插即用框架DocRetriever。该框架通过布局感知稀疏嵌入技术增强视觉检索，在不增加光学字符识别（OCR）开销的情况下实现高效混合编码。我们还引入一种可泛化重排序器，利用推理增强演示与优化采样提升少样本场景中的精度。最终，我们构建新基准MultiDocR以实现更严格的评估。在多个基准上的实验验证了DocRetriever相较于现有最优方法的优越性。

0

相关内容

多峰值

多模态文档智能：视觉文档检索的现状综述与未来愿景

多模态文档智能：视觉文档检索的现状综述与未来愿景

专知会员服务

14+阅读 · 2月25日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

专知会员服务

15+阅读 · 2025年11月14日

多模态复合编辑与检索综述

多模态复合编辑与检索综述

专知会员服务

25+阅读 · 2024年9月14日

【AAAI2024】使用大型语言模型的生成式多模态知识检索

【AAAI2024】使用大型语言模型的生成式多模态知识检索

专知会员服务

58+阅读 · 2024年1月19日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知会员服务

84+阅读 · 2023年4月6日

多模态学习有哪些架构？MBZUAI最新《多模态表示学习》综述，29页:演化、预训练及其应用综述

多模态学习有哪些架构？MBZUAI最新《多模态表示学习》综述，29页:演化、预训练及其应用综述

专知会员服务

67+阅读 · 2023年2月5日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

专知

23+阅读 · 2022年4月12日

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

专知

31+阅读 · 2020年7月6日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

专知

14+阅读 · 2018年6月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

大规模多视角高维图像特征提取

国家自然科学基金

5+阅读 · 2017年12月31日

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

MAGE-RAG: Multigranular Adaptive Graph Evidence for Agentic Multimodal RAG in Long-Document QA

Arxiv

0+阅读 · 6月14日

MIRAGE: Runtime Scheduling for Multi-Vector Image Retrieval with Hierarchical Decomposition

Arxiv

0+阅读 · 6月13日

Constrained Dominant Sets for Multimodal Document Question Answering

Arxiv

0+阅读 · 6月8日

FusionVul: A Multimodal Feature Fusion Framework for Source Code Vulnerability Detection

Arxiv

0+阅读 · 6月7日

UniNote: A Unified Embedding Model for Multimodal Representation and Ranking

Arxiv

0+阅读 · 6月1日

Inference-Free Multimodal Learned Sparse Retrieval for Production-Scale Visual Document Search

Arxiv

0+阅读 · 5月29日

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

Arxiv

0+阅读 · 5月29日

FinDocMRE: A Benchmark for Document-Level Financial Multimodal Reasoning Evaluation

Arxiv

0+阅读 · 5月18日

Very Efficient Listwise Multimodal Reranking for Long Documents

Arxiv

0+阅读 · 5月12日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

4+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

5+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

6+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

6+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

8+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

8+阅读 · 7月31日

相关VIP内容

多模态文档智能：视觉文档检索的现状综述与未来愿景

多模态文档智能：视觉文档检索的现状综述与未来愿景

专知会员服务

14+阅读 · 2月25日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

【AAAI2026】URaG：面向高效长文档理解的多模态大语言模型统一检索与生成框架

专知会员服务

15+阅读 · 2025年11月14日

多模态复合编辑与检索综述

多模态复合编辑与检索综述

专知会员服务

25+阅读 · 2024年9月14日

【AAAI2024】使用大型语言模型的生成式多模态知识检索

【AAAI2024】使用大型语言模型的生成式多模态知识检索

专知会员服务

58+阅读 · 2024年1月19日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知会员服务

84+阅读 · 2023年4月6日

多模态学习有哪些架构？MBZUAI最新《多模态表示学习》综述，29页:演化、预训练及其应用综述

多模态学习有哪些架构？MBZUAI最新《多模态表示学习》综述，29页:演化、预训练及其应用综述

专知会员服务

67+阅读 · 2023年2月5日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

什么是多模态ML？CMU-Paul Liang170页PPT讲述《多模态机器学习》，阐述多模态深度学习5大进展，附ppt与视频

专知

23+阅读 · 2022年4月12日

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

专知

31+阅读 · 2020年7月6日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架

开放知识图谱

35+阅读 · 2019年10月7日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

专知

14+阅读 · 2018年6月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

MAGE-RAG: Multigranular Adaptive Graph Evidence for Agentic Multimodal RAG in Long-Document QA

Arxiv

0+阅读 · 6月14日

MIRAGE: Runtime Scheduling for Multi-Vector Image Retrieval with Hierarchical Decomposition

Arxiv

0+阅读 · 6月13日

Constrained Dominant Sets for Multimodal Document Question Answering

Arxiv

0+阅读 · 6月8日

FusionVul: A Multimodal Feature Fusion Framework for Source Code Vulnerability Detection

Arxiv

0+阅读 · 6月7日

UniNote: A Unified Embedding Model for Multimodal Representation and Ranking

Arxiv

0+阅读 · 6月1日

Inference-Free Multimodal Learned Sparse Retrieval for Production-Scale Visual Document Search

Arxiv

0+阅读 · 5月29日

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

Arxiv

0+阅读 · 5月29日

FinDocMRE: A Benchmark for Document-Level Financial Multimodal Reasoning Evaluation

Arxiv

0+阅读 · 5月18日

Very Efficient Listwise Multimodal Reranking for Long Documents

Arxiv

0+阅读 · 5月12日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

相关基金

大规模多视角高维图像特征提取

国家自然科学基金

5+阅读 · 2017年12月31日

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员