Unlocking Multimodal Document Intelligence: From Current Triumphs to Future Frontiers of Visual Document Retrieval - 专知论文

会员服务 ·

0

多模 · 模态 · 多模态 · 文档检索 · 视觉文档检索 ·

Unlocking Multimodal Document Intelligence: From Current Triumphs to Future Frontiers of Visual Document Retrieval

翻译：解锁多模态文档智能：从当前成就到视觉文档检索的未来前沿

Yibo Yan,Jiahao Huo,Guanbo Feng,Mingdong Ou,Yi Cao,Xin Zou,Shuliang Liu,Yuanhuiyi Lyu,Yu Huang,Jungang Li,Kening Zheng,Xu Zheng,Philip S. Yu,James Kwok,Xuming Hu

from arxiv, Under review

With the rapid proliferation of multimodal information, Visual Document Retrieval (VDR) has emerged as a critical frontier in bridging the gap between unstructured visually rich data and precise information acquisition. Unlike traditional natural image retrieval, visual documents exhibit unique characteristics defined by dense textual content, intricate layouts, and fine-grained semantic dependencies. This paper presents the first comprehensive survey of the VDR landscape, specifically through the lens of the Multimodal Large Language Model (MLLM) era. We begin by examining the benchmark landscape, and subsequently dive into the methodological evolution, categorizing approaches into three primary aspects: multimodal embedding models, multimodal reranker models, and the integration of Retrieval-Augmented Generation (RAG) and Agentic systems for complex document intelligence. Finally, we identify persistent challenges and outline promising future directions, aiming to provide a clear roadmap for future multimodal document intelligence.

翻译：随着多模态信息的快速扩散，视觉文档检索已成为弥合非结构化视觉丰富数据与精确信息获取之间鸿沟的关键前沿。与传统的自然图像检索不同，视觉文档展现出由密集文本内容、复杂布局和细粒度语义依赖所定义的独特特征。本文首次对视觉文档检索领域进行了全面综述，特别是通过多模态大语言模型时代的视角。我们首先审视了基准测试的现状，随后深入探讨了方法论的演进，将现有方法归纳为三个主要方面：多模态嵌入模型、多模态重排序模型，以及为复杂文档智能而整合的检索增强生成与智能体系统。最后，我们指出了持续存在的挑战并勾勒了有前景的未来方向，旨在为未来的多模态文档智能提供一个清晰的路线图。

0

相关内容

多模态文档智能：视觉文档检索的现状综述与未来愿景

多模态文档智能：视觉文档检索的现状综述与未来愿景

专知会员服务

14+阅读 · 2月25日

文档视觉问答简述

文档视觉问答简述

专知会员服务

7+阅读 · 2025年10月17日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

《基于深度学习的视觉文档信息抽取》研究综述

《基于深度学习的视觉文档信息抽取》研究综述

专知会员服务

35+阅读 · 2024年2月3日

【牛津大学博士论文】多模态深度学习在计算机视觉及其应用，138页pdf

【牛津大学博士论文】多模态深度学习在计算机视觉及其应用，138页pdf

专知会员服务

64+阅读 · 2023年11月7日

文档智能: 数据集、模型和应用

文档智能: 数据集、模型和应用

专知会员服务

63+阅读 · 2022年7月31日

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

专知会员服务

150+阅读 · 2022年6月25日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【ICDAR2019教程】用于文档分析、文本识别和语言建模的深度学习（Deep Learning for Document Analysis, Text Recognition, and Language Modeling）

【ICDAR2019教程】用于文档分析、文本识别和语言建模的深度学习（Deep Learning for Document Analysis, Text Recognition, and Language Modeling）

专知会员服务

22+阅读 · 2019年12月12日

【ICDAR2019教程】计算机视觉中的文本形式，Vision and Language: the text modality in computer vision

【ICDAR2019教程】计算机视觉中的文本形式，Vision and Language: the text modality in computer vision

专知会员服务

25+阅读 · 2019年9月21日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

计算机视觉经典论文荟萃，深度学习方法占领9大方向，建议收藏

计算机视觉经典论文荟萃，深度学习方法占领9大方向，建议收藏

专知

20+阅读 · 2017年12月19日

计算机视觉简介：历史、现状和发展趋势

计算机视觉简介：历史、现状和发展趋势

北京思腾合力科技有限公司

10+阅读 · 2017年11月22日

大规模多视角高维图像特征提取

国家自然科学基金

4+阅读 · 2017年12月31日

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

CMRAG: Co-modality-based visual document retrieval and question answering

Arxiv

0+阅读 · 3月6日

Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations

Arxiv

0+阅读 · 3月2日

Seeing Through Words: Controlling Visual Retrieval Quality with Language Models

Arxiv

0+阅读 · 2月24日

Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework

Arxiv

0+阅读 · 2月23日

Connecting the Dots: Surfacing Structure in Documents through AI-Generated Cross-Modal Links

Arxiv

0+阅读 · 2月18日

MLDocRAG: Multimodal Long-Context Document Retrieval Augmented Generation

Arxiv

0+阅读 · 2月13日

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

Arxiv

0+阅读 · 2月11日

MLDocRAG: Multimodal Long-Context Document Retrieval Augmented Generation

Arxiv

0+阅读 · 2月10日

Efficient Table Retrieval and Understanding with Multimodal Large Language Models

Arxiv

0+阅读 · 2月7日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

VIP会员

文章信息

相关主题

视觉文档检索

最新内容

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

10+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

3+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

7+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

4+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

10+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

19+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

11+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

相关VIP内容

多模态文档智能：视觉文档检索的现状综述与未来愿景

多模态文档智能：视觉文档检索的现状综述与未来愿景

专知会员服务

14+阅读 · 2月25日

文档视觉问答简述

文档视觉问答简述

专知会员服务

7+阅读 · 2025年10月17日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

《基于深度学习的视觉文档信息抽取》研究综述

《基于深度学习的视觉文档信息抽取》研究综述

专知会员服务

35+阅读 · 2024年2月3日

【牛津大学博士论文】多模态深度学习在计算机视觉及其应用，138页pdf

【牛津大学博士论文】多模态深度学习在计算机视觉及其应用，138页pdf

专知会员服务

64+阅读 · 2023年11月7日

文档智能: 数据集、模型和应用

文档智能: 数据集、模型和应用

专知会员服务

63+阅读 · 2022年7月31日

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

专知会员服务

150+阅读 · 2022年6月25日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【ICDAR2019教程】用于文档分析、文本识别和语言建模的深度学习（Deep Learning for Document Analysis, Text Recognition, and Language Modeling）

【ICDAR2019教程】用于文档分析、文本识别和语言建模的深度学习（Deep Learning for Document Analysis, Text Recognition, and Language Modeling）

专知会员服务

22+阅读 · 2019年12月12日

【ICDAR2019教程】计算机视觉中的文本形式，Vision and Language: the text modality in computer vision

【ICDAR2019教程】计算机视觉中的文本形式，Vision and Language: the text modality in computer vision

专知会员服务

25+阅读 · 2019年9月21日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能在全球军事与武器工业中的应用、方法论与影响》

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

相关资讯

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

视频分析/多模态学习论文、代码、数据集大列表

视频分析/多模态学习论文、代码、数据集大列表

专知

57+阅读 · 2019年7月13日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

计算机视觉经典论文荟萃，深度学习方法占领9大方向，建议收藏

计算机视觉经典论文荟萃，深度学习方法占领9大方向，建议收藏

专知

20+阅读 · 2017年12月19日

计算机视觉简介：历史、现状和发展趋势

计算机视觉简介：历史、现状和发展趋势

北京思腾合力科技有限公司

10+阅读 · 2017年11月22日

相关论文

CMRAG: Co-modality-based visual document retrieval and question answering

Arxiv

0+阅读 · 3月6日

Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations

Arxiv

0+阅读 · 3月2日

Seeing Through Words: Controlling Visual Retrieval Quality with Language Models

Arxiv

0+阅读 · 2月24日

Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework

Arxiv

0+阅读 · 2月23日

Connecting the Dots: Surfacing Structure in Documents through AI-Generated Cross-Modal Links

Arxiv

0+阅读 · 2月18日

MLDocRAG: Multimodal Long-Context Document Retrieval Augmented Generation

Arxiv

0+阅读 · 2月13日

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

Arxiv

0+阅读 · 2月11日

MLDocRAG: Multimodal Long-Context Document Retrieval Augmented Generation

Arxiv

0+阅读 · 2月10日

Efficient Table Retrieval and Understanding with Multimodal Large Language Models

Arxiv

0+阅读 · 2月7日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

相关基金

大规模多视角高维图像特征提取

国家自然科学基金

4+阅读 · 2017年12月31日

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

基于视觉上下文与文字显著性的复杂自然场景中文字检测研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

基于多模态医学图像处理的多维可视化辅助诊疗关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员