Document understanding is critical for applications from financial analysis to scientific discovery. Current approaches, whether OCR-based pipelines feeding Large Language Models (LLMs) or native Multimodal LLMs (MLLMs), face key limitations: the former loses structural detail, while the latter struggles with context modeling. Retrieval-Augmented Generation (RAG) helps ground models in external data, but documents' multimodal nature, i.e., combining text, tables, charts, and layout, demands a more advanced paradigm: Multimodal RAG. This approach enables holistic retrieval and reasoning across all modalities, unlocking comprehensive document intelligence. Recognizing its importance, this paper presents a systematic survey of Multimodal RAG for document understanding. We propose a taxonomy based on domain, retrieval modality, and granularity, and review advances involving graph structures and agentic frameworks. We also summarize key datasets, benchmarks, applications and industry deployment, and highlight open challenges in efficiency, fine-grained representation, and robustness, providing a roadmap for future progress in document AI.


翻译:文档理解对于从金融分析到科学发现的应用至关重要。当前方法,无论是将基于OCR的流水线输入大型语言模型(LLMs),还是原生多模态大型语言模型(MLLMs),都面临关键限制:前者丢失结构细节,而后者在上下文建模方面存在困难。检索增强生成(RAG)有助于将模型基于外部数据,但文档的多模态性质(即结合文本、表格、图表和布局)要求更先进的范式:多模态RAG。这种方法能够跨所有模态进行整体检索和推理,从而释放全面的文档智能。认识到其重要性,本文对面向文档理解的多模态RAG进行了系统性综述。我们提出了基于领域、检索模态和粒度的分类法,并回顾了涉及图结构和智能体框架的进展。我们还总结了关键数据集、基准测试、应用和行业部署,并强调了在效率、细粒度表示和鲁棒性方面的开放挑战,为文档AI的未来发展提供了路线图。

0
下载
关闭预览

相关内容

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
Python图像处理,366页pdf,Image Operators Image Processing in Python
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员