Document parsing (DP) transforms unstructured or semi-structured documents into structured, machine-readable representations, enabling downstream applications such as knowledge base construction and retrieval-augmented generation (RAG). This survey provides a comprehensive and timely review of document parsing research. We propose a systematic taxonomy that organizes existing approaches into modular pipeline-based systems and unified models driven by Vision-Language Models (VLMs). We provide a detailed review of key components in pipeline systems, including layout analysis and the recognition of heterogeneous content such as text, tables, mathematical expressions, and visual elements, and then systematically track the evolution of specialized VLMs for document parsing. Additionally, we summarize widely adopted evaluation metrics and high-quality benchmarks that establish current standards for parsing quality. Finally, we discuss key open challenges, including robustness to complex layouts, reliability of VLM-based parsing, and inference efficiency, and outline directions for building more accurate and scalable document intelligence systems.


翻译:文档解析(DP)将非结构化或半结构化文档转化为结构化、机器可读的表示形式,从而支持知识库构建与检索增强生成(RAG)等下游应用。本综述对文档解析研究进行了全面且及时的回顾。我们提出了一种系统性的分类方法,将现有方法划分为基于模块化流水线的系统和由视觉语言模型(VLM)驱动的统一模型。我们详细回顾了流水线系统中的关键组件,包括布局分析以及对文本、表格、数学表达式和视觉元素等异构内容的识别,并系统性地追踪了用于文档解析的专业VLM的演化过程。此外,我们总结了广泛采用的评估指标和高质量基准数据集,这些指标和数据集确立了当前解析质量的标准。最后,我们讨论了关键开放挑战,包括对复杂布局的鲁棒性、基于VLM的解析的可靠性以及推理效率,并指出了构建更准确、更可扩展的文档智能系统的未来方向。

0
下载
关闭预览

相关内容

文档视觉问答简述
专知会员服务
7+阅读 · 2025年10月17日
【博士论文】用于化学结构抽取的多模态文档理解
专知会员服务
9+阅读 · 2025年10月12日
【MIT博士论文】从结构化文档到结构化知识, 150页pdf
专知会员服务
51+阅读 · 2023年8月10日
【实用书】文本分析:非结构信息分析,259页pdf
专知会员服务
103+阅读 · 2022年7月5日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
300页文本知识提取与推断最新教程
机器学习算法与Python学习
13+阅读 · 2018年8月28日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 26分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 28分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 40分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
文档视觉问答简述
专知会员服务
7+阅读 · 2025年10月17日
【博士论文】用于化学结构抽取的多模态文档理解
专知会员服务
9+阅读 · 2025年10月12日
【MIT博士论文】从结构化文档到结构化知识, 150页pdf
专知会员服务
51+阅读 · 2023年8月10日
【实用书】文本分析:非结构信息分析,259页pdf
专知会员服务
103+阅读 · 2022年7月5日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员