Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction - 专知论文

会员服务 ·

0

文档解析 · 结构 · 结构化 · 系统 · 信息提取 ·

Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction

翻译：文档解析揭秘：结构化信息提取的技术、挑战与前景

Qintong Zhang,Bin Wang,Victor Shea-Jay Huang,Junyuan Zhang,Zhengren Wang,Hao Liang,Conghui He,Wentao Zhang

Document parsing (DP) transforms unstructured or semi-structured documents into structured, machine-readable representations, enabling downstream applications such as knowledge base construction and retrieval-augmented generation (RAG). This survey provides a comprehensive and timely review of document parsing research. We propose a systematic taxonomy that organizes existing approaches into modular pipeline-based systems and unified models driven by Vision-Language Models (VLMs). We provide a detailed review of key components in pipeline systems, including layout analysis and the recognition of heterogeneous content such as text, tables, mathematical expressions, and visual elements, and then systematically track the evolution of specialized VLMs for document parsing. Additionally, we summarize widely adopted evaluation metrics and high-quality benchmarks that establish current standards for parsing quality. Finally, we discuss key open challenges, including robustness to complex layouts, reliability of VLM-based parsing, and inference efficiency, and outline directions for building more accurate and scalable document intelligence systems.

翻译：文档解析（DP）将非结构化或半结构化文档转化为结构化、机器可读的表示形式，从而支持知识库构建与检索增强生成（RAG）等下游应用。本综述对文档解析研究进行了全面且及时的回顾。我们提出了一种系统性的分类方法，将现有方法划分为基于模块化流水线的系统和由视觉语言模型（VLM）驱动的统一模型。我们详细回顾了流水线系统中的关键组件，包括布局分析以及对文本、表格、数学表达式和视觉元素等异构内容的识别，并系统性地追踪了用于文档解析的专业VLM的演化过程。此外，我们总结了广泛采用的评估指标和高质量基准数据集，这些指标和数据集确立了当前解析质量的标准。最后，我们讨论了关键开放挑战，包括对复杂布局的鲁棒性、基于VLM的解析的可靠性以及推理效率，并指出了构建更准确、更可扩展的文档智能系统的未来方向。

0

相关内容

文档解析

文档视觉问答简述

文档视觉问答简述

专知会员服务

7+阅读 · 2025年10月17日

【博士论文】用于化学结构抽取的多模态文档理解

【博士论文】用于化学结构抽取的多模态文档理解

专知会员服务

9+阅读 · 2025年10月12日

【MIT博士论文】从结构化文档到结构化知识, 150页pdf

【MIT博士论文】从结构化文档到结构化知识, 150页pdf

专知会员服务

51+阅读 · 2023年8月10日

【ETH博士论文】构建从端到端的层次文档解析和OCR系统，154页pdf

【ETH博士论文】构建从端到端的层次文档解析和OCR系统，154页pdf

专知会员服务

24+阅读 · 2023年7月29日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

【实用书】文本分析：非结构信息分析，259页pdf

【实用书】文本分析：非结构信息分析，259页pdf

专知会员服务

103+阅读 · 2022年7月5日

中科院宗成庆老师新书《文本数据挖掘》，韩家炜作序，363页pdf阐述文本数据挖掘的理论模型、实现算法和相关应用

中科院宗成庆老师新书《文本数据挖掘》，韩家炜作序，363页pdf阐述文本数据挖掘的理论模型、实现算法和相关应用

专知会员服务

189+阅读 · 2021年6月1日

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

专知会员服务

33+阅读 · 2020年5月2日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

文档分析与识别技术回顾与反思，中国科学院自动化研究所刘成林研究员，VALSE2019: 让机器像人一样阅读：文字检测与识别新趋势

文档分析与识别技术回顾与反思，中国科学院自动化研究所刘成林研究员，VALSE2019: 让机器像人一样阅读：文字检测与识别新趋势

专知会员服务

38+阅读 · 2019年10月24日

重磅！国家标准《信息技术人工智能知识图谱技术框架》征求意见稿发布，35页pdf详细规定知识图谱技术框架

重磅！国家标准《信息技术人工智能知识图谱技术框架》征求意见稿发布，35页pdf详细规定知识图谱技术框架

专知

11+阅读 · 2022年2月19日

最新！知识图谱研究综述论文: 表示学习、知识获取与应用，25页pdf详述Knowledge Graphs技术趋势

最新！知识图谱研究综述论文: 表示学习、知识获取与应用，25页pdf详述Knowledge Graphs技术趋势

专知

91+阅读 · 2020年2月16日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

专知

16+阅读 · 2019年1月14日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

300页文本知识提取与推断最新教程

300页文本知识提取与推断最新教程

机器学习算法与Python学习

13+阅读 · 2018年8月28日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

技术干货 | 如何做好文本关键词提取？从三种算法说起

技术干货 | 如何做好文本关键词提取？从三种算法说起

数据猿

12+阅读 · 2018年2月12日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

非结构化管理决策大数据平台构建与关键技术

国家自然科学基金

11+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

大规模格结构数据管理关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

方块苗文的字信息处理关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

On Sequence-to-Sequence Models for Automated Log Parsing

Arxiv

0+阅读 · 6月11日

Trace Only What You Need: Structure-Aware On-Demand Hypergraph Memory for Long-Document Question Answering

Arxiv

0+阅读 · 6月9日

Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation

Arxiv

0+阅读 · 6月8日

Visual Template Inference for Data Extraction from Documents

Arxiv

0+阅读 · 6月8日

A Unified Structured Query Understanding Framework for Industrial Semantic Search

Arxiv

0+阅读 · 6月7日

TechGraphRAG: An Agentic Graph-Augmented RAG Framework for Technical Literature Reasoning

Arxiv

0+阅读 · 6月1日

GRASP: Plan-Guided Graph Retrieval with Adaptive Fusion and Reranking on Semi-Structured Knowledge Bases

Arxiv

0+阅读 · 5月31日

A Picture is Worth a Thousand Words? An Empirical Study of Aggregation Strategies for Visual Financial Document Retrieval

Arxiv

0+阅读 · 5月14日

Model Editing for New Document Integration in Generative Information Retrieval

Arxiv

0+阅读 · 5月11日

Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 26分钟前

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 28分钟前

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

2+阅读 · 40分钟前

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 51分钟前

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

2+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

文档视觉问答简述

文档视觉问答简述

专知会员服务

7+阅读 · 2025年10月17日

【博士论文】用于化学结构抽取的多模态文档理解

【博士论文】用于化学结构抽取的多模态文档理解

专知会员服务

9+阅读 · 2025年10月12日

【MIT博士论文】从结构化文档到结构化知识, 150页pdf

【MIT博士论文】从结构化文档到结构化知识, 150页pdf

专知会员服务

51+阅读 · 2023年8月10日

【ETH博士论文】构建从端到端的层次文档解析和OCR系统，154页pdf

【ETH博士论文】构建从端到端的层次文档解析和OCR系统，154页pdf

专知会员服务

24+阅读 · 2023年7月29日

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

长文档摘要如何做？莫纳什大学最新《长文档摘要》综述，39页pdf长文档摘要的实证研究:数据集、模型和指标

专知会员服务

36+阅读 · 2022年7月10日

【实用书】文本分析：非结构信息分析，259页pdf

【实用书】文本分析：非结构信息分析，259页pdf

专知会员服务

103+阅读 · 2022年7月5日

中科院宗成庆老师新书《文本数据挖掘》，韩家炜作序，363页pdf阐述文本数据挖掘的理论模型、实现算法和相关应用

中科院宗成庆老师新书《文本数据挖掘》，韩家炜作序，363页pdf阐述文本数据挖掘的理论模型、实现算法和相关应用

专知会员服务

189+阅读 · 2021年6月1日

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

【2020关键词提取】医学报告的关键词提取和结构化，Keyword extraction and structuralization of medical reports

专知会员服务

33+阅读 · 2020年5月2日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

文档分析与识别技术回顾与反思，中国科学院自动化研究所刘成林研究员，VALSE2019: 让机器像人一样阅读：文字检测与识别新趋势

文档分析与识别技术回顾与反思，中国科学院自动化研究所刘成林研究员，VALSE2019: 让机器像人一样阅读：文字检测与识别新趋势

专知会员服务

38+阅读 · 2019年10月24日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

重磅！国家标准《信息技术人工智能知识图谱技术框架》征求意见稿发布，35页pdf详细规定知识图谱技术框架

重磅！国家标准《信息技术人工智能知识图谱技术框架》征求意见稿发布，35页pdf详细规定知识图谱技术框架

专知

11+阅读 · 2022年2月19日

最新！知识图谱研究综述论文: 表示学习、知识获取与应用，25页pdf详述Knowledge Graphs技术趋势

最新！知识图谱研究综述论文: 表示学习、知识获取与应用，25页pdf详述Knowledge Graphs技术趋势

专知

91+阅读 · 2020年2月16日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

【200+论文】深度强化学习、对话系统、文本生成、文本摘要、阅读理解等文献列表

专知

16+阅读 · 2019年1月14日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

300页文本知识提取与推断最新教程

300页文本知识提取与推断最新教程

机器学习算法与Python学习

13+阅读 · 2018年8月28日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

技术干货 | 如何做好文本关键词提取？从三种算法说起

技术干货 | 如何做好文本关键词提取？从三种算法说起

数据猿

12+阅读 · 2018年2月12日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

相关论文

On Sequence-to-Sequence Models for Automated Log Parsing

Arxiv

0+阅读 · 6月11日

Trace Only What You Need: Structure-Aware On-Demand Hypergraph Memory for Long-Document Question Answering

Arxiv

0+阅读 · 6月9日

Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation

Arxiv

0+阅读 · 6月8日

Visual Template Inference for Data Extraction from Documents

Arxiv

0+阅读 · 6月8日

A Unified Structured Query Understanding Framework for Industrial Semantic Search

Arxiv

0+阅读 · 6月7日

TechGraphRAG: An Agentic Graph-Augmented RAG Framework for Technical Literature Reasoning

Arxiv

0+阅读 · 6月1日

GRASP: Plan-Guided Graph Retrieval with Adaptive Fusion and Reranking on Semi-Structured Knowledge Bases

Arxiv

0+阅读 · 5月31日

A Picture is Worth a Thousand Words? An Empirical Study of Aggregation Strategies for Visual Financial Document Retrieval

Arxiv

0+阅读 · 5月14日

Model Editing for New Document Integration in Generative Information Retrieval

Arxiv

0+阅读 · 5月11日

Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering

Arxiv

0+阅读 · 5月7日

相关基金

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

非结构化管理决策大数据平台构建与关键技术

国家自然科学基金

11+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

大规模格结构数据管理关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

方块苗文的字信息处理关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员