Optimizing Nepali PDF Extraction: A Comparative Study of Parser and OCR Technologies - 专知论文

会员服务 ·

0

提取 · OCR · 光学字符识别 · 识别 · 波动 ·

Optimizing Nepali PDF Extraction: A Comparative Study of Parser and OCR Technologies

翻译：优化尼泊尔语PDF提取：解析器与OCR技术的比较研究

Prabin Paudel,Supriya Khadka,Ranju G. C.,Rahul Shah,Basanta Joshi

This research compares PDF parsing and Optical Character Recognition (OCR) methods for extracting Nepali content from PDFs. PDF parsing offers fast and accurate extraction but faces challenges with non-Unicode Nepali fonts. OCR, specifically PyTesseract, overcomes these challenges, providing versatility for both digital and scanned PDFs. The study reveals that while PDF parsers are faster, their accuracy fluctuates based on PDF types. In contrast, OCRs, with a focus on PyTesseract, demonstrate consistent accuracy at the expense of slightly longer extraction times. Considering the project's emphasis on Nepali PDFs, PyTesseract emerges as the most suitable library, balancing extraction speed and accuracy.

翻译：本研究比较了PDF解析与光学字符识别（OCR）方法在从PDF中提取尼泊尔语内容方面的表现。PDF解析提供了快速且准确的提取，但在处理非Unicode尼泊尔语字体时面临挑战。OCR技术，特别是PyTesseract，克服了这些挑战，为数字PDF和扫描PDF均提供了通用性。研究表明，虽然PDF解析器速度更快，但其准确性随PDF类型的不同而波动。相比之下，以PyTesseract为代表的OCR方法，以稍长的提取时间为代价，展现出稳定一致的准确性。考虑到本项目对尼泊尔语PDF的侧重，PyTesseract成为最合适的库，在提取速度与准确性之间取得了平衡。

0

相关内容

【ETH博士论文】构建从端到端的层次文档解析和OCR系统，154页pdf

【ETH博士论文】构建从端到端的层次文档解析和OCR系统，154页pdf

专知会员服务

24+阅读 · 2023年7月29日

北邮最新《深度学习人体解析》综述，19页pdf181篇文献详述近10年技术进展

北邮最新《深度学习人体解析》综述，19页pdf181篇文献详述近10年技术进展

专知会员服务

29+阅读 · 2023年1月7日

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

专知会员服务

17+阅读 · 2022年5月30日

最新《文本简化》综述论文，26页pdf，A Survey on Text Simplification

最新《文本简化》综述论文，26页pdf，A Survey on Text Simplification

专知会员服务

15+阅读 · 2020年8月26日

最新《自然场景中文本检测与识别》综述论文，26页pdf

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

【ACL2020-复旦大学】FLAT：采用扁平化Transformer的中文NER，FLAT: Chinese NER Using Flat-Lattice Transformer

【ACL2020-复旦大学】FLAT：采用扁平化Transformer的中文NER，FLAT: Chinese NER Using Flat-Lattice Transformer

专知会员服务

65+阅读 · 2020年4月28日

大型知识图谱检索算法的优化，19页pdf，Optimization of Retrieval Algorithms on Large Scale Knowledge Graphs

大型知识图谱检索算法的优化，19页pdf，Optimization of Retrieval Algorithms on Large Scale Knowledge Graphs

专知会员服务

45+阅读 · 2020年2月14日

【ICDAR2019教程】用于文档分析、文本识别和语言建模的深度学习（Deep Learning for Document Analysis, Text Recognition, and Language Modeling）

【ICDAR2019教程】用于文档分析、文本识别和语言建模的深度学习（Deep Learning for Document Analysis, Text Recognition, and Language Modeling）

专知会员服务

22+阅读 · 2019年12月12日

【ACL 2019 Tutorials】政治文本的计算性分析：沟通不同领域的研究成果（Computational Analysis of Political Texts: Bridging Research Efforts Across Communities），GoranGlavaš,Federico Nanni,Simone Paolo Ponzetto

【ACL 2019 Tutorials】政治文本的计算性分析：沟通不同领域的研究成果（Computational Analysis of Political Texts: Bridging Research Efforts Across Communities），GoranGlavaš,Federico Nanni,Simone Paolo Ponzetto

专知会员服务

10+阅读 · 2019年11月17日

文档分析与识别技术回顾与反思，中国科学院自动化研究所刘成林研究员，VALSE2019: 让机器像人一样阅读：文字检测与识别新趋势

文档分析与识别技术回顾与反思，中国科学院自动化研究所刘成林研究员，VALSE2019: 让机器像人一样阅读：文字检测与识别新趋势

专知会员服务

38+阅读 · 2019年10月24日

如何有效提升中文NER性能？词汇增强方法总结

如何有效提升中文NER性能？词汇增强方法总结

AINLP

25+阅读 · 2020年6月15日

开源OCR文本检测器，基于TextBoxes++和RetinaNet

开源OCR文本检测器，基于TextBoxes++和RetinaNet

专知

11+阅读 · 2019年11月15日

【翻译技术速递】测评：免费的术语抽取工具

【翻译技术速递】测评：免费的术语抽取工具

翻译技术沙龙

139+阅读 · 2019年11月2日

清华发布《2018自然语言处理研究报告》，65页PDF下载

清华发布《2018自然语言处理研究报告》，65页PDF下载

专知

29+阅读 · 2018年7月28日

文本识别 OCR 浅析：特征篇

文本识别 OCR 浅析：特征篇

开源中国

16+阅读 · 2018年1月6日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

OCR技术浅析

OCR技术浅析

机器学习研究会

40+阅读 · 2017年12月8日

微信OCR(1)——公众号图文识别中的文本检测

微信OCR(1)——公众号图文识别中的文本检测

微信AI

17+阅读 · 2017年11月22日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

字符识别(OCR)相关工具/库/教材/论文等资源整理

字符识别(OCR)相关工具/库/教材/论文等资源整理

深度学习与NLP

19+阅读 · 2017年10月15日

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔文印刷文档图像中不良信息过滤关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

脱机手写藏文字符识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

Agentar-Fin-OCR

Arxiv

0+阅读 · 3月11日

From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines

Arxiv

0+阅读 · 3月6日

OmniOCR: Generalist OCR for Ethnic Minority Languages

Arxiv

0+阅读 · 2月24日

Refactoring for Novices in Java: An Eye Tracking Study on the Extract vs. Inline Methods

Arxiv

0+阅读 · 2月24日

Refactoring for Novices in Java: An Eye Tracking Study on the Extract vs. Inline Methods

Arxiv

0+阅读 · 2月20日

AutoProsody: A Prosodic Feature Extraction Tool for Indian Languages

Arxiv

0+阅读 · 2月19日

DODO: Discrete OCR Diffusion Models

Arxiv

0+阅读 · 2月18日

Designing Production-Scale OCR for India: Multilingual and Domain-Specific Systems

Arxiv

0+阅读 · 2月18日

Error Patterns in Historical OCR: A Comparative Analysis of TrOCR and a Vision-Language Model

Arxiv

0+阅读 · 2月16日

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

光学字符识别

最新内容

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

0+阅读 · 43分钟前

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

10+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

8+阅读 · 7月19日

相关VIP内容

【ETH博士论文】构建从端到端的层次文档解析和OCR系统，154页pdf

【ETH博士论文】构建从端到端的层次文档解析和OCR系统，154页pdf

专知会员服务

24+阅读 · 2023年7月29日

北邮最新《深度学习人体解析》综述，19页pdf181篇文献详述近10年技术进展

北邮最新《深度学习人体解析》综述，19页pdf181篇文献详述近10年技术进展

专知会员服务

29+阅读 · 2023年1月7日

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

专知会员服务

17+阅读 · 2022年5月30日

最新《文本简化》综述论文，26页pdf，A Survey on Text Simplification

最新《文本简化》综述论文，26页pdf，A Survey on Text Simplification

专知会员服务

15+阅读 · 2020年8月26日

最新《自然场景中文本检测与识别》综述论文，26页pdf

最新《自然场景中文本检测与识别》综述论文，26页pdf

专知会员服务

70+阅读 · 2020年6月10日

【ACL2020-复旦大学】FLAT：采用扁平化Transformer的中文NER，FLAT: Chinese NER Using Flat-Lattice Transformer

【ACL2020-复旦大学】FLAT：采用扁平化Transformer的中文NER，FLAT: Chinese NER Using Flat-Lattice Transformer

专知会员服务

65+阅读 · 2020年4月28日

大型知识图谱检索算法的优化，19页pdf，Optimization of Retrieval Algorithms on Large Scale Knowledge Graphs

大型知识图谱检索算法的优化，19页pdf，Optimization of Retrieval Algorithms on Large Scale Knowledge Graphs

专知会员服务

45+阅读 · 2020年2月14日

【ICDAR2019教程】用于文档分析、文本识别和语言建模的深度学习（Deep Learning for Document Analysis, Text Recognition, and Language Modeling）

【ICDAR2019教程】用于文档分析、文本识别和语言建模的深度学习（Deep Learning for Document Analysis, Text Recognition, and Language Modeling）

专知会员服务

22+阅读 · 2019年12月12日

【ACL 2019 Tutorials】政治文本的计算性分析：沟通不同领域的研究成果（Computational Analysis of Political Texts: Bridging Research Efforts Across Communities），GoranGlavaš,Federico Nanni,Simone Paolo Ponzetto

【ACL 2019 Tutorials】政治文本的计算性分析：沟通不同领域的研究成果（Computational Analysis of Political Texts: Bridging Research Efforts Across Communities），GoranGlavaš,Federico Nanni,Simone Paolo Ponzetto

专知会员服务

10+阅读 · 2019年11月17日

文档分析与识别技术回顾与反思，中国科学院自动化研究所刘成林研究员，VALSE2019: 让机器像人一样阅读：文字检测与识别新趋势

文档分析与识别技术回顾与反思，中国科学院自动化研究所刘成林研究员，VALSE2019: 让机器像人一样阅读：文字检测与识别新趋势

专知会员服务

38+阅读 · 2019年10月24日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

相关资讯

如何有效提升中文NER性能？词汇增强方法总结

如何有效提升中文NER性能？词汇增强方法总结

AINLP

25+阅读 · 2020年6月15日

开源OCR文本检测器，基于TextBoxes++和RetinaNet

开源OCR文本检测器，基于TextBoxes++和RetinaNet

专知

11+阅读 · 2019年11月15日

【翻译技术速递】测评：免费的术语抽取工具

【翻译技术速递】测评：免费的术语抽取工具

翻译技术沙龙

139+阅读 · 2019年11月2日

清华发布《2018自然语言处理研究报告》，65页PDF下载

清华发布《2018自然语言处理研究报告》，65页PDF下载

专知

29+阅读 · 2018年7月28日

文本识别 OCR 浅析：特征篇

文本识别 OCR 浅析：特征篇

开源中国

16+阅读 · 2018年1月6日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

OCR技术浅析

OCR技术浅析

机器学习研究会

40+阅读 · 2017年12月8日

微信OCR(1)——公众号图文识别中的文本检测

微信OCR(1)——公众号图文识别中的文本检测

微信AI

17+阅读 · 2017年11月22日

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

推荐｜caffe-orc主流ocr算法：CNN+BLSTM+CTC架构实现！

全球人工智能

19+阅读 · 2017年10月29日

字符识别(OCR)相关工具/库/教材/论文等资源整理

字符识别(OCR)相关工具/库/教材/论文等资源整理

深度学习与NLP

19+阅读 · 2017年10月15日

相关论文

Agentar-Fin-OCR

Arxiv

0+阅读 · 3月11日

From OCR to Analysis: Tracking Correction Provenance in Digital Humanities Pipelines

Arxiv

0+阅读 · 3月6日

OmniOCR: Generalist OCR for Ethnic Minority Languages

Arxiv

0+阅读 · 2月24日

Refactoring for Novices in Java: An Eye Tracking Study on the Extract vs. Inline Methods

Arxiv

0+阅读 · 2月24日

Refactoring for Novices in Java: An Eye Tracking Study on the Extract vs. Inline Methods

Arxiv

0+阅读 · 2月20日

AutoProsody: A Prosodic Feature Extraction Tool for Indian Languages

Arxiv

0+阅读 · 2月19日

DODO: Discrete OCR Diffusion Models

Arxiv

0+阅读 · 2月18日

Designing Production-Scale OCR for India: Multilingual and Domain-Specific Systems

Arxiv

0+阅读 · 2月18日

Error Patterns in Historical OCR: A Comparative Analysis of TrOCR and a Vision-Language Model

Arxiv

0+阅读 · 2月16日

OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models

Arxiv

0+阅读 · 2月4日

相关基金

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

词典驱动的联机手写维吾尔文单词识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

联机手写维吾尔文基础数据库及识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔文印刷文档图像中不良信息过滤关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

脱机手写藏文字符识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员