Handwritten text recognition and optical character recognition solutions show excellent results with processing data of modern era, but efficiency drops with Latin documents of medieval times. This paper presents a deep learning method to extract text information from handwritten Latin-language documents of the 9th to 11th centuries. The approach takes into account the properties inherent in medieval documents. The paper provides a brief introduction to the field of historical document transcription, a first-sight analysis of the raw data, and the related works and studies. The paper presents the steps of dataset development for further training of the models. The explanatory data analysis of the processed data is provided as well. The paper explains the pipeline of deep learning models to extract text information from the document images, from detecting objects to word recognition using classification models and embedding word images. The paper reports the following results: recall, precision, F1 score, intersection over union, confusion matrix, and mean string distance. The plots of the metrics are also included. The implementation is published on the GitHub repository.


翻译:手写文本识别与光学字符识别解决方案在处理现代数据时表现出色,但其对中世纪拉丁文献的处理效率显著下降。本文提出一种深度学习方法,用于从9至11世纪的手写拉丁语文献中提取文本信息。该方法充分考虑了中世纪文献固有的特性。本文简要介绍了历史文献转录领域的研究背景,对原始数据进行了初步分析,并综述了相关研究工作。文中详细阐述了为模型后续训练所进行的数据集开发步骤,同时提供了处理后数据的解释性分析。本文系统说明了从文档图像中提取文本信息的深度学习模型流程,涵盖从目标检测到使用分类模型进行单词识别及词图像嵌入的全过程。论文报告了以下实验结果:召回率、精确率、F1分数、交并比、混淆矩阵及平均字符串距离,同时附带了各项指标的曲线图。相关实现代码已发布于GitHub存储库。

0
下载
关闭预览

相关内容

LLM4SR:关于大规模语言模型在科学研究中的应用综述
专知会员服务
42+阅读 · 2025年1月9日
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员