Accurate layout analysis without subsequent text-line segmentation remains an ongoing challenge, especially when facing the Kangyur, a kind of historical Tibetan document featuring considerable touching components and mottled background. Aiming at identifying different regions in document images, layout analysis is indispensable for subsequent procedures such as character recognition. However, there was only a little research being carried out to perform line-level layout analysis which failed to deal with the Kangyur. To obtain the optimal results, a fine-grained sub-line level layout analysis approach is presented. Firstly, we introduced an accelerated method to build the dataset which is dynamic and reliable. Secondly, enhancement had been made to the SOLOv2 according to the characteristics of the Kangyur. Then, we fed the enhanced SOLOv2 with the prepared annotation file during the training phase. Once the network is trained, instances of the text line, sentence, and titles can be segmented and identified during the inference stage. The experimental results show that the proposed method delivers a decent 72.7% average precision on our dataset. In general, this preliminary research provides insights into the fine-grained sub-line level layout analysis and testifies the SOLOv2-based approaches. We also believe that the proposed methods can be adopted on other language documents with various layouts.


翻译:准确的布局分析,而没有随后的文字线分割,仍然是一项持续的挑战,特别是在面临藏藏历史文件Kangyur时,这是一种藏藏历史文件,具有相当的触摸成分和不可靠的背景。为了在文件图像中辨别不同区域,布局分析对于随后的程序,例如字符识别等程序是必不可少的。然而,目前只进行了一些小研究,以便进行线级布局分析,而没有处理Kangyur的布局分析。为了取得最佳结果,提出了细微细微的分行水平布局分析方法。首先,我们采用了一种加速的方法,以构建动态和可靠的数据集。第二,根据Kangyur的特征对SOLov2进行了改进。然后,我们在培训阶段用已编写的说明文件向增强的SOLov2提供了强化的SOLov2。一旦网络培训,文字线、句和标题的一些实例可以在推断阶段进行分解和识别。实验结果显示,拟议的方法使我们的数据集平均精确度达到72.7%。总体而言,这一初步研究为根据Kangur的精准版图提供了对SOL2号的洞察,我们还相信以SOLO为各种水平的文件。

1
下载
关闭预览

相关内容

专知会员服务
23+阅读 · 2021年2月6日
专知会员服务
61+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
Arxiv
4+阅读 · 2019年8月7日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
8+阅读 · 4月25日
多智能体协作机制
专知会员服务
8+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
12+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
9+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
9+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
16+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
13+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
6+阅读 · 4月24日
相关VIP内容
专知会员服务
23+阅读 · 2021年2月6日
专知会员服务
61+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员