Digitization projects in humanities often generate vast quantities of page images from historical documents, presenting significant challenges for manual sorting and analysis. These archives contain diverse content, including various text types (handwritten, typed, printed), graphical elements (drawings, maps, photos), and layouts (plain text, tables, forms). Efficiently processing this heterogeneous data requires automated methods to categorize pages based on their content, enabling tailored downstream analysis pipelines. This project addresses this need by developing and evaluating an image classification system specifically designed for historical document pages, leveraging advancements in artificial intelligence and machine learning. The set of categories was chosen to facilitate content-specific processing workflows, separating pages requiring different analysis techniques (e.g., OCR for text, image analysis for graphics)


翻译:人文学科的数字化项目常产生海量历史文档页图像,给人工分类与分析带来重大挑战。这些档案包含多样化内容:多种文本类型(手写、打字、印刷)、图形元素(绘画、地图、照片)及版面结构(纯文本、表格、表单)。高效处理此类异构数据需要自动化方法对页面内容进行分类,从而支持定制化的下游分析流程。本项目通过开发并评估专为历史文档页设计的图像分类系统应对此需求,充分利用人工智能与机器学习领域的最新进展。类别体系的选择旨在支撑内容导向型处理工作流,将需不同分析技术(如文本采用OCR、图形采用图像分析)的页面分开处理。

0
下载
关闭预览

相关内容

文档视觉问答简述
专知会员服务
7+阅读 · 2025年10月17日
文本分类算法及其应用场景研究
专知会员服务
19+阅读 · 2024年7月31日
基于深度学习的中文文本分类综述
专知会员服务
25+阅读 · 2024年5月9日
Transformer 驱动的图像分类研究进展综述
专知会员服务
55+阅读 · 2023年2月24日
文档智能: 数据集、模型和应用
专知会员服务
63+阅读 · 2022年7月31日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
69+阅读 · 2020年7月12日
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
图分类相关资源大列表
专知
11+阅读 · 2019年7月18日
【机器视觉】图像分类问题详细介绍
产业智能官
10+阅读 · 2018年12月26日
关于CNN图像分类的一份综合设计指南
云栖社区
11+阅读 · 2018年5月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
10+阅读 · 2021年8月4日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员