Digitization projects in humanities often generate vast quantities of page images from historical documents, presenting significant challenges for manual sorting and analysis. These archives contain diverse content, including various text types (handwritten, typed, printed), graphical elements (drawings, maps, photos), and layouts (plain text, tables, forms). Efficiently processing this heterogeneous data requires automated methods to categorize pages based on their content, enabling tailored downstream analysis pipelines. This project addresses this need by developing and evaluating an image classification system specifically designed for historical document pages, leveraging advancements in artificial intelligence and machine learning. The set of categories was chosen to facilitate content-specific processing workflows, separating pages requiring different analysis techniques (e.g., OCR for text, image analysis for graphics)


翻译:人文学科数字化项目常产生大量历史文献页面图像,对人工分类与分析构成重大挑战。这些档案包含多样化内容,涵盖各类文本类型(手写体、打字体、印刷体)、图形元素(绘图、地图、照片)及版面布局(纯文本、表格、表单)。高效处理此类异构数据需要自动化方法,基于页面内容进行分类以支持定制化的下游分析流程。本项目通过开发并评估专为历史文献页面设计的图像分类系统来应对这一需求,该系统融合人工智能与机器学习前沿技术。选定的分类体系旨在适配内容特定处理工作流,将需采用不同分析技术的页面(如文本需光学字符识别,图形需图像分析)进行区分。

0
下载
关闭预览

相关内容

文档视觉问答简述
专知会员服务
7+阅读 · 2025年10月17日
文本分类算法及其应用场景研究
专知会员服务
19+阅读 · 2024年7月31日
基于深度学习的中文文本分类综述
专知会员服务
25+阅读 · 2024年5月9日
Transformer 驱动的图像分类研究进展综述
专知会员服务
55+阅读 · 2023年2月24日
面向图像分类的小样本学习算法综述
专知会员服务
65+阅读 · 2022年5月9日
基于深度学习的图像分析技术,116页ppt
专知会员服务
58+阅读 · 2020年7月17日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
69+阅读 · 2020年7月12日
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
103+阅读 · 2019年1月9日
【机器视觉】图像分类问题详细介绍
产业智能官
10+阅读 · 2018年12月26日
关于CNN图像分类的一份综合设计指南
云栖社区
11+阅读 · 2018年5月15日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
全解:目标检测,图像分类、分割、生成……
全球人工智能
20+阅读 · 2017年9月15日
基于深度学习的视频内容识别
计算机视觉战队
10+阅读 · 2017年8月18日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
10+阅读 · 2021年8月4日
VIP会员
相关主题
最新内容
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关VIP内容
文档视觉问答简述
专知会员服务
7+阅读 · 2025年10月17日
文本分类算法及其应用场景研究
专知会员服务
19+阅读 · 2024年7月31日
基于深度学习的中文文本分类综述
专知会员服务
25+阅读 · 2024年5月9日
Transformer 驱动的图像分类研究进展综述
专知会员服务
55+阅读 · 2023年2月24日
面向图像分类的小样本学习算法综述
专知会员服务
65+阅读 · 2022年5月9日
基于深度学习的图像分析技术,116页ppt
专知会员服务
58+阅读 · 2020年7月17日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
69+阅读 · 2020年7月12日
相关资讯
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
103+阅读 · 2019年1月9日
【机器视觉】图像分类问题详细介绍
产业智能官
10+阅读 · 2018年12月26日
关于CNN图像分类的一份综合设计指南
云栖社区
11+阅读 · 2018年5月15日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
全解:目标检测,图像分类、分割、生成……
全球人工智能
20+阅读 · 2017年9月15日
基于深度学习的视频内容识别
计算机视觉战队
10+阅读 · 2017年8月18日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员