In response to several cultural heritage initiatives at the Jagiellonian University, we developed a new digitization workflow in collaboration with the Jagiellonian Library (JL). The solution is based on easy-to-access technological solutions -- Microsoft 365 cloud with MS Excel files as metadata acquisition interfaces, Office Script for validation, and MS Sharepoint for storage -- that allows metadata acquisition by domain experts regardless of their experience with information systems. The ultimate goal is to create a knowledge graph that describes the analyzed collections, linked to general knowledge bases, as well as to other cultural heritage collections, so careful attention is paid to the high accuracy of metadata and proper links to external sources. The workflow was evaluated in two pilot studies and in two workshops, which allowed for its refinement and confirmation of its correctness and usability for JL. The knowledge graph created as a result of these pilot studies was made available in a public git repository. As the proposed workflow does not interfere with existing systems or domain guidelines regarding digitization and basic metadata collection in a given institution, but extends them in order to enable rich metadata collection, not previously possible, we believe that it could be of interest to all GLAMs.


翻译:为响应雅盖隆大学的多项文化遗产倡议,我们与雅盖隆图书馆合作开发了一套新的数字化工作流程。该解决方案基于易于访问的技术工具——以 Microsoft 365 云平台为核心,使用 MS Excel 文件作为元数据采集界面,通过 Office Script 进行验证,并利用 MS Sharepoint 进行存储——使得领域专家无论其信息系统经验如何,均可参与元数据采集。最终目标是创建一个描述所分析藏品的知识图谱,并将其与通用知识库以及其他文化遗产藏品相关联,因此我们高度重视元数据的高准确性以及与外部资源的正确链接。该工作流程通过两项试点研究和两次研讨会进行了评估,从而使其得以完善,并确认了其对雅盖隆图书馆的正确性和可用性。基于这些试点研究构建的知识图谱已在一个公共 git 仓库中开放获取。由于所提出的工作流程不干扰现有系统或特定机构内关于数字化及基础元数据采集的领域指南,而是对其进行了扩展,以实现以往无法完成的丰富元数据采集,我们相信该方案可能引起所有 GLAM 机构的兴趣。

0
下载
关闭预览

相关内容

元数据(Metadata),又称元数据、中介数据、中继数据[来源请求],为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件纪录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
93+阅读 · 2020年6月28日
【数字化转型】华为数字化转型实践
产业智能官
11+阅读 · 2020年2月22日
文本生成公开数据集/开源工具/经典论文详细列表分享
深度学习与NLP
30+阅读 · 2019年9月22日
【数字化】2019年全球数字化转型现状研究报告
产业智能官
29+阅读 · 2019年7月8日
2019年全球数字化转型现状研究报告
智能交通技术
13+阅读 · 2019年6月2日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
自然语言处理领域公开数据集
黑龙江大学自然语言处理实验室
67+阅读 · 2018年4月19日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
93+阅读 · 2020年6月28日
相关资讯
【数字化转型】华为数字化转型实践
产业智能官
11+阅读 · 2020年2月22日
文本生成公开数据集/开源工具/经典论文详细列表分享
深度学习与NLP
30+阅读 · 2019年9月22日
【数字化】2019年全球数字化转型现状研究报告
产业智能官
29+阅读 · 2019年7月8日
2019年全球数字化转型现状研究报告
智能交通技术
13+阅读 · 2019年6月2日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
自然语言处理领域公开数据集
黑龙江大学自然语言处理实验室
67+阅读 · 2018年4月19日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员