Effective data processing depends on the quality of the underlying data. However, quality issues such as inconsistencies and uncertainties, can significantly impede the processing and subsequent use of data. Despite the centrality of data quality to a wide range of computational tasks, there is currently no broadly accepted, domain-independent consensus on the definition of data quality. Existing frameworks primarily define data quality in ways that are tailored to specific domains, data types, or contexts of use. Although quality assessment frameworks exist for specific domains, such as electronic health record data and linked data, corresponding approaches for descriptive information about cultural heritage objects remain underdeveloped. Moreover, existing quality definitions are often theoretical in nature and lack empirical validation based on real-world data problems. In this paper, we address these limitations by first defining a set of quality dimensions specifically designed to capture the characteristics of descriptive information about cultural heritage objects. Our definition is based on an in-depth analysis of existing dimensions and is illustrated through domain-specific examples. We then evaluate the practical applicability of our proposed quality definition using a curated set of real-world data quality problems from the cultural heritage domain. This empirical evaluation substantiates our definition of data quality, resulting in a comprehensive definition of data quality in this domain.


翻译:有效的数据处理依赖于基础数据的质量。然而,诸如不一致性和不确定性等质量问题会严重阻碍数据的处理及后续使用。尽管数据质量对广泛的计算任务至关重要,但目前尚未就数据质量的定义达成广泛接受、独立于领域的共识。现有框架主要以针对特定领域、数据类型或使用情境的方式定义数据质量。尽管存在针对特定领域的质量评估框架,例如电子健康记录数据和关联数据,但针对文化遗产对象描述信息的相应方法仍不完善。此外,现有的质量定义往往本质上是理论性的,缺乏基于现实世界数据问题的实证验证。在本文中,我们首先通过定义一组专门设计用于捕捉文化遗产对象描述信息特征的质量维度来应对这些局限性。我们的定义基于对现有维度的深入分析,并通过领域特定示例进行阐释。随后,我们使用来自文化遗产领域的一组精心筛选的真实世界数据质量问题,评估了我们所提出的质量定义的实际适用性。这一实证评估证实了我们的数据质量定义,从而得出了该领域数据质量的全面定义。

0
下载
关闭预览

相关内容

数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。
数据质量维度的实践展开:一项综述
专知会员服务
20+阅读 · 2025年7月28日
视频质量评价研究综述
专知会员服务
27+阅读 · 2023年10月10日
国家标准《物联网 数据质量》(征求意见稿)
专知会员服务
52+阅读 · 2022年9月13日
工信部发布《质量大数据白皮书》,178页pdf
专知会员服务
95+阅读 · 2022年7月12日
专知会员服务
34+阅读 · 2021年9月29日
专知会员服务
14+阅读 · 2020年12月17日
一行命令搞定图像质量评价
计算机视觉life
12+阅读 · 2019年12月31日
无参考图像质量评价研究进展综述
人工智能前沿讲习班
47+阅读 · 2019年2月15日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
13+阅读 · 2017年9月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
34+阅读 · 2012年12月31日
Arxiv
17+阅读 · 2023年12月4日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 51分钟前
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关VIP内容
数据质量维度的实践展开:一项综述
专知会员服务
20+阅读 · 2025年7月28日
视频质量评价研究综述
专知会员服务
27+阅读 · 2023年10月10日
国家标准《物联网 数据质量》(征求意见稿)
专知会员服务
52+阅读 · 2022年9月13日
工信部发布《质量大数据白皮书》,178页pdf
专知会员服务
95+阅读 · 2022年7月12日
专知会员服务
34+阅读 · 2021年9月29日
专知会员服务
14+阅读 · 2020年12月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
34+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员