Data errors are widespread in real-world databases and severely impact downstream applications, such as machine learning pipelines or business analytics reports. Causes of such errors are manifold and can arise during both the design phase and the operational phase of a database. Some error types, such as missing values, duplicate tuples, or constraint violations, are widely recognized; others, such as disguised missing values or word transpositions, remain underexplored. Existing attempts to define and classify errors in data offer valuable but limited taxonomies, mostly informal and not covering the full range of error types. With the rise of AI, practitioners must increasingly detect and correct statistical errors such as bias and outliers, which are rarely considered within existing error taxonomies. This catalog presents a comprehensive list of 35 distinct error types, including both data errors (e.g., missing values, duplicate tuples) and error indicators (e.g., outliers, bias) for tabular data, classified into three non-overlapping categories: missing, incorrect, and redundant. For each error type, we provide a formal definition and practical example, and resolve terminological inconsistencies across related work. Our catalog enables researchers and practitioners to address various error types and systematically implement error-specific detection and cleaning strategies in data quality tools.


翻译:数据错误在实际数据库中普遍存在,并严重损害下游应用(如机器学习流水线或商业分析报告)。此类错误的成因复杂多样,可能源自数据库设计阶段与运行阶段。诸如缺失值、重复元组或约束违规等错误类型已被广泛认知;而伪装缺失值或词语换位等类型仍待深入探索。现有数据错误定义与分类的尝试虽具价值,但分类体系较为有限,大多为非正式定义且未覆盖全部错误类型。随着人工智能的兴起,从业者日益需要检测并修正统计性错误(如偏差与异常值),而这些内容在现有错误分类体系中鲜有涉及。本目录系统梳理了35种独立错误类型,涵盖表格数据的两种形态:数据错误(如缺失值、重复元组)与错误标识(如异常值、偏差),并将其归入三个互斥类别:缺失型、错误型与冗余型。针对每种错误类型,我们提供形式化定义与实践案例,并消解相关文献中的术语歧义。本目录旨在支持研究者与从业者系统应对各类数据错误,在数据质量工具中针对性实施错误检测与清洗策略。

0
下载
关闭预览

相关内容

【数据科学导论书】Introduction to Datascience,253页pdf
专知会员服务
50+阅读 · 2021年11月15日
【2020新书】数据结构与数据表示指南,112页pdf
专知会员服务
84+阅读 · 2020年10月6日
经济学中的数据科学,Data Science in Economics,附22页pdf
专知会员服务
36+阅读 · 2020年4月1日
缺失数据统计分析,第三版,462页pdf
专知会员服务
113+阅读 · 2020年2月28日
【干货书】数据科学手册,456页pdf
专知
15+阅读 · 2021年4月28日
缺失数据统计分析,第三版,462页pdf
专知
50+阅读 · 2020年2月28日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
12+阅读 · 2019年6月2日
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
14+阅读 · 2019年5月9日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
不要担心没数据!史上最全数据集网站汇总
关于数据挖掘,有几本书推荐给你......
图灵教育
16+阅读 · 2017年10月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
0+阅读 · 18分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
0+阅读 · 20分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
1+阅读 · 32分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
1+阅读 · 52分钟前
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员