Missing data often exists in real-world datasets, requiring significant time and effort for data repair to learn accurate models. In this paper, we show that imputing all missing values is not always necessary to achieve an accurate ML model. We introduce concepts of minimal and almost minimal repair, which are subsets of missing data items in training data whose imputation delivers accurate and reasonably accurate models, respectively. Imputing these subsets can significantly reduce the time, computational resources, and manual effort required for learning. We show that finding these subsets is NP-hard for some popular models and propose efficient approximation algorithms for wide range of models. Our extensive experiments indicate that our proposed algorithms can substantially reduce the time and effort required to learn on incomplete datasets.


翻译:现实数据集常存在缺失数据,修复这些数据需要耗费大量时间和精力才能训练出准确模型。本文证明,并非所有缺失值都必须填补才能获得准确的机器学习模型。我们提出最小修复与近似最小修复的概念,分别指代训练数据中那些经填补后能够产生准确模型或合理准确模型的缺失数据子集。填补这些子集可显著减少学习所需的时间、计算资源和人工投入。我们证明,对于某些流行模型而言,找出这些子集是NP困难问题,并针对多种模型提出高效近似算法。大量实验表明,所提算法能大幅减少在不完整数据集上学习所需的时间和精力。

0
下载
关闭预览

相关内容

在统计调查的过程中,由于受访者对问题的遗漏、拒绝,或是调查员与调查问卷本身存在的一些疏忽,使得记录经常会出现 缺失数据 (Missing Data) 的问题。但是,几乎所有标准统计方法都假设每个个案具有可用于分析的所有变量信息,因此缺失数据就成为进行统计研究或问卷调查的工作人员所必须解决的一个问题。
训练数据多少才够用
专知
16+阅读 · 2019年5月4日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月20日
Arxiv
19+阅读 · 2022年7月29日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员