Accurate imputation of missing data is critical to downstream machine learning performance. We formulate missing data imputation as a risk minimisation problem, which highlights a covariate shift between the observed and unobserved data distributions. This covariate shift induced bias is not accounted for by popular imputation methods and leads to suboptimal performance. In this paper, we derive theoretically valid importance weights that correct for the induced distributional bias. Furthermore, we propose a novel imputation algorithm that jointly estimates both the importance weights and imputation models, enabling bias correction throughout the imputation process. Empirical results across benchmark datasets show reductions in root mean squared error and Wasserstein distance of up to 7% and 20%, respectively, compared to otherwise identical unweighted methods.


翻译:缺失数据的准确插补对下游机器学习性能至关重要。本文将缺失数据插补问题形式化为风险最小化问题,揭示了观测数据与未观测数据分布间的协变量偏移。这种由协变量偏移引发的偏差未被主流插补方法所考虑,导致次优性能。本文推导出理论上有效的逆概率权重以校正这种分布偏差,并提出一种新型插补算法,能够联合估计逆概率权重与插补模型,实现在整个插补过程中的偏差校正。基准数据集上的实验结果表明,相较于未加权的同等方法,均方根误差与Wasserstein距离分别降低最高达7%和20%。

0
下载
关闭预览

相关内容

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型
专知会员服务
18+阅读 · 2024年12月7日
【CMU博士论文】分布偏移下的不确定性量化,226页pdf
专知会员服务
31+阅读 · 2023年9月30日
缺失数据统计分析,第三版,462页pdf
专知
50+阅读 · 2020年2月28日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
12+阅读 · 2019年6月2日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
《压缩式分布式交互仿真标准》120页
专知会员服务
0+阅读 · 15分钟前
《电子战数据交换模型研究报告》
专知会员服务
1+阅读 · 23分钟前
《基于Transformer的异常舰船导航识别与跟踪》80页
专知会员服务
1+阅读 · 51分钟前
《低数据领域军事目标检测模型研究》
专知会员服务
1+阅读 · 59分钟前
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
人工智能即服务与未来战争(印度视角)
专知会员服务
4+阅读 · 4月22日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员