Structural missingness breaks 'just impute and train': values can be undefined by causal or logical constraints, and the mask may depend on observed variables, unobserved variables (MNAR), and other missingness indicators. It simultaneously brings (i) a catch-22 situation with causal loop, prediction needs the missing features, yet inferring them depends on the missingness mechanism, (ii) under MNAR, the unseen are different, the missing part can come from a shifted distribution, and (iii) plug-in imputation, a single fill-in can lock in uncertainty and yield overconfident, biased decisions. In the Bayesian view, prediction via the posterior predictive distribution integrates over the full model posterior uncertainty, rather than relying on a single point estimate. This framework decouples (i) learning an in-model missing-value posterior from (ii) label prediction by optimizing the predictive posterior distribution, enabling posterior integration. This decoupling yields an in-model almost-free-lunch: once the posterior is learned, prediction is plug-and-play while preserving uncertainty propagation. It achieves SOTA on 43 classification and 15 imputation benchmarks, with finite-sample near Bayes-optimality guarantees under our SCM prior.


翻译:结构性缺失打破了“仅需插补即可训练”的范式:变量值可能因因果或逻辑约束而无法定义,且缺失模式可能依赖于观测变量、未观测变量(MNAR)以及其他缺失指示符。这同时带来三重挑战:(一)因果循环引发的两难困境——预测需要缺失特征,但推断这些特征又依赖于缺失机制;(二)在MNAR情形下,未观测部分存在分布偏移,缺失数据可能来自不同的分布;(三)插件式插补方法中,单一填补值会固化不确定性,导致过度自信且有偏的决策。从贝叶斯视角看,通过后验预测分布进行预测能够整合全模型后验不确定性,而非依赖单一估计点。本框架将(一)学习模型内缺失值后验分布与(二)通过优化预测后验分布进行标签预测解耦,从而实现后验积分。这种解耦产生了模型内的“近似免费午餐”:一旦习得后验分布,预测即可即插即用,同时保持不确定性传递。该方法在43个分类基准和15个插补基准上达到最先进性能,并在我们提出的结构因果模型先验下具备有限样本近贝叶斯最优性保证。

0
下载
关闭预览

相关内容

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型
专知会员服务
18+阅读 · 2024年12月7日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
22+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
【NeurIPS2024】用于缺失值数据集的可解释广义加性模型
专知会员服务
18+阅读 · 2024年12月7日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
22+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员