Learning models that can handle distribution shifts is a key challenge in domain generalization. Invariance learning, an approach that focuses on identifying features invariant across environments, improves model generalization by capturing stable relationships, which may represent causal effects when the data distribution is encoded within a structural equation model (SEM) and satisfies modularity conditions. This has led to a growing body of work that builds on invariance learning, leveraging the inherent heterogeneity across environments to develop methods that provide causal explanations while enhancing robust prediction. However, in many practical scenarios, obtaining complete outcome data from each environment is challenging due to the high cost or complexity of data collection. This limitation in available data hinders the development of models that fully leverage environmental heterogeneity, making it crucial to address missing outcomes to improve both causal insights and robust prediction. In this work, we derive an estimator from the invariance objective under missing outcomes. We establish non-asymptotic guarantees on variable selection property and $\ell_2$ error convergence rates, which are influenced by the proportion of missing data and the quality of imputation models across environments. We evaluate the performance of the new estimator through extensive simulations and demonstrate its application using the UCI Bike Sharing dataset to predict the count of bike rentals. The results show that despite relying on a biased imputation model, the estimator is efficient and achieves lower prediction error, provided the bias is within a reasonable range.


翻译:学习能够处理分布偏移的模型是领域泛化中的一个关键挑战。不变性学习作为一种专注于识别跨环境不变特征的方法,通过捕捉稳定关系来提升模型泛化能力;当数据分布被编码于结构方程模型(SEM)中且满足模块性条件时,这些稳定关系可能对应于因果效应。这推动了越来越多基于不变性学习的研究工作,它们利用环境间的固有异质性来开发既能提供因果解释又能增强鲁棒预测的方法。然而,在许多实际场景中,由于数据收集的高成本或复杂性,从每个环境中获取完整的结局数据十分困难。可用数据的这一限制阻碍了能够充分利用环境异质性的模型的发展,使得处理缺失结局数据对于提升因果洞察和鲁棒预测能力变得至关重要。在本工作中,我们从缺失结局下的不变性目标推导出一个估计量。我们建立了关于变量选择性质和非渐近 $\ell_2$ 误差收敛速率的理论保证,这些性质受到缺失数据比例以及跨环境插补模型质量的影响。我们通过大量模拟实验评估了新估计量的性能,并利用UCI自行车共享数据集演示了其在预测自行车租赁数量中的应用。结果表明,即使在依赖有偏插补模型的情况下,只要偏差在合理范围内,该估计量仍然是高效的,并且能达到更低的预测误差。

0
下载
关闭预览

相关内容

【KDD2024】面向鲁棒推荐的决策边界感知图对比学习
专知会员服务
21+阅读 · 2024年8月8日
【ICCV2023】保留模态结构改进多模态学习
专知会员服务
31+阅读 · 2023年8月28日
【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
38+阅读 · 2022年10月4日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员