Out-of-distribution (OOD) prediction is often approached by restricting models to causal or invariant covariates, avoiding non-causal spurious associations that may be unstable across environments. Despite its theoretical appeal, this strategy frequently underperforms empirical risk minimization (ERM) in practice. We investigate the source of this gap and show that such failures naturally arise when only a subset of the true causes of the outcome is observed. In these settings, non-causal spurious covariates can serve as informative proxies for unobserved causes and substantially improve prediction, except under distribution shifts that break these proxy relationships. Consequently, the optimal set of predictive covariates is neither universal nor necessarily exhibits invariant relationships with the outcome across all environments, but instead depends on the specific type of shift encountered. Crucially, we observe that different covariate shifts induce distinct, observable signatures in the covariate distribution itself. Moreover, these signatures can be extracted from unlabeled data in the target OOD environment and used to assess when proxy covariates remain reliable and when they fail. Building on this observation, we propose an environment-adaptive covariate selection (EACS) algorithm that maps environment-level covariate summaries to environment-specific covariate sets, while allowing the incorporation of prior causal knowledge as constraints. Across simulations and applied datasets, EACS consistently outperforms static causal, invariant, and ERM-based predictors under diverse distribution shifts.


翻译:分布外预测通常通过限制模型仅使用因果或不变协变量来实现,以避免跨环境可能不稳定的非因果伪关联。尽管在理论上具有吸引力,该策略在实践中往往表现不如经验风险最小化。我们探究了这种差距的根源,并证明当仅观察到结果真实成因的一个子集时,此类失败会自然出现。在此类设定中,非因果伪协变量可作为未观测成因的信息代理,显著提升预测性能,除非分布偏移破坏了这些代理关系。因此,最优的预测协变量集既非普适,也未必在所有环境中与结果保持不变关系,而是取决于所遭遇的具体偏移类型。关键的是,我们观察到不同协变量偏移会在协变量分布本身中诱发可观测的差异性特征。这些特征可从目标分布外环境的未标记数据中提取,并用于评估代理协变量何时保持可靠、何时失效。基于此观察,我们提出了一种环境自适应协变量选择算法,该算法将环境层级的协变量摘要映射至环境特定的协变量集,同时允许将先验因果知识作为约束条件纳入。在模拟实验和应用数据集中,该算法在多种分布偏移下始终优于静态因果预测器、不变预测器以及基于经验风险最小化的预测器。

0
下载
关闭预览

相关内容

UnHiPPO:面向不确定性的状态空间模型初始化方法
专知会员服务
11+阅读 · 2025年6月6日
专知会员服务
30+阅读 · 2021年2月26日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员