In this paper, we propose an invariant quantile regression (IQR) framework specifically designed for multi-environment datasets, which captures the invariance across different environments. This model is closely related to transfer learning, causal inference, and fair machine learning, and is motivated by scenarios in which the conditional probability of the response given covariates varies, while certain key features remain invariant. This perspective differs notably from previous works that restrict attention to the conditional mean, which is often insufficient in heterogeneous environments and the resulting estimators can become sensitive to ``bad" environments or changes in noise distributional shape. In contrast, quantile-based invariance naturally accommodates heterogeneity, and aligns more closely with structural causal models, in which variables invariant across environments at one or multiple quantile levels naturally indicate potential and stable causal predictors. Moreover, the set of endogenous variables under the IQR framework can be larger than that under the conditional mean framework typically, which in turn promotes more effective exclusion of spurious (no-causal) predictors provided that endogenous variables are not incorporated. To achieve this, we introduce a Kernel-Smoothed Focused Invariance Quantile Regression (KSFIQR) estimator, which leverages the underlying invariance structure and heterogeneity among environments, ensuring stable estimation across multiple environments. We establish the causal discovery properties of our method, demonstrate its ability to overcome the ``curse of endogeneity", and derive an $\ell_2$ error bound for our estimator in the low-dimensional regime, all in a non-asymptotic framework. From an algorithmic perspective, we implement the L-BFGS-B method and the Gumbel trick, with our numerical studies validating the proposed approach.


翻译:本文提出了一种专为多环境数据集设计的不变分位数回归(IQR)框架,该框架能够捕捉不同环境间的恒定性。该模型与迁移学习、因果推断和公平机器学习紧密相关,其应用动机源于响应变量在给定协变量条件下的条件概率发生变化,而某些关键特征保持不变的场景。这一视角显著区别于以往局限于条件均值的研究——后者在异质环境中往往不足,且其估计量易受"不良"环境或噪声分布形态变化的影响。相比之下,基于分位数的不变性能够自然适应异质性,并与结构因果模型更为契合:在多环境中保持不变的单一或多个分位数水平对应的变量,天然指示着潜在且稳定的因果预测因子。此外,IQR框架下内生变量集通常大于条件均值框架下的变量集,这反而有助于在未纳入内生变量的情况下更有效地排除虚假(非因果)预测因子。为实现上述目标,我们引入核平滑聚焦不变分位数回归(KSFIQR)估计量,该估计量通过利用底层不变性结构和环境间的异质性,确保跨多环境的稳定估计。我们建立了该方法在因果发现方面的性质,证明了其克服"内生性诅咒"的能力,并在低维场景下推导出估计量的$\ell_2$误差界,所有结论均基于非渐近框架。从算法角度,我们实现了L-BFGS-B方法和Gumbel技巧,数值实验验证了所提方法的有效性。

0
下载
关闭预览

相关内容

【ETHZ博士论文】分布不确定性下的决策,234页pdf
专知会员服务
49+阅读 · 2024年4月5日
专知会员服务
16+阅读 · 2021年5月21日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
数据分析师应该知道的16种回归方法:定序回归
数萃大数据
16+阅读 · 2018年9月9日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 4月28日
Arxiv
0+阅读 · 4月24日
Arxiv
0+阅读 · 4月24日
Arxiv
0+阅读 · 4月21日
Arxiv
0+阅读 · 4月17日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
3+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
【ETHZ博士论文】分布不确定性下的决策,234页pdf
专知会员服务
49+阅读 · 2024年4月5日
专知会员服务
16+阅读 · 2021年5月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员