The standard constraint-based paradigm for causal discovery with incomplete data -- impute first, test second -- is frequently miscalibrated: any consistent conditional independence (CI) test rejects a true null with probability approaching 1 when imputation error induces spurious conditional dependence. We introduce PAIR-CI, a nonparametric CI test that restores calibration by integrating multiple imputation directly into the inferential procedure via a paired permutation design. PAIR-CI compares cross-validated models that include and exclude the candidate variable while receiving the same imputed conditioning set, forcing imputation error to cancel in their loss difference rather than contaminate the test statistic. A provably consistent variance estimator jointly accounts for uncertainty arising from cross-validation and multiple imputation -- to our knowledge, the first formal unification of these two inferential frameworks. In simulations, existing imputation-based CI tests exhibit false positive rates of 28--45% when data are missing not at random (MNAR), whereas PAIR-CI averages below the nominal 5% level across data-generating processes and missingness mechanisms. These gains are largest in nonlinear settings and grow with causal graph size: when integrated into the PC algorithm, PAIR-CI reduces structural Hamming distance by 8% on 10-variable nonlinear graphs, 15% on 30-variable equivalents, and up to 44% on the 56-variable HAILFINDER network, with stable performance in all settings.


翻译:针对不完备数据进行因果发现的标准约束范式(先插值、后检验)常存在校准偏差:当插值误差诱发虚假条件依赖时,任何一致的条件独立性检验均会以趋近于1的概率拒绝真实原假设。我们提出PAIR-CI——一种通过配对排列设计将多重插值直接融入推断流程以恢复校准能力的非参数条件独立性检验。该方法在接收相同插值条件集的同时,对比纳入与排除候选变量的交叉验证模型,迫使插值误差在模型损失差中相互抵消,而非污染检验统计量。我们构建了一个经证明具有一致性的方差估计器,可联合考量交叉验证与多重插值产生的不确定性——据我们所知,这是首个正式统一这两种推断框架的方法。仿真实验表明,当数据为随机缺失时,现有基于插值的条件独立性检验假阳性率达28-45%,而PAIR-CI在不同数据生成过程与缺失机制下均值低于名义5%水平。该优势在非线性场景中最为显著,且随因果图规模扩大而增强:集成至PC算法后,PAIR-CI在10变量非线性图中将结构汉明距离降低8%,在30变量等效图中降低15%,在56变量的HAILFINDER网络中降幅达44%,且在所有场景中表现稳定。

0
下载
关闭预览

相关内容

因果强化学习的统一框架:综述、分类体系、算法与应用
专知会员服务
35+阅读 · 2025年12月24日
基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
【苏黎世联邦理工博士论文】因果推断的混杂调整
专知会员服务
43+阅读 · 2022年11月7日
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Arxiv
0+阅读 · 5月21日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员