Selection bias arises when the probability that an observation enters a dataset depends on variables related to the quantities of interest, leading to systematic distortions in estimation and uncertainty quantification. For example, in epidemiological or survey settings, individuals with certain outcomes may be more likely to be included, resulting in biased prevalence estimates with potentially substantial downstream impact. Classical corrections, such as inverse-probability weighting or explicit likelihood-based models of the selection process, rely on tractable likelihoods, which limits their applicability in complex stochastic models with latent dynamics or high-dimensional structure. Simulation-based inference enables Bayesian analysis without tractable likelihoods but typically assumes missingness at random and thus fails when selection depends on unobserved outcomes or covariates. Here, we develop a bias-aware simulation-based inference framework that explicitly incorporates selection into neural posterior estimation. By embedding the selection mechanism directly into the generative simulator, the approach enables amortized Bayesian inference without requiring tractable likelihoods. This recasting of selection bias as part of the simulation process allows us to both obtain debiased estimates and explicitly test for the presence of bias. The framework integrates diagnostics to detect discrepancies between simulated and observed data and to assess posterior calibration. The method recovers well-calibrated posterior distributions across three statistical applications with diverse selection mechanisms, including settings in which likelihood-based approaches yield biased estimates. These results recast the correction of selection bias as a simulation problem and establish simulation-based inference as a practical and testable strategy for parameter estimation under selection bias.


翻译:选择偏差产生于观测数据进入数据集的概率依赖于与感兴趣变量相关的因素时,这会导致估计和不确定性量化出现系统性失真。例如,在流行病学或调查场景中,具有特定结果的个体更可能被纳入样本,从而导致患病率估计产生偏差,并可能对下游分析造成重大影响。经典校正方法(如逆概率加权或基于显式似然的选择过程模型)依赖可处理的似然函数,这限制了它们在具有潜在动力学或高维结构的复杂随机模型中的适用性。基于模拟的推断无需可处理似然函数即可实现贝叶斯分析,但通常假设数据随机缺失,因此当选择过程依赖于未观测结果或协变量时会失效。本文开发了一种偏差感知的基于模拟推断框架,将选择偏差显式纳入神经后验估计。通过将选择机制直接嵌入生成式模拟器,该方法无需可处理似然函数即可实现摊销贝叶斯推断。这种将选择偏差重构为模拟过程组成部分的策略,使我们既能获得去偏估计,又能显式检验偏差是否存在。该框架集成了用于检测模拟数据与观测数据差异的诊断工具,以及评估后验校准的方法。在包含不同选择机制的三个统计应用中,该方法恢复了良好校准的后验分布,包括在基于似然方法产生有偏估计的场景中。这些结果将选择偏差校正重新定义为模拟问题,并确立了基于模拟的推断作为选择偏差下参数估计的实用且可检验策略。

0
下载
关闭预览

相关内容

基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
【CMU博士论文】分布偏移下的不确定性量化,226页pdf
专知会员服务
31+阅读 · 2023年9月30日
【干货书】概率风险分析与贝叶斯决策理论,123页pdf
专知会员服务
56+阅读 · 2023年7月17日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
从概率论到多分类问题:综述贝叶斯统计分类
机器之心
14+阅读 · 2017年9月28日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Arxiv
0+阅读 · 3月10日
Arxiv
0+阅读 · 3月3日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员