Mendelian randomization is a powerful tool for causal inference in observational studies. The two-sample summary-data design, which estimates genetic associations with exposures and outcomes in separate cohorts, is the most widely used Mendelian randomization approach in large-scale genomic studies. However, this approach relies on a strong assumption of population homogeneity across the two samples. In practice, available samples often differ in ancestry, demographics, socioeconomic factors, covariate adjustment, and measurement protocols. Violations of the homogeneity assumption can bias causal effect estimates and undermine the credibility of Mendelian randomization findings. We introduce a robust, model-free Mendelian randomization framework that directly addresses population heterogeneity in the two-sample summary-data setting. Our method avoids parametric assumptions about population differences and is designed to address real-world challenges, including measurement error, weak instruments, and pleiotropy. We show that the proposed estimator is consistent and asymptotically normal under heterogeneous designs, and may offer efficiency gains over the classic estimator even in homogeneous settings. Through numerical simulations and a real data analysis for estimating the causal effect of body mass index on high-density lipoprotein cholesterol across ancestrally diverse populations, we demonstrate the practical utility, stability, and robustness of our approach.


翻译:孟德尔随机化是观察性研究中因果推断的有力工具。双样本汇总数据设计,即分别在独立队列中估计遗传变异与暴露及结局的关联,是大规模基因组研究中最广泛使用的孟德尔随机化方法。然而,该方法依赖于两个样本群体同质性的强假设。实践中,可获取的样本常在祖先来源、人口学特征、社会经济因素、协变量调整及测量方案等方面存在差异。违反同质性假设会导致因果效应估计偏倚,并削弱孟德尔随机化结论的可信度。我们提出一种稳健的、无模型的孟德尔随机化框架,直接解决双样本汇总数据设定中的群体异质性问题。该方法避免了对群体差异的参数假设,专为应对测量误差、弱工具变量及多效性等现实挑战而设计。研究表明,所提出的估计量在异质性设计下具有一致性及渐近正态性,即使在同质性设定中也可能比经典估计量具有更高的效率。通过数值模拟及一项跨祖先多样人群估算体质指数对高密度脂蛋白胆固醇因果效应的真实数据分析,我们验证了该方法在实际应用中的实用性、稳定性及稳健性。

0
下载
关闭预览

相关内容

因果强化学习的统一框架:综述、分类体系、算法与应用
专知会员服务
35+阅读 · 2025年12月24日
专知会员服务
237+阅读 · 2020年12月15日
专知会员服务
75+阅读 · 2020年12月7日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
绝对干货 | 随机梯度下降算法综述
菜鸟的机器学习
15+阅读 · 2017年10月30日
GAFT:一个使用 Python 实现的遗传算法框架
Python开发者
10+阅读 · 2017年8月1日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
3+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
因果强化学习的统一框架:综述、分类体系、算法与应用
专知会员服务
35+阅读 · 2025年12月24日
专知会员服务
237+阅读 · 2020年12月15日
专知会员服务
75+阅读 · 2020年12月7日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员