Combining an internal individual-level study with readily available external summary statistics promises major efficiency gains at minimal additional cost, yet heterogeneity between sources can bias estimates for the internal target population. We develop a generalized entropy-balancing integration strategy that calibrates external moments to the internal covariate distribution, explicitly permitting a biased external sample. Our estimator of the internal-population mean is doubly robust: it remains consistent when either the outcome-regression model or the entropy-balancing modelis correctly specified. When multiple balancing specifications are plausible, we introduce a data-adaptive selection rule. We also provide easy-to-compute, fully estimable diagnostics-based on the Mahalanobis distance and the Pearson chi-square divergence-that pinpoint when integration is guaranteed to strictly outperform the internal sample mean. The approach is implemented in the R package daisy. Simulations and an application to nationwide public-access defibrillation records in Japan demonstrate meaningful precision gains while maintaining bias control under distributional shift.


翻译:将内部个体层面研究与现成可用的外部摘要统计相结合,有望以极低的额外成本实现显著的效率提升,然而数据源之间的异质性可能导致对内部目标总体估计产生偏差。我们开发了一种广义熵平衡集成策略,该方法将外部矩校准至内部协变量分布,明确允许外部样本存在偏差。我们提出的内部总体均值估计量具有双重稳健性:当结果回归模型或熵平衡模型之一被正确设定时,该估计量仍保持一致性。当存在多种可行的平衡设定时,我们引入了数据自适应选择规则。同时,我们基于马氏距离和皮尔逊卡方散度提供了易于计算、完全可估计的诊断指标,这些指标能够精确识别集成方法何时保证严格优于内部样本均值。本方法已通过R软件包daisy实现。基于日本全国公共除颤器记录的模拟与应用表明,该方法在分布偏移条件下能保持偏差控制的同时,实现具有实际意义的精度提升。

0
下载
关闭预览

相关内容

面向关系型数据与知识图谱的数据集成技术综述
专知会员服务
53+阅读 · 2022年12月30日
【干货书】大数据小摘要,272页pdf,剑桥大学出版社
专知会员服务
42+阅读 · 2021年7月6日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
【资源推荐】公开数据集收集汇总
专知
19+阅读 · 2019年6月5日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关VIP内容
面向关系型数据与知识图谱的数据集成技术综述
专知会员服务
53+阅读 · 2022年12月30日
【干货书】大数据小摘要,272页pdf,剑桥大学出版社
专知会员服务
42+阅读 · 2021年7月6日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员