In modern data analysis, information is frequently collected from multiple sources, often leading to challenges such as data heterogeneity and imbalanced sample sizes across datasets. Robust and efficient data integration methods are crucial for improving the generalization and transportability of statistical findings. In this work, we address scenarios where, in addition to having full access to individualized data from a primary source, supplementary covariate information from external sources is also available. While traditional data integration methods typically require individualized covariates from external sources, such requirements can be impractical due to limitations related to accessibility, privacy, storage, and cost. Instead, we propose novel data integration techniques that rely solely on external summary statistics, such as sample means and covariances, to construct robust estimators for the mean outcome under both homogeneous and heterogeneous data settings. Additionally, we extend this framework to causal inference, enabling the estimation of average treatment effects for both generalizability and transportability.


翻译:在现代数据分析中,信息常从多个来源收集,这通常会导致数据异质性和跨数据集样本量不平衡等挑战。稳健且高效的数据整合方法对于提升统计结果的泛化性和可迁移性至关重要。本研究针对以下场景:除了能够完全访问来自主要来源的个体化数据外,还可获得来自外部来源的补充协变量信息。传统的数据整合方法通常要求外部来源提供个体化的协变量,但由于可访问性、隐私、存储和成本等方面的限制,此类要求往往不切实际。为此,我们提出了新颖的数据整合技术,该技术仅依赖外部汇总统计量(如样本均值和协方差)来构建同质和异质数据设置下结果均值的稳健估计量。此外,我们将此框架扩展到因果推断领域,使其能够估计泛化性和可迁移性背景下的平均处理效应。

0
下载
关闭预览

相关内容

【NeurIPS2023】半监督端到端对比学习用于时间序列分类
专知会员服务
36+阅读 · 2023年10月17日
【CVPR2023】DynamicDet:目标检测的统一动态架构
专知会员服务
26+阅读 · 2023年4月15日
专知会员服务
19+阅读 · 2021年7月20日
时空数据挖掘:综述
专知
34+阅读 · 2022年6月30日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员