In modern data analysis, information is frequently collected from multiple sources, often leading to challenges such as data heterogeneity and imbalanced sample sizes across datasets. Robust and efficient data integration methods are crucial for improving the generalization and transportability of statistical findings. In this work, we address scenarios where, in addition to having full access to individualized data from a primary source, supplementary covariate information from external sources is also available. While traditional data integration methods typically require individualized covariates from external sources, such requirements can be impractical due to limitations related to accessibility, privacy, storage, and cost. Instead, we propose novel data integration techniques that rely solely on external summary statistics, such as sample means and covariances, to construct robust estimators for the mean outcome under both homogeneous and heterogeneous data settings. Additionally, we extend this framework to causal inference, enabling the estimation of average treatment effects for both generalizability and transportability.


翻译:在现代数据分析中,信息常从多个来源收集,这通常会导致数据异质性和跨数据集样本量不平衡等挑战。稳健且高效的数据整合方法对于提升统计结果的泛化性和可迁移性至关重要。本研究针对以下场景:除了能够完全访问来自主要来源的个体化数据外,还可获得来自外部来源的补充协变量信息。传统的数据整合方法通常要求外部来源提供个体化的协变量,但由于可访问性、隐私、存储和成本等方面的限制,此类要求往往不切实际。为此,我们提出了新颖的数据整合技术,该技术仅依赖外部汇总统计量(如样本均值和协方差)来构建同质和异质数据设置下结果均值的稳健估计量。此外,我们将此框架扩展到因果推断领域,使其能够估计泛化性和可迁移性背景下的平均处理效应。

0
下载
关闭预览

相关内容

干货书《数据融合:理论、方法和应用》289页
专知会员服务
130+阅读 · 2023年4月2日
面向关系型数据与知识图谱的数据集成技术综述
专知会员服务
53+阅读 · 2022年12月30日
基于深度学习的数据融合方法研究综述
专知会员服务
147+阅读 · 2020年12月10日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
85+阅读 · 2020年4月23日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
【资源推荐】公开数据集收集汇总
专知
19+阅读 · 2019年6月5日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月5日
Arxiv
95+阅读 · 2022年8月2日
VIP会员
相关VIP内容
干货书《数据融合:理论、方法和应用》289页
专知会员服务
130+阅读 · 2023年4月2日
面向关系型数据与知识图谱的数据集成技术综述
专知会员服务
53+阅读 · 2022年12月30日
基于深度学习的数据融合方法研究综述
专知会员服务
147+阅读 · 2020年12月10日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
85+阅读 · 2020年4月23日
相关资讯
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
【资源推荐】公开数据集收集汇总
专知
19+阅读 · 2019年6月5日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
【入门】数据分析六部曲
36大数据
18+阅读 · 2017年12月6日
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员