In modern randomized experiments, large-scale data collection increasingly yields rich baseline covariates and auxiliary information from multiple sources. Such information offers opportunities for more precise treatment effect estimation, but it also raises the challenge of integrating heterogeneous information coherently without compromising validity. Covariate-adaptive randomization (CAR) is widely used to improve covariate balance at the design stage, but it typically balances only a small set of covariates used to form strata, making covariate adjustment at the analysis stage essential for more efficient estimation of treatment effects. Beyond standard covariate adjustment, it is often desirable to incorporate auxiliary information, including cross-stratum information, predictions from various machine learning models, and external data from historical trials or real-world sources. While this auxiliary information is widely available, existing covariate adjustment methods under CAR primarily exploit within-stratum covariates and do not provide a coherent mechanism for integrating it. We propose a unified calibration framework that integrates such information through an information proxy vector and calibration weights defined by a convex optimization problem. The resulting estimator recovers many recent covariate adjustment procedures as special cases while providing a systematic mechanism for both internal and external information borrowing within a single framework. We establish large-sample validity and a no-harm efficiency guarantee, showing that incorporating additional information sources cannot increase asymptotic variance, and we extend the theory to settings in which both the number of strata and the number of information sources grow with the sample size.


翻译:在现代随机实验中,大规模数据收集日益产生丰富的基线协变量和来自多源的辅助信息。此类信息为更精确的估计处理效应提供了机会,但也带来了在不损害有效性的前提下连贯整合异质信息的挑战。协变量自适应随机化(CAR)在设计阶段被广泛用于改善协变量平衡,但其通常仅平衡用于形成层的一小部分协变量,这使得在分析阶段进行协变量调整对于更高效地估计处理效应至关重要。除了标准的协变量调整外,通常还需要纳入辅助信息,包括跨层信息、来自各种机器学习模型的预测,以及来自历史试验或真实世界数据源的外部数据。尽管这类辅助信息广泛可得,但现有CAR下的协变量调整方法主要利用层内协变量,并未提供整合此类信息的连贯机制。我们提出了一个统一的校准框架,该框架通过信息代理向量和由凸优化问题定义的校准权重来整合此类信息。所得估计量将许多近期协变量调整程序恢复为特例,同时在一个统一框架内为内部和外部信息借用提供了系统化机制。我们建立了大样本有效性及"无损害"效率保证,证明纳入额外信息源不会增加渐近方差,并将理论扩展到层数和信息源数量均随样本量增长的场景。

0
下载
关闭预览

相关内容

Meta-Transformer:多模态学习的统一框架
专知会员服务
59+阅读 · 2023年7月21日
专知会员服务
57+阅读 · 2021年8月12日
专知会员服务
38+阅读 · 2021年8月2日
异质信息网络分析与应用综述,软件学报-北京邮电大学
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
赛尔笔记 | 多模态信息抽取简述
专知
29+阅读 · 2020年4月12日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
算法与数学之美
10+阅读 · 2018年1月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
Meta-Transformer:多模态学习的统一框架
专知会员服务
59+阅读 · 2023年7月21日
专知会员服务
57+阅读 · 2021年8月12日
专知会员服务
38+阅读 · 2021年8月2日
异质信息网络分析与应用综述,软件学报-北京邮电大学
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员