Causal effects are often characterized with population summaries. These might provide an incomplete picture when there are heterogeneous treatment effects across subgroups. Since the subgroup structure is typically unknown, it is more challenging to identify and evaluate subgroup effects than population effects. We propose a new solution to this problem: \emph{Causal k-Means Clustering}, which harnesses the widely-used k-means clustering algorithm to uncover the unknown subgroup structure. Our problem differs significantly from the conventional clustering setup since the variables to be clustered are unknown counterfactual functions. We present a plug-in estimator which is simple and readily implementable using off-the-shelf algorithms, and study its rate of convergence. We also develop a new bias-corrected estimator based on nonparametric efficiency theory and double machine learning, and show that this estimator achieves fast root-n rates and asymptotic normality in large nonparametric models. Our proposed methods are especially useful for modern outcome-wide studies with multiple treatment levels. Further, our framework is extensible to clustering with generic pseudo-outcomes, such as partially observed outcomes or otherwise unknown functions. Finally, we explore finite sample properties via simulation, and illustrate the proposed methods using a study of mobile-supported self-management for chronic low back pain.


翻译:因果效应通常以总体统计特征来描述,但当存在跨亚组的异质性处理效应时,这种描述可能无法全面反映情况。由于亚组结构通常是未知的,识别和评估亚组效应比总体效应更具挑战性。针对这一问题,我们提出了一种新解决方案:**因果K均值聚类**,它利用广泛使用的K均值聚类算法来揭示未知的亚组结构。我们的问题与传统聚类设置显著不同,因为需要聚类的变量是未知的反事实函数。我们提出了一种插件估计量,该估计量简单易行,可通过现成算法实现,并研究了其收敛速度。此外,我们还基于非参数效率理论和双机器学习开发了一种新的偏差校正估计量,证明该估计量在大型非参数模型中能够实现快速根号n收敛和渐近正态性。所提出的方法特别适用于现代多处理水平的结果广度研究。进一步地,我们的框架可扩展到基于通用伪结果的聚类,例如部分观测结果或其他未知函数。最后,我们通过模拟实验探究了有限样本性质,并利用一项针对慢性下背痛的移动支持自我管理研究对方法进行了实证说明。

0
下载
关闭预览

相关内容

可解释聚类综述
专知会员服务
38+阅读 · 2024年9月8日
核因果模型:治疗效果、反事实、中介和代理,57页ppt
专知会员服务
30+阅读 · 2022年8月30日
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Arxiv
0+阅读 · 4月20日
Arxiv
0+阅读 · 4月2日
Arxiv
29+阅读 · 2023年2月10日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
可解释聚类综述
专知会员服务
38+阅读 · 2024年9月8日
核因果模型:治疗效果、反事实、中介和代理,57页ppt
专知会员服务
30+阅读 · 2022年8月30日
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员