Causal forests estimate how treatment effects vary across individuals, guiding personalized interventions in areas like marketing, operations, and public policy. A standard practice is honest estimation: dividing the data into two samples, one to define subgroups and another to estimate treatment effects within them. This is intended to reduce overfitting and is the default in many software packages. But is it the right choice? We show that honest estimation can reduce the accuracy of estimates of individual treatment effects, especially when effect heterogeneity is substantial and datasets are large enough to detect it. The reason is a bias-variance trade-off: honesty lowers the risk of overfitting but increases the risk of underfitting by limiting the data available to detect and model heterogeneity. Across more than 7,000 benchmark datasets, we find that the cost of using honesty by default can be as high as requiring 27% more data to match the performance of models trained without it. Honesty is best understood as a form of regularization. Whether to adopt it should depend on the goals of the application and its empirical performance, not on reflexive default use.


翻译:因果森林用于估计个体间处理效应的差异,从而指导市场营销、运营管理和公共政策等领域的个性化干预。标准做法是采用诚实估计:将数据分为两个样本,一个用于定义子群体,另一个用于估计这些子群体内的处理效应。这种方法旨在减少过拟合,并已成为许多软件包的默认选项。但这一选择是否合理?我们研究表明,诚实估计会降低个体处理效应估计的准确性,尤其是在效应异质性显著且数据集足够大以检测这种异质性时。其原因在于偏差-方差权衡:诚实方法虽然降低了过拟合风险,但通过限制检测和建模异质性可用的数据量,增加了欠拟合风险。在超过7000个基准数据集上的实验表明,默认使用诚实估计的代价最高可达需要额外27%的数据才能匹配非诚实训练模型的性能。诚实估计本质上是一种正则化形式。是否采用该方法应取决于应用目标及其经验表现,而非无意识的默认使用。

0
下载
关闭预览

相关内容

复杂处理下的因果推断:综述
专知会员服务
34+阅读 · 2024年7月22日
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
36+阅读 · 2019年6月23日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Arxiv
0+阅读 · 6月5日
Arxiv
0+阅读 · 6月2日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员