Estimating causal treatment effects in observational settings is frequently compromised by selection bias arising from unobserved confounders. While traditional econometric methods struggle when these confounders are orthogonal to structured covariates, high-dimensional unstructured text often contains rich proxies for these latent variables. This study proposes a Neural Network-Enhanced Double Machine Learning (DML) framework designed to leverage text embeddings for causal identification. Using a rigorous synthetic benchmark, we demonstrate that unstructured text embeddings capture critical confounding information that is absent from structured tabular data. However, we show that standard tree-based DML estimators retain substantial bias (+24%) due to their inability to model the continuous topology of embedding manifolds. In contrast, our deep learning approach reduces bias to -0.86% with optimized architectures, effectively recovering the ground-truth causal parameter. These findings suggest that deep learning architectures are essential for satisfying the unconfoundedness assumption when conditioning on high-dimensional natural language data


翻译:在观测性研究中估计因果处理效应常因未观测混杂因素导致的选择偏倚而失真。当这些混杂因素与结构化协变量正交时,传统计量经济学方法往往失效,而高维非结构化文本数据通常蕴含这些潜变量的丰富代理信息。本研究提出一种神经网络增强的双重机器学习框架,旨在利用文本嵌入实现因果识别。通过严格的合成基准测试,我们证明非结构化文本嵌入能捕获结构化表格数据中缺失的关键混杂信息。然而,我们发现标准基于树的DML估计量因无法建模嵌入流形的连续拓扑结构而存在显著偏倚(+24%)。相比之下,我们的深度学习方法通过优化架构将偏倚降低至-0.86%,有效恢复了真实因果参数。这些发现表明,当以高维自然语言数据为条件时,深度学习架构对于满足无混杂性假设具有不可或缺的作用。

0
下载
关闭预览

相关内容

【CMU博士论文】非参数因果推断,241页pdf
专知会员服务
35+阅读 · 2023年6月20日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
【论文】深度学习的数学解释
机器学习研究会
10+阅读 · 2017年12月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2025年12月30日
VIP会员
相关VIP内容
【CMU博士论文】非参数因果推断,241页pdf
专知会员服务
35+阅读 · 2023年6月20日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员