In 1967, Frederick Lord posed a conundrum that has confused scientists for over half a century. Subsequently named Lord's 'paradox', the puzzle centres on the observation that two different approaches to estimating the effect of an exposure on the 'change' in an outcome can produce radically different results. Approach 1 involves comparing the mean 'change score' between exposure groups and Approach 2 involves comparing the follow-up outcome between exposure groups conditional on the baseline outcome. Resolving this puzzle starts with recognising the three reasons that a variable may change value: (A) 'endogenous change', which represents autocorrelation from baseline, (B) 'random change', which represents change from transient random processes, and (C) 'exogenous change', which represents all non-endogenous, non-random change and contains all change that is potentially modifiable by other baseline variables. In observational data, neither Approach 1 nor Approach 2 can reliably estimate the causal effect of an exposure on 'exogenous change' in an outcome. Approach 1 is susceptible to diluted or opposite-sign estimates whenever the exposure causes, or is caused by, the baseline outcome. Approach 2 is susceptible to inflated estimates due to measurement error in the baseline outcome and time-varying confounding bias when the baseline outcome is a mediator. The measurement error can be reduced with multiple measures of the baseline outcome, and the time-varying confounding can be reduced using g- methods. Lord's 'paradox' offers several enduring lessons for observational data science including the importance of a well-defined research question and the problems with analysing change scores in observational data.


翻译:1967年,弗雷德里克·洛德提出了一个困扰科学家半个多世纪的难题。这个后来被称为洛德“悖论”的谜题,核心在于观察到两种估计暴露对结局“变化”影响的方法可能产生截然不同的结果:方法1涉及比较暴露组间的平均“变化分数”,方法2涉及在基线结局条件下比较暴露组间的随访结局。解决这一难题首先需要认识到变量可能发生数值变化的三个原因:(A)“内源性变化”,代表来自基线的自相关;(B)“随机变化”,代表瞬态随机过程引起的变化;(C)“外源性变化”,代表所有非内源性、非随机变化,包含所有可能被其他基线变量改变的变化。在观察性数据中,方法1和方法2都无法可靠估计暴露对结局“外源性变化”的因果效应。当暴露导致基线结局或被基线结局导致时,方法1容易产生稀释效应或符号相反的估计值。方法2则因基线结局的测量误差以及基线结局作为中介变量时产生的时变混杂偏倚,容易导致估计值膨胀。通过多次测量基线结局可减少测量误差,而使用g-方法可降低时变混杂偏倚。洛德“悖论”为观察性数据科学提供了若干持久启示,包括明确定义研究问题的重要性,以及在观察性数据中分析变化分数所存在的问题。

0
下载
关闭预览

相关内容

【博士论文】用于概率程序与生成模型的变分推断
专知会员服务
17+阅读 · 2025年10月27日
【CMU博士论文】分布偏移下的不确定性量化,226页pdf
专知会员服务
31+阅读 · 2023年9月30日
【匹兹堡大学博士论文】数据限制下的因果推理,147页pdf
【苏黎世联邦理工博士论文】因果推断的混杂调整
专知会员服务
43+阅读 · 2022年11月7日
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
专知会员服务
66+阅读 · 2021年1月6日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
如果你研究多因子模型,这篇文章看不懂就别玩了!
量化投资与机器学习
26+阅读 · 2018年7月31日
告别曲线拟合:因果推断和do-Calculus简介
论智
24+阅读 · 2018年5月26日
论文浅尝 | 变分知识图谱推理:在KG中引入变分推理框架
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月3日
VIP会员
相关资讯
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
如果你研究多因子模型,这篇文章看不懂就别玩了!
量化投资与机器学习
26+阅读 · 2018年7月31日
告别曲线拟合:因果推断和do-Calculus简介
论智
24+阅读 · 2018年5月26日
论文浅尝 | 变分知识图谱推理:在KG中引入变分推理框架
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员