Experimental evaluations of public policies often randomize a new intervention within many sites or blocks. After a report of an overall result -- statistically significant or not -- the natural question from a policy maker is: \emph{where} did any effects occur? Standard adjustments for multiple testing provide little power to answer this question. In simulations modeled after a 44-block education trial, the Hommel adjustment -- among the most powerful procedures controlling the family-wise error rate (FWER) -- detects effects in only 11\% of truly non-null blocks. We develop a procedure that tests hypotheses top-down through a tree: test the overall null at the root, then groups of blocks, then individual blocks, stopping any branch where the null is not rejected. In the same 44-block design, this approach detects effects in 44\% of non-null blocks -- roughly four times the detection rate. A stopping rule and valid tests at each node suffice for weak FWER control. We show that the strong-sense FWER depends on how rejection probabilities accumulate along paths through the tree. This yields a diagnostic: when power decays fast enough relative to branching, no adjustment is needed; otherwise, an adaptive $α$-adjustment restores control. We apply the method to 25 MDRC education trials and provide an R package, \texttt{manytestsr}.


翻译:公共政策的实验评估通常在许多站点或区块内随机实施新干预措施。在报告总体结果(无论是否具有统计显著性)后,政策制定者自然会提出这样的问题:效应究竟发生在\emph{何处}?传统的多重检验校正方法对此问题的检测功效有限。在以一项包含44个区块的教育试验为模型的模拟中,Hommel校正——作为控制族错误率(FWER)功效最强的程序之一——仅在11%的真实非零效应区块中检测到效应。本研究开发了一种通过树结构自上而下检验假设的程序:在根节点检验整体零假设,随后检验区块组假设,最后检验单个区块假设,并在零假设未被拒绝的任何分支处停止检验。在相同的44区块设计中,该方法在44%的非零效应区块中检测到效应——检测率提升约四倍。每个节点的停止规则与有效检验足以实现弱FWER控制。我们证明强FWER控制取决于拒绝概率沿树路径的累积方式。由此推导出诊断准则:当检验功效相对于分支衰减足够快时,无需进行校正;否则,自适应$α$调整可恢复控制。我们将该方法应用于25项MDRC教育试验,并提供了R语言包\texttt{manytestsr}。

0
下载
关闭预览

相关内容

因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
AB实验在滴滴数据驱动中的应用
DataFunTalk
15+阅读 · 2020年5月31日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
36+阅读 · 2019年6月23日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
美国-以色列-伊朗战争:是否会动用地面部队?
美国协同作战飞机项目新型无人机发动机
专知会员服务
1+阅读 · 4月11日
无人机在美以伊战争中的关键启示(印度视角)
相关资讯
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
AB实验在滴滴数据驱动中的应用
DataFunTalk
15+阅读 · 2020年5月31日
论文浅尝 | 时序与因果关系联合推理
开放知识图谱
36+阅读 · 2019年6月23日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
20+阅读 · 2017年5月10日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员