Underpowered studies (below 50% power) suffer from the winner's curse: A statistically significant positive estimate must exaggerate the true treatment effect to meet the significance threshold. A study by Dipayan Biswas, Annika Abell, and Roger Chacko published in the Journal of Consumer Research (2023) reported that in an A/B test, simply rounding the corners of square buttons increased the online click-through rate by 55% (p-value 0.037)$\unicode{x2014}$a striking finding with potentially wide-ranging implications for a digital industry that is seeking to enhance consumer engagement. Drawing on our experience with tens of thousands of A/B tests, many involving similar user interface modifications, we found this dramatic claim implausibly large. To evaluate the claim and provide a more accurate estimate of the treatment effect, we conducted three high-powered A/B tests, each involving over two thousand times more users than the original study. All three experiments yielded effect size estimates that were approximately two orders of magnitude smaller than initially reported, with 95% confidence intervals that include zero (i.e., not statistically significant at the 0.05 level). Two additional independent replications by Evidoo found similarly small effects. These findings underscore the critical importance of power analysis and experimental design in increasing trust and reproducibility of results.


翻译:统计检验力不足的研究受制于"赢家诅咒"现象:一项在统计上显著的正向估计值必须夸大真实处理效应才能达到显著性阈值。Dipayan Biswas、Annika Abell与Roger Chacko在《消费者研究期刊》(2023年)发表的研究报告称,在A/B测试中,仅将方形按钮的边角修改为圆角处理,即可使在线点击率提升55%(p值0.037),这一惊人发现可能对致力于提升用户参与度的数字产业产生广泛影响。基于我们数万次A/B测试(其中许多涉及相似的界面修改)的经验,我们认为这一戏剧性论断的效应量过于庞大而难以成立。为检验该论断并获取更精确的处理效应估计值,我们开展三项高检验力A/B测试,每项测试的样本量均为原研究的2000倍以上。三项实验所得的效应量估计值均比原始报告结果小约两个数量级,其95%置信区间包含零(即未达到0.05统计显著性水平)。Evidoo开展的两项独立重复实验同样发现效应量极小。这些发现凸显了检验力分析与实验设计在提升研究结果可信度与可重复性方面的关键作用。

0
下载
关闭预览

相关内容

基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
多因素问题分析时,如何确立各因素权重?
人人都是产品经理
75+阅读 · 2020年3月4日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
人工智能如何变革军事C5ISR作战
专知会员服务
12+阅读 · 5月8日
相关VIP内容
基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员