We propose and evaluate two methods that validate the computation of Bayes factors: one based on an improved variant of simulation-based calibration checking (SBC) and one based on calibration metrics for binary predictions. We show that in theory, binary prediction calibration is equivalent to a special case of SBC, but with limited resources, binary prediction calibration is typically more sensitive to the problems we investigated. With well-designed test quantities, SBC can however detect all possible problems in computation, including some that cannot be uncovered by binary prediction calibration. Previous work on Bayes factor validation includes checks based on the data-averaged posterior and the Good check method. We demonstrate that both checks miss many problems in Bayes factor computation detectable with SBC and binary prediction calibration. Moreover, we find that the Good check as originally described fails to control its error rates. Our proposed checks also typically use simulation results more efficiently than data-averaged posterior checks. Finally, we show that a special approach based on posterior SBC is necessary when checking Bayes factor computation under improper priors and we validate several models with such priors. We recommend that novel methods for Bayes factor computation be validated with SBC, binary prediction calibration and data-averaged posterior with at least several hundred simulations. For all the models we tested, the bridgesampling and BayesFactor R packages satisfy all available checks and thus are likely safe to use in standard scenarios.


翻译:我们提出并评估了两种验证贝叶斯因子计算的方法:一种基于改进的模拟校准检验(SBC)变体,另一种基于二元预测的校准度量。理论上,我们证明二元预测校准等价于SBC的一种特例,但在有限资源条件下,二元预测校准通常对我们研究的问题更为敏感。然而,通过精心设计的检验统计量,SBC能够检测计算中所有可能的问题,包括一些二元预测校准无法揭示的问题。先前关于贝叶斯因子验证的工作包括基于数据平均后验的检验和Good检验方法。我们证明这两种检验都会遗漏许多可通过SBC和二元预测校准检测到的贝叶斯因子计算问题。此外,我们发现原始描述的Good检验无法控制其错误率。我们提出的检验方法通常也比数据平均后验检验更高效地利用模拟结果。最后,我们证明在非正常先验下检验贝叶斯因子计算时,需要采用基于后验SBC的特殊方法,并以此验证了多个采用此类先验的模型。我们建议使用SBC、二元预测校准以及至少数百次模拟的数据平均后验来验证新型贝叶斯因子计算方法。对于所有测试模型,bridgesampling和BayesFactor R软件包均满足所有可用检验,因此在标准场景中使用可能是安全的。

0
下载
关闭预览

相关内容

【CMU博士论文】基于深度学习的高效贝叶斯实验设计
专知会员服务
17+阅读 · 2025年8月19日
专知会员服务
36+阅读 · 2021年8月17日
【Nature】贝叶斯统计与建模综述,26页pdf
专知会员服务
77+阅读 · 2021年1月21日
面试题:简单说说贝叶斯定理
七月在线实验室
12+阅读 · 2019年6月12日
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
【深度】让DL可解释?这一份66页贝叶斯深度学习教程告诉你
GAN生成式对抗网络
15+阅读 · 2018年8月11日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
一文读懂贝叶斯分类算法(附学习资源)
大数据文摘
12+阅读 · 2017年12月14日
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 3月10日
Arxiv
0+阅读 · 3月3日
VIP会员
最新内容
《定向能武器交战授权治理管道》
专知会员服务
0+阅读 · 11分钟前
《人工智能与海军作战》最新报告
专知会员服务
0+阅读 · 52分钟前
具身AI安全综述:风险、攻击与防御
专知会员服务
2+阅读 · 今天12:02
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
13+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
16+阅读 · 5月5日
相关资讯
相关基金
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员