Consider two or more forecasters, each making a sequence of predictions for different events over time. We ask a relatively basic question: how might we compare these forecasters, either online or post-hoc, while avoiding unverifiable assumptions on how the forecasts or outcomes were generated? This work presents a novel and rigorous answer to this question. We design a sequential inference procedure for estimating the time-varying difference in forecast quality as measured by a relatively large class of proper scoring rules (bounded scores with a linear equivalent). The resulting confidence intervals are nonasymptotically valid, and can be continuously monitored to yield statistically valid comparisons at arbitrary data-dependent stopping times ("anytime-valid"); this is enabled by adapting variance-adaptive supermartingales, confidence sequences, and e-processes to our setting. Motivated by Shafer and Vovk's game-theoretic probability, our coverage guarantees are also distribution-free, in the sense that they make no distributional assumptions on the forecasts or outcomes. In contrast to a recent work by Henzi and Ziegel, our tools can sequentially test a weak null hypothesis about whether one forecaster outperforms another on average over time. We demonstrate their effectiveness by comparing forecasts on Major League Baseball (MLB) games and statistical postprocessing methods for ensemble weather forecasts.


翻译:考虑两个或更多的预测者, 每个人对不同事件进行一系列的预测。 我们问了一个相对基本的问题: 我们如何比较这些预测者, 无论是在线还是热后, 避免无法核实的预测或结果是如何产生的假设? 这项工作为这一问题提供了一个新颖和严格的答案。 我们设计了一个顺序推论程序, 用来估计预测质量上的时间差异, 以相对大等级的适当评分规则来衡量( 以线性等值计分) 。 由此产生的信任期不具有暂时性, 并且可以不断监测, 以便在任意依赖数据的中断时间( “ 任何时间- valid” ) 中进行统计上有效的比较; 这一点可以通过调整差异适应性超配值的超配值、 信任序列和电子进程来促成; 我们设计了一个顺序推导程序, 以沙费尔和沃克的游戏理论概率为动力, 我们的保证范围也是没有分配性的, 也就是说, 与亨齐和齐格尔最近的工作形成对比, 我们的工具可以连续地测试它们的平均的天气预测结果, 。

0
下载
关闭预览

相关内容

强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
已删除
将门创投
6+阅读 · 2019年11月21日
人工智能 | 国际会议信息6条
Call4Papers
5+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
25+阅读 · 2017年8月14日
Arxiv
57+阅读 · 2022年1月5日
Arxiv
15+阅读 · 2021年2月19日
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
5+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
2+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
7+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
5+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
5+阅读 · 4月20日
《提升生成模型的安全性与保障》博士论文
专知会员服务
5+阅读 · 4月20日
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
14+阅读 · 4月19日
相关资讯
已删除
将门创投
6+阅读 · 2019年11月21日
人工智能 | 国际会议信息6条
Call4Papers
5+阅读 · 2019年1月4日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
25+阅读 · 2017年8月14日
Top
微信扫码咨询专知VIP会员