Benchmark quality is critical for meaningful evaluation and sustained progress in time series forecasting, particularly with the rise of pretrained models. Existing benchmarks often have limited domain coverage or overlook real-world settings such as tasks with covariates. Their aggregation procedures frequently lack statistical rigor, making it unclear whether observed performance differences reflect true improvements or random variation. Many benchmarks lack consistent evaluation infrastructure or are too rigid for integration into existing pipelines. To address these gaps, we propose fev-bench, a benchmark of 100 forecasting tasks across seven domains, including 46 with covariates. Supporting the benchmark, we introduce fev, a lightweight Python library for forecasting evaluation emphasizing reproducibility and integration with existing workflows. Using fev, fev-bench employs principled aggregation with bootstrapped confidence intervals to report performance along two dimensions: win rates and skill scores. We report results on fev-bench for pretrained, statistical, and baseline models and identify promising future research directions.


翻译:基准质量对于时间序列预测领域的有意义评估和持续进步至关重要,尤其是在预训练模型兴起的背景下。现有基准往往存在领域覆盖有限或忽视现实世界设置(如包含协变量的任务)的问题。其聚合流程通常缺乏统计严谨性,导致观察到的性能差异究竟反映真实改进还是随机波动难以判断。许多基准缺乏一致的评估基础设施,或过于僵化而难以集成到现有流程中。为弥补这些不足,我们提出了fev-bench——一个涵盖七个领域共100项预测任务的基准,其中包含46项带协变量的任务。为支撑该基准,我们同时推出了fev——一个轻量级Python评估库,其强调可复现性及与现有工作流的集成。基于fev,fev-bench采用基于自助法置信区间的原则性聚合方法,从胜率和技能分数两个维度报告性能。我们在fev-bench上对预训练模型、统计模型及基线模型进行了测试,并指出了有前景的未来研究方向。

0
下载
关闭预览

相关内容

决策智能中的时间序列预测大模型
专知会员服务
32+阅读 · 2025年5月8日
时间序列大模型综述
专知会员服务
46+阅读 · 2025年4月8日
《深度学习在时间序列预测中的应用:综述》
专知会员服务
28+阅读 · 2025年3月14日
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
专知会员服务
237+阅读 · 2020年12月15日
时空序列预测方法综述
专知会员服务
170+阅读 · 2020年10月18日
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
你真的懂时间序列预测吗?
腾讯大讲堂
104+阅读 · 2019年1月7日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
决策智能中的时间序列预测大模型
专知会员服务
32+阅读 · 2025年5月8日
时间序列大模型综述
专知会员服务
46+阅读 · 2025年4月8日
《深度学习在时间序列预测中的应用:综述》
专知会员服务
28+阅读 · 2025年3月14日
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
专知会员服务
237+阅读 · 2020年12月15日
时空序列预测方法综述
专知会员服务
170+阅读 · 2020年10月18日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员