Foundation models have transformed natural language processing and computer vision, and a rapidly growing literature on time-series foundation models (TSFMs) seeks to replicate this success in forecasting. While recent open-source models demonstrate the promise of TSFMs, the field lacks a comprehensive and community-accepted model evaluation framework. We see at least four major issues impeding progress on the development of such a framework. First, existing evaluation frameworks comprise benchmark forecasting tasks derived from often outdated datasets (e.g., M3), many of which lack clear metadata and overlap with the corpora used to pre-train TSFMs. Second, these frameworks evaluate models along a narrowly defined set of benchmark forecasting tasks, such as forecast horizon length or domain, but overlook core statistical properties such as non-stationarity and seasonality. Third, domain-specific models (e.g., XGBoost) are often compared unfairly, as existing frameworks do not enforce a systematic and consistent hyperparameter tuning convention for all models. Fourth, visualization tools for interpreting comparative performance are lacking. To address these issues, we introduce TempusBench, an open-source evaluation framework for TSFMs. TempusBench consists of 1) new datasets which are not included in existing TSFM pretraining corpora, 2) a set of novel benchmark tasks that go beyond existing ones, 3) a model evaluation pipeline with a standardized hyperparameter tuning protocol, and 4) a tensorboard-based visualization interface. We provide access to our code on GitHub: https://github.com/Smlcrm/TempusBench and maintain a live leaderboard at https://benchmark.smlcrm.com/.


翻译:基础模型已深刻变革自然语言处理与计算机视觉领域,而快速发展的时间序列基础模型(TSFM)研究正致力于在预测任务中复现这一成功。尽管近期开源模型展现了TSFM的潜力,该领域仍缺乏一个全面且被学界认可的模型评估框架。我们发现至少存在四大问题阻碍此类框架的发展:第一,现有评估框架所包含的基准预测任务多源自已过时的数据集(如M3),这些数据集普遍缺乏清晰的元数据,且与用于预训练TSFM的语料存在重叠;第二,现有框架仅沿有限维度(如预测长度或领域)评估模型性能,却忽略了非平稳性、季节性等核心统计特性;第三,领域特定模型(如XGBoost)常被不公平地比较,因为现有框架未对所有模型实施系统化、标准化的超参数调优规范;第四,缺乏用于解读模型对比性能的可视化工具。为解决上述问题,我们提出TempusBench——一个面向TSFM的开源评估框架。该框架包含:1)不包含于现有TSFM预训练语料的新数据集;2)超越现有基准任务的新颖任务集合;3)配备标准化超参数调优协议的模型评估流水线;4)基于TensorBoard的可视化界面。相关代码已开源至GitHub:https://github.com/Smlcrm/TempusBench,实时排行榜见https://benchmark.smlcrm.com/。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
用于时间序列预测的扩散模型:综述
专知会员服务
30+阅读 · 2025年7月22日
决策智能中的时间序列预测大模型
专知会员服务
33+阅读 · 2025年5月8日
时间序列大模型综述
专知会员服务
46+阅读 · 2025年4月8日
《深度学习在时间序列预测中的应用:综述》
专知会员服务
29+阅读 · 2025年3月14日
【干货书】用于数据科学分析和预测的时间序列,529页pdf
专知会员服务
123+阅读 · 2022年10月10日
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
你真的懂时间序列预测吗?
腾讯大讲堂
104+阅读 · 2019年1月7日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
用于时间序列预测的扩散模型:综述
专知会员服务
30+阅读 · 2025年7月22日
决策智能中的时间序列预测大模型
专知会员服务
33+阅读 · 2025年5月8日
时间序列大模型综述
专知会员服务
46+阅读 · 2025年4月8日
《深度学习在时间序列预测中的应用:综述》
专知会员服务
29+阅读 · 2025年3月14日
【干货书】用于数据科学分析和预测的时间序列,529页pdf
专知会员服务
123+阅读 · 2022年10月10日
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员