Foundation models have transformed natural language processing and computer vision, and a rapidly growing literature on time-series foundation models (TSFMs) seeks to replicate this success in forecasting. While recent open-source models demonstrate the promise of TSFMs, the field lacks a comprehensive and community-accepted model evaluation framework. We see at least four major issues impeding progress on the development of such a framework. First, current evaluation frameworks consist of benchmark forecasting tasks derived from often outdated datasets (e.g., M3), many of which lack clear metadata and overlap with the corpora used to pre-train TSFMs. Second, existing frameworks evaluate models along a narrowly defined set of benchmark forecasting tasks such as forecast horizon length or domain, but overlook core statistical properties such as non-stationarity and seasonality. Third, domain-specific models (e.g., XGBoost) are often compared unfairly, as existing frameworks neglect a systematic and consistent hyperparameter tuning convention for all models. Fourth, visualization tools for interpreting comparative performance are lacking. To address these issues, we introduce TempusBench, an open-source evaluation framework for TSFMs. TempusBench consists of 1) new datasets which are not included in existing TSFM pretraining corpora, 2) a set of novel benchmark tasks that go beyond existing ones, 3) a model evaluation pipeline with a standardized hyperparameter tuning protocol, and 4) a tensorboard-based visualization interface. We provide access to our code on GitHub: https://github.com/Smlcrm/TempusBench.


翻译:基础模型已经改变了自然语言处理和计算机视觉领域,关于时间序列基础模型(TSFMs)的文献正在迅速增长,试图在预测领域复现这一成功。尽管最近的开源模型展示了TSFMs的潜力,但该领域仍缺乏一个全面且被社区接受的模型评估框架。我们发现至少存在四个主要问题阻碍着此类框架的发展。首先,当前的评估框架包含的基准预测任务通常来自过时的数据集(如M3),其中许多数据集缺乏清晰的元数据,并且与用于预训练TSFMs的语料库存在重叠。其次,现有框架仅沿着一组狭窄定义的基准预测任务(如预测视野长度或领域)对模型进行评估,却忽视了诸如非平稳性和季节性等核心统计属性。第三,领域特定模型(如XGBoost)往往受到不公平比较,因为现有框架缺乏对所有模型进行系统且一致超参数调优的惯例。第四,缺乏用于解释比较性能的可视化工具。为解决这些问题,我们提出了TempusBench,一个面向TSFMs的开源评估框架。TempusBench包含:1)未纳入现有TSFM预训练语料库的新数据集,2)一组超越现有基准的新颖基准任务,3)一个带有标准化超参数调优协议的模型评估流水线,以及4)一个基于tensorboard的可视化界面。我们已在GitHub上提供代码访问:https://github.com/Smlcrm/TempusBench。

0
下载
关闭预览

相关内容

用于时间序列预测的扩散模型:综述
专知会员服务
30+阅读 · 2025年7月22日
时间序列大模型综述
专知会员服务
46+阅读 · 2025年4月8日
《深度学习在时间序列预测中的应用:综述》
专知会员服务
29+阅读 · 2025年3月14日
时空基础模型:愿景、挑战与机遇
专知会员服务
41+阅读 · 2025年1月18日
【干货书】用于数据科学分析和预测的时间序列,529页pdf
专知会员服务
123+阅读 · 2022年10月10日
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
你真的懂时间序列预测吗?
腾讯大讲堂
104+阅读 · 2019年1月7日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
用于时间序列预测的扩散模型:综述
专知会员服务
30+阅读 · 2025年7月22日
时间序列大模型综述
专知会员服务
46+阅读 · 2025年4月8日
《深度学习在时间序列预测中的应用:综述》
专知会员服务
29+阅读 · 2025年3月14日
时空基础模型:愿景、挑战与机遇
专知会员服务
41+阅读 · 2025年1月18日
【干货书】用于数据科学分析和预测的时间序列,529页pdf
专知会员服务
123+阅读 · 2022年10月10日
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员