Neural networks for time series forecasting have relied on error metrics and architecture-specific interpretability approaches for model selection that don't apply across models of different families. To interpret forecasting models agnostic to the types of layers across state-of-the-art model families, we introduce Horizon Activation Mapping (HAM), a visual interpretability technique inspired by grad-CAM that uses gradient norm averages to study the horizon's subseries where grad-CAM studies attention maps over image data. We introduce causal and anti-causal modes to calculate gradient update norm averages across subseries at every timestep and lines of proportionality signifying uniform distributions of the norm averages. Optimization landscape studies with respect to changes in batch sizes, early stopping, train-val-test splits, architectural choices, univariate forecasting and dropouts are studied with respect to performances and subseries in HAM. Interestingly, batch size based differences in activities seem to indicate potential for existence of an exponential approximation across them per epoch relative to each other. Multivariate forecasting models including MLP-based CycleNet, N-Linear, N-HITS, self attention-based FEDformer, Pyraformer, SSM-based SpaceTime and diffusion-based Multi-Resolution DDPM over different horizon sizes trained over the ETTm2 dataset are used for HAM plots in this study. NHITS' neural approximation theorem and SpaceTime's exponential autoregressive activities have been attributed to trends in HAM plots over their training, validation and test sets. In general, HAM can be used for granular model selection, validation set choices and comparisons across different neural network model families.


翻译:时间序列预测的神经网络传统上依赖于误差指标和架构特定的可解释性方法进行模型选择,这些方法无法适用于不同家族的模型。为了以与最先进模型家族中各类层类型无关的方式解释预测模型,我们引入了视界激活映射(HAM),这是一种受grad-CAM启发的可视化可解释性技术,它使用梯度范数平均值来研究视界子序列,而grad-CAM则研究图像数据上的注意力图。我们引入了因果和反因果模式来计算每个时间步上跨子序列的梯度更新范数平均值,以及表示范数平均值均匀分布的比例线。针对批量大小变化、早停、训练-验证-测试划分、架构选择、单变量预测和丢弃法的优化景观研究,均结合HAM中的性能和子序列进行了分析。有趣的是,基于批量大小的活动差异似乎表明,在每个训练周期内,它们之间可能存在指数近似关系。本研究使用在ETTm2数据集上训练的不同视界大小的多变量预测模型(包括基于MLP的CycleNet、N-Linear、N-HITS,基于自注意力的FEDformer、Pyraformer,基于状态空间模型的SpaceTime以及基于扩散的多分辨率DDPM)来生成HAM图。NHITS的神经近似定理和SpaceTime的指数自回归活动已被归因于其在训练集、验证集和测试集上HAM图的趋势。总体而言,HAM可用于细粒度模型选择、验证集选择以及跨不同神经网络模型家族的比较。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
《深度学习在时间序列预测中的应用:综述》
专知会员服务
28+阅读 · 2025年3月14日
时间序列复杂网络分析中的可视图方法研究综述
专知会员服务
31+阅读 · 2024年3月9日
深度学习和基础模型在时间序列预测中的综述
专知会员服务
50+阅读 · 2024年1月26日
12篇顶会论文,深度学习时间序列预测经典方案汇总!
专知会员服务
55+阅读 · 2022年4月11日
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
你真的懂时间序列预测吗?
腾讯大讲堂
104+阅读 · 2019年1月7日
基于LSTM深层神经网络的时间序列预测
论智
22+阅读 · 2018年9月4日
基于 Keras 用 LSTM 网络做时间序列预测
R语言中文社区
21+阅读 · 2018年8月6日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
你真的懂时间序列预测吗?
腾讯大讲堂
104+阅读 · 2019年1月7日
基于LSTM深层神经网络的时间序列预测
论智
22+阅读 · 2018年9月4日
基于 Keras 用 LSTM 网络做时间序列预测
R语言中文社区
21+阅读 · 2018年8月6日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员