Real-world multivariate time series can exhibit intricate multi-scale structures, including global trends, local periodicities, and non-stationary regimes, which makes long-horizon forecasting challenging. Although sparse Mixture-of-Experts (MoE) approaches improve scalability and specialization, they typically rely on homogeneous MLP experts that poorly capture the diverse temporal dynamics of time series data. We address these limitations with MoHETS, an encoder-only Transformer that integrates sparse Mixture-of-Heterogeneous-Experts (MoHE) layers. MoHE routes temporal patches to a small subset of expert networks, combining a shared depthwise-convolution expert for sequence-level continuity with routed Fourier-based experts for patch-level periodic structures. MoHETS further improves robustness to non-stationary dynamics by incorporating exogenous information via cross-attention over covariate patch embeddings. Finally, we replace parameter-heavy linear projection heads with a lightweight convolutional patch decoder, improving parameter efficiency, reducing training instability, and allowing a single model to generalize across arbitrary forecast horizons. We validate across seven multivariate benchmarks and multiple horizons, with MoHETS consistently achieving state-of-the-art performance, reducing the average MSE by $12\%$ compared to strong recent baselines, demonstrating effective heterogeneous specialization for long-term forecasting.


翻译:现实世界的多元时间序列可能呈现出复杂的多尺度结构,包括全局趋势、局部周期性以及非平稳状态,这使得长期预测具有挑战性。尽管稀疏的专家混合方法提升了可扩展性和专业化程度,但它们通常依赖于同质的MLP专家,难以有效捕捉时间序列数据中多样的时序动态。我们通过MoHETS解决了这些局限性,这是一种仅包含编码器的Transformer模型,集成了稀疏的异构专家混合层。MoHE将时序片段路由至一小部分专家网络,其中结合了一个共享的深度卷积专家以保持序列级连续性,以及多个基于傅里叶的专家以处理片段级周期性结构。MoHETS进一步通过对协变量片段嵌入进行交叉注意力机制引入外生信息,增强了对非平稳动态的鲁棒性。最后,我们用轻量级的卷积片段解码器取代了参数密集的线性投影头,从而提高了参数效率,减少了训练不稳定性,并允许单一模型泛化至任意预测长度。我们在七个多元基准数据集和多个预测长度上进行了验证,MoHETS始终取得最先进的性能,相较于近期强基线模型,平均MSE降低了$12\%$,证明了其在长期预测中异构专家专业化的有效性。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
【KDD2025】DUET:双重聚类增强的多变量时间序列预测
专知会员服务
17+阅读 · 2024年12月30日
「深度时间序列模型」综述
专知会员服务
43+阅读 · 2024年7月19日
深度学习和基础模型在时间序列预测中的综述
专知会员服务
50+阅读 · 2024年1月26日
索邦大学121页博士论文《时间序列中的无监督异常检测》
专知会员服务
103+阅读 · 2022年7月25日
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
NeurIPS 2021 | 微观特征混合进行宏观时间序列预测
专知会员服务
42+阅读 · 2021年11月12日
专知会员服务
237+阅读 · 2020年12月15日
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
你真的懂时间序列预测吗?
腾讯大讲堂
104+阅读 · 2019年1月7日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
你真的懂时间序列预测吗?
腾讯大讲堂
104+阅读 · 2019年1月7日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员