Real-world multivariate time series can exhibit intricate multi-scale structures, including global trends, local periodicities, and non-stationary regimes, which makes long-horizon forecasting challenging. Although sparse Mixture-of-Experts (MoE) approaches improve scalability and specialization, they typically rely on homogeneous MLP experts that poorly capture the diverse temporal dynamics of time series data. We address these limitations with MoHETS, an encoder-only Transformer that integrates sparse Mixture-of-Heterogeneous-Experts (MoHE) layers. MoHE routes temporal patches to a small subset of expert networks, combining a shared depthwise-convolution expert for sequence-level continuity with routed Fourier-based experts for patch-level periodic structures. MoHETS further improves robustness to non-stationary dynamics by incorporating exogenous information via cross-attention over covariate patch embeddings. Finally, we replace parameter-heavy linear projection heads with a lightweight convolutional patch decoder, improving parameter efficiency, reducing training instability, and allowing a single model to generalize across arbitrary forecast horizons. We validate across seven multivariate benchmarks and multiple horizons, with MoHETS consistently achieving state-of-the-art performance, reducing the average MSE by $12\%$ compared to strong recent baselines, demonstrating effective heterogeneous specialization for long-term forecasting.


翻译:现实世界中的多元时间序列可能呈现出复杂的多尺度结构,包括全局趋势、局部周期性和非平稳状态,这使得长期预测具有挑战性。尽管稀疏混合专家方法提高了可扩展性和专业化程度,但它们通常依赖于同质的MLP专家,难以捕捉时间序列数据中多样的时序动态。我们通过MoHETS解决了这些局限性,这是一种仅包含编码器的Transformer模型,集成了稀疏混合异构专家层。MoHE将时序片段路由到一小部分专家网络,结合了一个共享的深度卷积专家(用于序列级连续性)和多个基于傅里叶的专家(用于片段级周期结构)。MoHETS进一步通过协变量片段嵌入的交叉注意力机制整合外生信息,增强了对非平稳动态的鲁棒性。最后,我们用轻量级卷积片段解码器取代了参数密集的线性投影头,提高了参数效率,减少了训练不稳定性,并使得单一模型能够泛化到任意预测范围。我们在七个多元基准测试和多个预测范围上进行了验证,MoHETS始终实现了最先进的性能,与近期强基线相比,平均MSE降低了$12\%$,证明了异构专业化在长期预测中的有效性。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
【KDD2025】DUET:双重聚类增强的多变量时间序列预测
专知会员服务
17+阅读 · 2024年12月30日
「深度时间序列模型」综述
专知会员服务
44+阅读 · 2024年7月19日
深度学习和基础模型在时间序列预测中的综述
专知会员服务
50+阅读 · 2024年1月26日
索邦大学121页博士论文《时间序列中的无监督异常检测》
专知会员服务
104+阅读 · 2022年7月25日
【Google-BryanLim等】可解释深度学习时序预测
专知会员服务
64+阅读 · 2021年12月19日
NeurIPS 2021 | 微观特征混合进行宏观时间序列预测
专知会员服务
42+阅读 · 2021年11月12日
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
你真的懂时间序列预测吗?
腾讯大讲堂
104+阅读 · 2019年1月7日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
人工智能如何变革军事C5ISR作战
专知会员服务
12+阅读 · 5月8日
相关资讯
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
你真的懂时间序列预测吗?
腾讯大讲堂
104+阅读 · 2019年1月7日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员