Existing time series tokenization methods predominantly encode a constant number of samples into individual tokens. This inflexible approach can generate excessive tokens for even simple patterns like extended constant values, resulting in substantial computational overhead. Inspired by the success of byte pair encoding, we propose the first pattern-centric tokenization scheme for time series analysis. Based on a discrete vocabulary of frequent motifs, our method merges samples with underlying patterns into tokens, compressing time series adaptively. Exploiting our finite set of motifs and the continuous properties of time series, we further introduce conditional decoding as a lightweight yet powerful post-hoc optimization method, which requires no gradient computation and adds no computational overhead. On recent time series foundation models, our motif-based tokenization improves forecasting performance by 36% and boosts efficiency by 1990% on average. Conditional decoding further reduces MSE by up to 44%. In an extensive analysis, we demonstrate the adaptiveness of our tokenization to diverse temporal patterns, its generalization to unseen data, and its meaningful token representations capturing distinct time series properties, including statistical moments and trends.


翻译:现有时间序列标记化方法主要将固定数量的样本编码为单个标记。这种僵化的方法即使对简单模式(如持续恒定值)也会生成过多标记,导致显著的计算开销。受字节对编码成功应用的启发,我们提出了首个面向时间序列分析的以模式为中心的标记化方案。基于频繁基元的离散词汇表,我们的方法将具有底层模式的样本合并为标记,从而自适应地压缩时间序列。利用有限的基元集合和时间序列的连续特性,我们进一步引入了条件解码作为轻量级但强大的事后优化方法,该方法无需梯度计算且不增加计算开销。在近期的时间序列基础模型上,我们基于基元的标记化方法将预测性能平均提升36%,效率平均提升1990%。条件解码进一步将均方误差降低高达44%。通过广泛分析,我们证明了我们的标记化方法对多样化时序模式的自适应性、对未见数据的泛化能力,以及其能够捕获包括统计矩和趋势在内的不同时间序列特性的有意义的标记表示。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
12篇顶会论文,深度学习时间序列预测经典方案汇总!
专知会员服务
55+阅读 · 2022年4月11日
专知会员服务
237+阅读 · 2020年12月15日
时空序列预测方法综述
专知会员服务
170+阅读 · 2020年10月18日
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
R语言时间序列分析
R语言中文社区
12+阅读 · 2018年11月19日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
R语言之数据分析高级方法「时间序列」
R语言中文社区
17+阅读 · 2018年4月24日
(Python)时序预测的七种方法
云栖社区
10+阅读 · 2018年2月25日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月13日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员