Spatio-temporal time series are widely used in real-world applications, including traffic prediction and weather forecasting. They are sequences of observations over extensive periods and multiple locations, naturally represented as multidimensional data. Forecasting is a central task in spatio-temporal analysis, and numerous deep learning methods have been developed to address it. However, as dataset sizes and model complexities continue to grow in practice, training deep learning models has become increasingly time- and resource-intensive. A promising solution to this challenge is dataset distillation, which synthesizes compact datasets that can effectively replace the original data for model training. Although successful in various domains, including time series analysis, existing dataset distillation methods compress only one dimension, making them less suitable for spatio-temporal datasets, where both spatial and temporal dimensions jointly contribute to the large data volume. To address this limitation, we propose STemDist, the first dataset distillation method specialized for spatio-temporal time series forecasting. A key idea of our solution is to compress both temporal and spatial dimensions in a balanced manner, reducing training time and memory. We further reduce the distillation cost by performing distillation at the cluster level rather than the individual location level, and we complement this coarse-grained approach with a subset-based granular distillation technique that enhances forecasting performance. On five real-world datasets, we show empirically that, compared to both general and time-series dataset distillation methods, datasets distilled by our STemDist method enable model training (1) faster (up to 6X) (2) more memory-efficient (up to 8X), and (3) more effective (with up to 12% lower prediction error).


翻译:时空时间序列在现实世界应用中广泛使用,包括交通预测和天气预报。它们是长时间跨度和多个位置上的观测序列,自然地表示为多维数据。预测是时空分析的核心任务,为此已开发出众多深度学习方法。然而,随着实践中数据集规模和模型复杂度的持续增长,训练深度学习模型已变得愈发耗时且资源密集。针对这一挑战,一种有前景的解决方案是数据集蒸馏,它通过合成紧凑的数据集来有效替代原始数据进行模型训练。尽管在包括时间序列分析在内的多个领域取得了成功,但现有的数据集蒸馏方法仅压缩单一维度,这使得它们不太适用于时空数据集,因为其庞大的数据量是由空间和时间维度共同贡献的。为克服这一局限,我们提出了STemDist,首个专为时空时间序列预测设计的数据集蒸馏方法。我们解决方案的一个核心思想是以平衡的方式同时压缩时间和空间维度,从而减少训练时间和内存占用。我们进一步通过聚类层面而非单个位置层面的蒸馏来降低蒸馏成本,并辅以一种基于子集的细粒度蒸馏技术以提升预测性能。在五个真实世界数据集上的实验表明,与通用及时间序列数据集蒸馏方法相比,通过我们的STemDist方法蒸馏得到的数据集能使模型训练(1)更快(高达6倍),(2)内存效率更高(高达8倍),且(3)更有效(预测误差降低高达12%)。

0
下载
关闭预览

相关内容

时空基础模型全面综述
专知会员服务
27+阅读 · 2025年6月3日
《深度学习在时间序列预测中的应用:综述》
专知会员服务
28+阅读 · 2025年3月14日
时间序列和时空数据扩散模型综述
专知会员服务
64+阅读 · 2024年5月1日
【WWW2021】面向时空图预测的神经结构搜索
专知会员服务
23+阅读 · 2021年4月23日
时空序列预测方法综述
专知会员服务
170+阅读 · 2020年10月18日
时空数据挖掘:综述
专知
36+阅读 · 2022年6月30日
时空序列预测方法综述
专知
22+阅读 · 2020年10月19日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员