Error-bounded lossy compression is a fundamental technique for managing the rapidly growing volumes of scientific data produced by modern simulations and observational instruments. Most state-of-the-art-compressors follow a prediction-residual paradigm, where compression effectiveness depends on the quality of the predictor: more accurate predictions generate smaller residuals that are easier to compress. This observation raises a question: can modern machine learning models serve as superior predictors for scientific data compression? Answering this question directly is challenging because developing compression-specific ML predictors requires substantial resources. Instead, we leverage the climate domain where highly accurate pretrained weather forecasting foundation models already exist, making them an ideal testbed. We present a framework that integrates spatial and temporal deep learning models into a conventional error-bounded compression pipeline. The framework supports auto-regressive forecasting models and avoids error accumulation. Using ERA5 climate data as a representative large-scale scientific dataset, we evaluate three distinct ML predictors: a VAEformer-based codec (CRA5), a graph neural network forecaster (GraphCast), and a vision-transformer forecaster (Aurora), against the state-of-the-art compressor SZ3.1 under identical quantization and entropy-coding backends. Our evaluation over approximately 1.7 TB of data reveals a surprising result: although ML predictors generate more accurate predictions and can improve reconstruction quality by up to 91% while achieving up to 9.6x higher compression ratios for highly predictable variables, they do not improve overall dataset-level compression ratio. We show that prediction accuracy alone is insufficient: the spatial structure of the resulting residuals plays a decisive role in entropy coding efficiency.


翻译:有损压缩技术是处理现代模拟与观测仪器产生迅猛增长的科学数据的关键手段。当前主流压缩器大多遵循"预测-残差"范式,其压缩效能直接取决于预测器的精度:预测越精确,产生的残差越小,后续压缩难度越低。这一发现引发了一个问题:现代机器学习模型能否成为科学数据压缩的优质预测器?直接回答该问题颇具挑战性,因为开发面向压缩的机器学习专用预测器需要大量资源。为此,我们借助气候科学领域已存在的高精度预训练天气预测基础模型,将其作为理想测试平台。我们提出了一种框架,将空间与时间深度学习模型整合至传统有界误差压缩流水线中。该框架支持自回归预测模型并避免误差累积。以ERA5气候数据作为典型大规模科学数据集,我们在相同量化与熵编码后端条件下,评估了三种不同的机器学习预测器:基于VAEformer的编解码器(CRA5)、图神经网络预测器(GraphCast)和视觉变换器预测器(Aurora),并与当前最优压缩器SZ3.1进行对比。通过对约1.7TB数据的评估,我们得出了一个令人意外的结论:尽管机器学习预测器能生成更精确的预测,可将重建质量提升高达91%,并对高可预测变量实现最高9.6倍的压缩比提升,但并未提升整体数据集的压缩比。研究表明,仅凭预测精度并不足以优化压缩效果:残差的空间结构对熵编码效率起着决定性作用。

0
下载
关闭预览

相关内容

最新《神经数据压缩导论》综述
专知会员服务
39+阅读 · 2022年7月19日
专知会员服务
118+阅读 · 2020年8月22日
模型压缩究竟在做什么?我们真的需要模型压缩么?
专知会员服务
28+阅读 · 2020年1月16日
深度神经网络模型压缩与加速综述
专知会员服务
130+阅读 · 2019年10月12日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
【资源】深度学习模型压缩资源汇总
专知
38+阅读 · 2019年5月8日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
AI综述专栏 | 深度神经网络加速与压缩
人工智能前沿讲习班
32+阅读 · 2018年10月31日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
17+阅读 · 2018年9月20日
深度学习之视频图像压缩
论智
13+阅读 · 2018年6月15日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月15日
Arxiv
0+阅读 · 6月8日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关资讯
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
【资源】深度学习模型压缩资源汇总
专知
38+阅读 · 2019年5月8日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
AI综述专栏 | 深度神经网络加速与压缩
人工智能前沿讲习班
32+阅读 · 2018年10月31日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
17+阅读 · 2018年9月20日
深度学习之视频图像压缩
论智
13+阅读 · 2018年6月15日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员