Neural scaling laws, which in some domains can predict the performance of large neural networks as a function of model, data, and compute scale, are the cornerstone of building foundation models in Natural Language Processing and Computer Vision. We study neural scaling in Scientific Machine Learning, focusing on models for weather forecasting. To analyze scaling behavior in as simple a setting as possible, we adopt a minimal, scalable, general-purpose Swin Transformer architecture, and we use continual training with constant learning rates and periodic cooldowns as an efficient training strategy. We show that models trained in this minimalist way follow predictable scaling trends and even outperform standard cosine learning rate schedules. Cooldown phases can be re-purposed to improve downstream performance, e.g., enabling accurate multi-step rollouts over longer forecast horizons as well as sharper predictions through spectral loss adjustments. We also systematically explore a wide range of model and dataset sizes under various compute budgets to construct IsoFLOP curves, and we identify compute-optimal training regimes. Extrapolating these trends to larger scales highlights potential performance limits, demonstrating that neural scaling can serve as an important diagnostic for efficient resource allocation. We open-source our code for reproducibility.


翻译:神经缩放定律作为自然语言处理和计算机视觉领域构建基础模型的基石,能在某些场景中根据模型规模、数据量和计算量预测大型神经网络的性能。本研究聚焦天气预报模型,探讨科学机器学习中的神经缩放现象。为在尽可能简化的设定下分析缩放行为,我们采用最小化、可扩展的通用Swin Transformer架构,并运用恒定学习率与周期性冷却阶段的持续训练策略作为高效训练方案。研究表明,采用这种极简方式训练的模型可遵循可预测的缩放趋势,其表现甚至优于标准余弦学习率调度方法。冷却阶段可被重新利用以提升下游任务性能,例如实现更长期预报窗口下的精准多步推演,以及通过频谱损失调整获得更锐利的预测结果。我们还在不同计算预算下系统探索了广泛的模型与数据集规模组合,构建了IsoFLOP曲线并识别出计算最优训练方案。将这些趋势外推至更大规模后显现了潜在性能边界,证明神经缩放可作为资源高效配置的重要诊断工具。为保障可复现性,我们开源了全部代码。

0
下载
关闭预览

相关内容

神经缩放定律的起源:从随机图到自然语言
专知会员服务
14+阅读 · 1月17日
深度学习与基础模型在天气预测中的应用:综述
专知会员服务
25+阅读 · 2025年1月15日
最新《神经数据压缩导论》综述
专知会员服务
39+阅读 · 2022年7月19日
深度神经网络模型压缩与加速综述
专知会员服务
130+阅读 · 2019年10月12日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
17+阅读 · 2018年9月20日
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员