Large model training beyond tens of thousands of GPUs is an uncharted territory. At such scales, disruptions to the training process are not a matter of if, but a matter of when -- a stochastic process degrading training productivity. Dynamic runtime variation will become increasingly more frequent as training scales up and as GPUs are operated in increasingly power-limited and thermally-stressed environments. At the 64,000+ GPU scale, we already observe 9% GPU time variability for frontier foundation model training. Motivated by our analysis and the large design space around performance variability, we present PRISM -- a performance modeling framework that captures the stochastic nature of large-scale distributed training. The core of PRISM is a statistical method that quantifies probabilistic guarantees on training time. Using PRISM, we explore the design and optimization space of distributed training, enabling principled, variability-aware decisions that improve performance and system efficiency at scale.


翻译:在超过数万张GPU规模上进行大模型训练仍是未知领域。在此类规模下,训练过程的中断并非是否会发生的问题,而是何时发生的问题——这是一个降低训练效率的随机过程。随着训练规模扩大以及GPU在日益受限的供电和热应力环境下运行,动态运行时变异性将愈发频繁。在64,000+GPU规模上,我们已观察到前沿基础模型训练的GPU时间波动达9%。受此分析及围绕性能变异性的广阔设计空间启发,我们提出PRISM——一种捕捉大规模分布式训练随机特性的性能建模框架。PRISM的核心是一种量化训练时间概率保证的统计方法。借助PRISM,我们探索了分布式训练的设计与优化空间,从而能够做出基于原理且感知变异性的决策,提升大规模场景下的性能与系统效率。

0
下载
关闭预览

相关内容

大型模型中的参数高效微调:方法论综述
专知会员服务
69+阅读 · 2024年11月3日
大规模语言模型在分布式基础设施上的高效训练:综述
专知会员服务
27+阅读 · 2024年7月30日
《大模型数据增强》综述
专知会员服务
117+阅读 · 2024年1月30日
一文概览基于深度学习的超分辨率重建架构
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
0+阅读 · 8分钟前
21世纪的无人机战争
专知会员服务
1+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
1+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
大型模型中的参数高效微调:方法论综述
专知会员服务
69+阅读 · 2024年11月3日
大规模语言模型在分布式基础设施上的高效训练:综述
专知会员服务
27+阅读 · 2024年7月30日
《大模型数据增强》综述
专知会员服务
117+阅读 · 2024年1月30日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员