Large-scale AI model training workloads use thousands of GPUs operating in tightly synchronized loops. During synchronous communication, start-up, shut-down, and checkpointing, GPU power consumption can swing from peak to idle within milliseconds. These large and rapid load swings endanger grid infrastructure as they induce steep power ramp rates, voltage and frequency shifts, and reactive power transients that can damage transformers, converters, and protection equipment. To solve this problem, we introduce EasyRider, a power architecture to mitigate power fluctuations at the rack level. EasyRider uses passive components and actively-controlled auxiliary energy storage to attenuate rack power swings. A software system continually monitors the energy storage system to maximize its lifetime in the presence of frequent charge/discharge cycles. EasyRider filters rack power variations to be within grid safety requirements without requiring software modifications to AI training frameworks or wasting energy. We evaluate EasyRider on a 400VDC-rated prototype system against published workload traces and our own GPU testbed, demonstrating its effectiveness across heterogeneous power levels and workload power profiles.


翻译:大规模AI模型训练工作负载使用数千个GPU在紧密同步的循环中运行。在同步通信、启动、关闭和检查点过程中,GPU功耗可在毫秒内从峰值摆动至空闲状态。这些大且快速的负载波动会引发陡峭的功率变化率、电压和频率偏移以及无功功率瞬变,从而危及变压器、变流器和保护设备等电网基础设施。为解决此问题,我们提出EasyRider,一种在机架层面缓解功率波动的功率架构。EasyRider采用无源组件和主动控制的辅助储能装置来抑制机架功率波动。一个软件系统持续监测储能系统,以在频繁充放电循环下最大化其使用寿命。EasyRider将机架功率变化过滤至电网安全要求范围内,且无需修改AI训练框架软件或浪费能量。我们在额定400VDC的原型系统上,基于公开的工作负载轨迹和自有GPU测试平台对EasyRider进行了评估,证明了其在异构功率水平和负载功率剖面下的有效性。

0
下载
关闭预览

相关内容

AI大模型技术在电力系统中的应用及发展趋势
专知会员服务
18+阅读 · 2025年6月23日
《Transformer压缩》综述
专知会员服务
49+阅读 · 2024年2月14日
面向多GPU的图神经网络训练加速
专知会员服务
24+阅读 · 2023年1月19日
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
人工智能如何变革军事C5ISR作战
专知会员服务
12+阅读 · 5月8日
相关VIP内容
AI大模型技术在电力系统中的应用及发展趋势
专知会员服务
18+阅读 · 2025年6月23日
《Transformer压缩》综述
专知会员服务
49+阅读 · 2024年2月14日
面向多GPU的图神经网络训练加速
专知会员服务
24+阅读 · 2023年1月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员