EasyRider: Mitigating Power Transients in Datacenter-Scale Training Workloads - 专知论文

会员服务 ·

0

负载 · GPU · 波动 · 系统 · AI ·

EasyRider: Mitigating Power Transients in Datacenter-Scale Training Workloads

翻译：EasyRider：缓解数据中心级训练工作负载中的功率瞬变

Dillon Jensen,Obi Nnorom,Grant Wilkins,Hugo Budd,Ram Rajagopal,Juan Rivas-Davila,Phil Levis

from arxiv, 17 pages, 13 figures. Submitted to ASPLOS 2027

Large-scale AI model training workloads use thousands of GPUs operating in tightly synchronized loops. During synchronous communication, start-up, shut-down, and checkpointing, GPU power consumption can swing from peak to idle within milliseconds. These large and rapid load swings endanger grid infrastructure as they induce steep power ramp rates, voltage and frequency shifts, and reactive power transients that can damage transformers, converters, and protection equipment. To solve this problem, we introduce EasyRider, a power architecture to mitigate power fluctuations at the rack level. EasyRider uses passive components and actively-controlled auxiliary energy storage to attenuate rack power swings. A software system continually monitors the energy storage system to maximize its lifetime in the presence of frequent charge/discharge cycles. EasyRider filters rack power variations to be within grid safety requirements without requiring software modifications to AI training frameworks or wasting energy. We evaluate EasyRider on a 400VDC-rated prototype system against published workload traces and our own GPU testbed, demonstrating its effectiveness across heterogeneous power levels and workload power profiles.

翻译：大规模AI模型训练工作负载使用数千个GPU在紧密同步的循环中运行。在同步通信、启动、关闭和检查点过程中，GPU功耗可在毫秒内从峰值摆动至空闲状态。这些大且快速的负载波动会引发陡峭的功率变化率、电压和频率偏移以及无功功率瞬变，从而危及变压器、变流器和保护设备等电网基础设施。为解决此问题，我们提出EasyRider，一种在机架层面缓解功率波动的功率架构。EasyRider采用无源组件和主动控制的辅助储能装置来抑制机架功率波动。一个软件系统持续监测储能系统，以在频繁充放电循环下最大化其使用寿命。EasyRider将机架功率变化过滤至电网安全要求范围内，且无需修改AI训练框架软件或浪费能量。我们在额定400VDC的原型系统上，基于公开的工作负载轨迹和自有GPU测试平台对EasyRider进行了评估，证明了其在异构功率水平和负载功率剖面下的有效性。

0

相关内容

AI大模型技术在电力系统中的应用及发展趋势

AI大模型技术在电力系统中的应用及发展趋势

专知会员服务

18+阅读 · 2025年6月23日

《Transformer压缩》综述

《Transformer压缩》综述

专知会员服务

49+阅读 · 2024年2月14日

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

专知会员服务

61+阅读 · 2023年2月4日

面向多GPU的图神经网络训练加速

面向多GPU的图神经网络训练加速

专知会员服务

24+阅读 · 2023年1月19日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器，速度快，训练稳，泛化强

专知会员服务

18+阅读 · 2020年10月19日

【MIT韩松博士-ICLR2020】端上自动机器学习-一劳永逸网络的NAS: Once-for-All Network

【MIT韩松博士-ICLR2020】端上自动机器学习-一劳永逸网络的NAS: Once-for-All Network

专知会员服务

58+阅读 · 2020年5月4日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

高速系统PDN瞬态噪声的时域分析与非线性抑制技术

国家自然科学基金

0+阅读 · 2015年12月31日

智能电网环境下地理分布式互联网数据中心的能量成本降低方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心资源利用率敏感的编译方法

国家自然科学基金

0+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

数控机床复杂工况下多层次多自由度静动态载荷谱关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于事件驱动的稀疏信号模拟数字转换器的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于多层多源信息的地区级智能电网短期负荷预测研究

国家自然科学基金

2+阅读 · 2014年12月31日

SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters

Arxiv

0+阅读 · 5月1日

EnergAIzer: Fast and Accurate GPU Power Estimation Framework for AI Workloads

Arxiv

0+阅读 · 4月22日

PRISM: Probabilistic Runtime Insights and Scalable Performance Modeling for Large-Scale Distributed Training

Arxiv

0+阅读 · 4月12日

Workload composition smooths aggregate power demand while sustaining short-horizon ramps in AI data centers

Arxiv

0+阅读 · 4月12日

GENSERVE: Efficient Co-Serving of Heterogeneous Diffusion Model Workloads

Arxiv

0+阅读 · 4月8日

Fine-Grained Power and Energy Attribution on AMD GPU/APU-Based Exascale Nodes

Arxiv

0+阅读 · 4月7日

Minos: Systematically Classifying Performance and Power Characteristics of GPU Workloads on HPC Clusters

Arxiv

0+阅读 · 4月7日

The Energy Cost of Execution-Idle in GPU Clusters

Arxiv

0+阅读 · 4月6日

PRISM: Dynamic Primitive-Based Forecasting for Large-Scale GPU Cluster Workloads

Arxiv

0+阅读 · 3月26日

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

Arxiv

0+阅读 · 3月10日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

0+阅读 · 9分钟前

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

0+阅读 · 11分钟前

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

1+阅读 · 23分钟前

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

1+阅读 · 34分钟前

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

1+阅读 · 43分钟前

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

1+阅读 · 47分钟前

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

1+阅读 · 51分钟前

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

1+阅读 · 55分钟前

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

AI大模型技术在电力系统中的应用及发展趋势

AI大模型技术在电力系统中的应用及发展趋势

专知会员服务

18+阅读 · 2025年6月23日

《Transformer压缩》综述

《Transformer压缩》综述

专知会员服务

49+阅读 · 2024年2月14日

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

Transformer如何训得更快更好？莫纳什大学最新《Transformer高效训练》综述，详述训练Transformer技术

专知会员服务

61+阅读 · 2023年2月4日

面向多GPU的图神经网络训练加速

面向多GPU的图神经网络训练加速

专知会员服务

24+阅读 · 2023年1月19日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器，速度快，训练稳，泛化强

专知会员服务

18+阅读 · 2020年10月19日

【MIT韩松博士-ICLR2020】端上自动机器学习-一劳永逸网络的NAS: Once-for-All Network

【MIT韩松博士-ICLR2020】端上自动机器学习-一劳永逸网络的NAS: Once-for-All Network

专知会员服务

58+阅读 · 2020年5月4日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

相关论文

SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters

Arxiv

0+阅读 · 5月1日

EnergAIzer: Fast and Accurate GPU Power Estimation Framework for AI Workloads

Arxiv

0+阅读 · 4月22日

PRISM: Probabilistic Runtime Insights and Scalable Performance Modeling for Large-Scale Distributed Training

Arxiv

0+阅读 · 4月12日

Workload composition smooths aggregate power demand while sustaining short-horizon ramps in AI data centers

Arxiv

0+阅读 · 4月12日

GENSERVE: Efficient Co-Serving of Heterogeneous Diffusion Model Workloads

Arxiv

0+阅读 · 4月8日

Fine-Grained Power and Energy Attribution on AMD GPU/APU-Based Exascale Nodes

Arxiv

0+阅读 · 4月7日

Minos: Systematically Classifying Performance and Power Characteristics of GPU Workloads on HPC Clusters

Arxiv

0+阅读 · 4月7日

The Energy Cost of Execution-Idle in GPU Clusters

Arxiv

0+阅读 · 4月6日

PRISM: Dynamic Primitive-Based Forecasting for Large-Scale GPU Cluster Workloads

Arxiv

0+阅读 · 3月26日

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

Arxiv

0+阅读 · 3月10日

相关基金

高速系统PDN瞬态噪声的时域分析与非线性抑制技术

国家自然科学基金

0+阅读 · 2015年12月31日

智能电网环境下地理分布式互联网数据中心的能量成本降低方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心资源利用率敏感的编译方法

国家自然科学基金

0+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

数控机床复杂工况下多层次多自由度静动态载荷谱关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于事件驱动的稀疏信号模拟数字转换器的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于多层多源信息的地区级智能电网短期负荷预测研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员