Fine-Grained Power and Energy Attribution on AMD GPU/APU-Based Exascale Nodes - 专知论文

会员服务 ·

0

GPU · AMD · 传感 · 传感器 · 系统 ·

Fine-Grained Power and Energy Attribution on AMD GPU/APU-Based Exascale Nodes

翻译：基于AMD GPU/APU的百亿亿次节点细粒度功耗与能量归因

Adam McDaniel,Michael Jantz,Ashesh Sharma,Steve Abbott,Steven Martin,Shreyas Khandekar,Brandon Neth,Bruno Villasenor Alvarez,Aditya Kashi,Wael Elwasif,Oscar Hernandez

Modern exascale GPU- and APU-based systems provide multiple power and energy sensors, but differences in scope, update rate, timing, and filtering complicate the attribution of short-lived accelerator activity. This paper presents a methodology to characterize and correct these effects on Cray EX systems with AMD Instinct MI250X GPUs (Frontier) and MI300A APUs (Portage). Using controlled square-wave workloads, we quantify update intervals, delay, aliasing, and variability across up to 512 GPUs and 480 APUs with on-chip (rocm-smi/amd-smi) and off-chip Cray Power Management sensors. We reconstruct power from cumulative energy counters to achieve faster response times, validate it against on-chip, off-chip, and node-level sensors, and integrate the resulting streams into a Score-P/PAPI-based tool for time-aligned, phase-level attribution. Applied to rocHPL, rocHPL-MxP, and HPG-MxP, the method separates energy savings due to reduced runtime from changes in power. Mixed precision reduces node energy on Frontier by 79% for rocHPL-MxP and 31% for HPG-MxP, with similar trends on Portage. These results provide portable guidance for sensor validation and power-aware optimization on current and future exascale systems.

翻译：现代基于GPU和APU的百亿亿次系统提供了多种功耗与能量传感器，但由于作用范围、更新速率、时序以及滤波机制的差异，使得对短时加速器活动的归因变得复杂。本文提出了一种方法，用于在配备AMD Instinct MI250X GPU（Frontier）和MI300A APU（Portage）的Cray EX系统上表征并修正这些影响。通过受控的方波负载，我们量化了多达512个GPU和480个APU上的更新间隔、延迟、混叠与变异性，使用了片上（rocm-smi/amd-smi）与片外Cray Power Management传感器。我们通过累积能量计数器重构功耗以实现更快的响应时间，并针对片上、片外及节点级传感器进行了验证，随后将生成的流集成到基于Score-P/PAPI的工具中，用于时间对齐的逐阶段归因。将该方法应用于rocHPL、rocHPL-MxP及HPG-MxP，可分离出因运行时间缩短导致的能量节省与功耗变化。混合精度在Frontier上使rocHPL-MxP节点能量降低79%，HPG-MxP降低31%，Portage上呈现相似趋势。这些结果为当前及未来百亿亿次系统上的传感器验证与功耗感知优化提供了可移植的指导。

0

相关内容

GPU

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

37+阅读 · 2025年4月12日

【报告】解析英伟达成长的核心战略：研发为底、生态为径、AI为翼

【报告】解析英伟达成长的核心战略：研发为底、生态为径、AI为翼

专知会员服务

48+阅读 · 2023年5月25日

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

专知会员服务

40+阅读 · 2023年4月10日

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

专知会员服务

122+阅读 · 2023年2月18日

MIT发布《人工智能加速器》2022年度综述论文，详解80+类AI芯片性能优劣

MIT发布《人工智能加速器》2022年度综述论文，详解80+类AI芯片性能优劣

专知会员服务

78+阅读 · 2022年10月12日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

MIT发布《人工智能加速器》2021年度综述论文，详解80+类AI芯片性能优劣

专知会员服务

65+阅读 · 2021年9月21日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

综述：军事应用中使用的一些重要算法

综述：军事应用中使用的一些重要算法

专知

13+阅读 · 2022年7月3日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

最新基于FPGA的深度学习加速器综述论文（附下载）

最新基于FPGA的深度学习加速器综述论文（附下载）

专知

23+阅读 · 2019年1月17日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

AI100

10+阅读 · 2017年10月27日

大规模可持续传感器网络的能量同步研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

碳纳米管微波毫米波（26.5 GHz–330 GHz）散射参数测量及特征参数提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

灵活时分波分复用无源光网络中节能调度机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

高灵敏度W波段狄克辐射计硅基集成芯片研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

超低待机功耗快速唤醒的微控制器关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

大幅度提高纳秒太赫兹参量源输出能量和效率的研究

国家自然科学基金

0+阅读 · 2014年12月31日

EnergAIzer: Fast and Accurate GPU Power Estimation Framework for AI Workloads

Arxiv

0+阅读 · 4月22日

EasyRider: Mitigating Power Transients in Datacenter-Scale Training Workloads

Arxiv

0+阅读 · 4月16日

On the energy efficiency of sparse matrix computations on multi-GPU clusters

Arxiv

0+阅读 · 4月15日

Architectural Trade-offs in the Energy-Efficient Era: A Comparative Study of power-capping NVIDIA H100 and H200

Arxiv

0+阅读 · 4月13日

Fine-Grained Power and Energy Attribution on AMD GPU/APU-Based Exascale Nodes

Arxiv

0+阅读 · 4月9日

Taming GPU Underutilization via Static Partitioning and Fine-grained CPU Offloading

Arxiv

0+阅读 · 4月9日

Minos: Systematically Classifying Performance and Power Characteristics of GPU Workloads on HPC Clusters

Arxiv

0+阅读 · 4月8日

Minos: Systematically Classifying Performance and Power Characteristics of GPU Workloads on HPC Clusters

Arxiv

0+阅读 · 4月7日

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Arxiv

0+阅读 · 4月6日

Wattchmen: Watching the Wattchers -- High Fidelity, Flexible GPU Energy Modeling

Arxiv

0+阅读 · 3月27日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

37+阅读 · 2025年4月12日

【报告】解析英伟达成长的核心战略：研发为底、生态为径、AI为翼

【报告】解析英伟达成长的核心战略：研发为底、生态为径、AI为翼

专知会员服务

48+阅读 · 2023年5月25日

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

专知会员服务

40+阅读 · 2023年4月10日

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

专知会员服务

122+阅读 · 2023年2月18日

MIT发布《人工智能加速器》2022年度综述论文，详解80+类AI芯片性能优劣

MIT发布《人工智能加速器》2022年度综述论文，详解80+类AI芯片性能优劣

专知会员服务

78+阅读 · 2022年10月12日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

MIT发布《人工智能加速器》2021年度综述论文，详解80+类AI芯片性能优劣

专知会员服务

65+阅读 · 2021年9月21日

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

【阿里巴巴达摩院】TResNet: 高性能的GPU专用架构，GPU-Dedicated Architecture

专知会员服务

33+阅读 · 2020年4月1日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

综述：军事应用中使用的一些重要算法

综述：军事应用中使用的一些重要算法

专知

13+阅读 · 2022年7月3日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

最新基于FPGA的深度学习加速器综述论文（附下载）

最新基于FPGA的深度学习加速器综述论文（附下载）

专知

23+阅读 · 2019年1月17日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

经验 | Pytorch还是Tensorflow？英伟达工程师帮你总结了

AI100

10+阅读 · 2017年10月27日

相关论文

EnergAIzer: Fast and Accurate GPU Power Estimation Framework for AI Workloads

Arxiv

0+阅读 · 4月22日

EasyRider: Mitigating Power Transients in Datacenter-Scale Training Workloads

Arxiv

0+阅读 · 4月16日

On the energy efficiency of sparse matrix computations on multi-GPU clusters

Arxiv

0+阅读 · 4月15日

Architectural Trade-offs in the Energy-Efficient Era: A Comparative Study of power-capping NVIDIA H100 and H200

Arxiv

0+阅读 · 4月13日

Fine-Grained Power and Energy Attribution on AMD GPU/APU-Based Exascale Nodes

Arxiv

0+阅读 · 4月9日

Taming GPU Underutilization via Static Partitioning and Fine-grained CPU Offloading

Arxiv

0+阅读 · 4月9日

Minos: Systematically Classifying Performance and Power Characteristics of GPU Workloads on HPC Clusters

Arxiv

0+阅读 · 4月8日

Minos: Systematically Classifying Performance and Power Characteristics of GPU Workloads on HPC Clusters

Arxiv

0+阅读 · 4月7日

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Arxiv

0+阅读 · 4月6日

Wattchmen: Watching the Wattchers -- High Fidelity, Flexible GPU Energy Modeling

Arxiv

0+阅读 · 3月27日

相关基金

大规模可持续传感器网络的能量同步研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

碳纳米管微波毫米波（26.5 GHz–330 GHz）散射参数测量及特征参数提取研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

灵活时分波分复用无源光网络中节能调度机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

高灵敏度W波段狄克辐射计硅基集成芯片研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

超低待机功耗快速唤醒的微控制器关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

大幅度提高纳秒太赫兹参量源输出能量和效率的研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员