Modern exascale GPU- and APU-based systems provide multiple power and energy sensors, but differences in scope, update rate, timing, and filtering complicate the attribution of short-lived accelerator activity. This paper presents a methodology to characterize and correct these effects on Cray EX systems with AMD Instinct MI250X GPUs (Frontier) and MI300A APUs (Portage). Using controlled square-wave workloads, we quantify update intervals, delay, aliasing, and variability across up to 512 GPUs and 480 APUs with on-chip (rocm-smi/amd-smi) and off-chip Cray Power Management sensors. We reconstruct power from cumulative energy counters to achieve faster response times, validate it against on-chip, off-chip, and node-level sensors, and integrate the resulting streams into a Score-P/PAPI-based tool for time-aligned, phase-level attribution. Applied to rocHPL, rocHPL-MxP, and HPG-MxP, the method separates energy savings due to reduced runtime from changes in power. Mixed precision reduces node energy on Frontier by 79% for rocHPL-MxP and 31% for HPG-MxP, with similar trends on Portage. These results provide portable guidance for sensor validation and power-aware optimization on current and future exascale systems.


翻译:现代基于GPU和APU的百亿亿次系统提供了多种功耗与能量传感器,但由于作用范围、更新速率、时序以及滤波机制的差异,使得对短时加速器活动的归因变得复杂。本文提出了一种方法,用于在配备AMD Instinct MI250X GPU(Frontier)和MI300A APU(Portage)的Cray EX系统上表征并修正这些影响。通过受控的方波负载,我们量化了多达512个GPU和480个APU上的更新间隔、延迟、混叠与变异性,使用了片上(rocm-smi/amd-smi)与片外Cray Power Management传感器。我们通过累积能量计数器重构功耗以实现更快的响应时间,并针对片上、片外及节点级传感器进行了验证,随后将生成的流集成到基于Score-P/PAPI的工具中,用于时间对齐的逐阶段归因。将该方法应用于rocHPL、rocHPL-MxP及HPG-MxP,可分离出因运行时间缩短导致的能量节省与功耗变化。混合精度在Frontier上使rocHPL-MxP节点能量降低79%,HPG-MxP降低31%,Portage上呈现相似趋势。这些结果为当前及未来百亿亿次系统上的传感器验证与功耗感知优化提供了可移植的指导。

0
下载
关闭预览

相关内容

《面向边缘AI应用的高性能高能效架构探索》156页
专知会员服务
37+阅读 · 2025年4月12日
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
《面向边缘AI应用的高性能高能效架构探索》156页
专知会员服务
37+阅读 · 2025年4月12日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员