Characterizing Production GPU Workloads using System-wide Telemetry Data - 专知论文

会员服务 ·

0

GPU · 负载 · 系统 · 分析 · 内存 ·

Characterizing Production GPU Workloads using System-wide Telemetry Data

翻译：基于系统范围遥测数据的生产GPU工作负载特性分析

Onur Cankur,Brian Austin,Dhruva Kulkarni,Abhinav Bhatele

GPGPU-accelerated clusters and supercomputers are central to modern high-performance computing (HPC). Over the past decade, these systems continue to expand, and GPUs now expose a wide range of hardware counters that provide detailed views of performance and resource usage. Despite the potential of these counters, few studies have evaluated the insights they offer about real workloads at scale. In this work, we address this gap by analyzing previously underexplored GPU hardware counters collected via Lightweight Distributed Metric Service on Perlmutter, a leadership-class supercomputer. We quantify uneven work distribution across GPUs within a job and the steadiness of GPU activity over time, and we classify jobs as compute- or memory-bound using a roofline-based criterion. We then use these metrics to interpret job behavior in terms of practical workload characteristics to provide interpretable, job-level insights. Our findings can inform workload optimization and future HPC system design. For example, 81% of jobs are memory-bound, and memory-bound jobs tend to consume more energy than compute-bound jobs at comparable GPU-hours. Among jobs requesting 80 GB GPUs, 55% peak at 50% HBM capacity or less.

翻译：GPGPU加速集群与超级计算机是现代高性能计算（HPC）的核心。过去十年间，此类系统持续扩展，GPU现已提供广泛的硬件计数器，能够详细展示性能与资源使用情况。尽管这些计数器潜力巨大，但鲜有研究评估其在大规模实际工作负载分析中所能提供的洞察。本研究通过分析在领导级超级计算机Perlmutter上通过轻量级分布式度量服务收集的、先前未充分探索的GPU硬件计数器，填补了这一空白。我们量化了单个作业内GPU间工作负载分布的不均衡性以及GPU活动随时间变化的稳定性，并采用基于屋顶线模型的标准将作业分类为计算密集型或内存密集型。随后，我们利用这些指标从实际工作负载特征的角度解释作业行为，从而提供可解释的作业级洞察。我们的研究结果可为工作负载优化及未来HPC系统设计提供参考。例如，81%的作业属于内存密集型，且在GPU小时数可比的情况下，内存密集型作业往往比计算密集型作业消耗更多能量。在申请使用80 GB GPU的作业中，55%的作业峰值HBM容量利用率不超过50%。

0

相关内容

GPU

【斯坦福博士论文】可扩展、高效且安全的机器学习数据系统

【斯坦福博士论文】可扩展、高效且安全的机器学习数据系统

专知会员服务

21+阅读 · 2025年6月9日

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

23+阅读 · 2024年12月27日

图预处理怎么做？中科院计算所等《图预处理方法》综述，从算法到硬件视角讲述图预处理方法

图预处理怎么做？中科院计算所等《图预处理方法》综述，从算法到硬件视角讲述图预处理方法

专知会员服务

27+阅读 · 2023年9月18日

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

专知会员服务

40+阅读 · 2023年4月10日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知会员服务

89+阅读 · 2023年4月6日

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

专知会员服务

122+阅读 · 2023年2月18日

未来网络白皮书——SmartNIC/DPU技术白皮书

未来网络白皮书——SmartNIC/DPU技术白皮书

专知会员服务

83+阅读 · 2022年8月31日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

Colab 免费提供 Tesla T4 GPU，是时候薅羊毛了

Colab 免费提供 Tesla T4 GPU，是时候薅羊毛了

机器之心

10+阅读 · 2019年4月25日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

从网络设计到实际应用，深度学习图像超分辨率综述

从网络设计到实际应用，深度学习图像超分辨率综述

机器之心

25+阅读 · 2019年2月24日

【校招之学长分享】“职”在NVIDIA VLSI PD，了解一下？

【校招之学长分享】“职”在NVIDIA VLSI PD，了解一下？

英伟达NVIDIA中国

11+阅读 · 2018年8月13日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

【机器学习】【案例分析】基于机器学习的磁盘故障预测

【机器学习】【案例分析】基于机器学习的磁盘故障预测

产业智能官

12+阅读 · 2017年8月13日

基于大数据挖掘的数控机床多工况载荷谱系研究

国家自然科学基金

0+阅读 · 2016年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于数据特征选择与匹配的工业过程监测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

使用GPU加速银道面尘埃辐射图像的高分辨率模拟与多参数反演

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

PipeWeave: Synergizing Analytical and Learning Models for Unified GPU Performance Prediction

Arxiv

0+阅读 · 4月28日

Evaluating CUDA Tile for AI Workloads on Hopper and Blackwell GPUs

Arxiv

0+阅读 · 4月25日

The Landscape of GPU-Centric Communication

Arxiv

0+阅读 · 4月23日

On the energy efficiency of sparse matrix computations on multi-GPU clusters

Arxiv

0+阅读 · 4月15日

Taming GPU Underutilization via Static Partitioning and Fine-grained CPU Offloading

Arxiv

0+阅读 · 4月9日

Minos: Systematically Classifying Performance and Power Characteristics of GPU Workloads on HPC Clusters

Arxiv

0+阅读 · 4月8日

Measurement of Generative AI Workload Power Profiles for Whole-Facility Data Center Infrastructure Planning

Arxiv

0+阅读 · 4月8日

Minos: Systematically Classifying Performance and Power Characteristics of GPU Workloads on HPC Clusters

Arxiv

0+阅读 · 4月7日

A Practical Two-Stage Framework for GPU Resource and Power Prediction in Heterogeneous HPC Systems

Arxiv

0+阅读 · 4月2日

PRISM: Dynamic Primitive-Based Forecasting for Large-Scale GPU Cluster Workloads

Arxiv

0+阅读 · 3月26日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

4+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

10+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

6+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

7+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

9+阅读 · 5月29日

相关VIP内容

【斯坦福博士论文】可扩展、高效且安全的机器学习数据系统

【斯坦福博士论文】可扩展、高效且安全的机器学习数据系统

专知会员服务

21+阅读 · 2025年6月9日

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

23+阅读 · 2024年12月27日

图预处理怎么做？中科院计算所等《图预处理方法》综述，从算法到硬件视角讲述图预处理方法

图预处理怎么做？中科院计算所等《图预处理方法》综述，从算法到硬件视角讲述图预处理方法

专知会员服务

27+阅读 · 2023年9月18日

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

专知会员服务

40+阅读 · 2023年4月10日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知会员服务

89+阅读 · 2023年4月6日

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

专知会员服务

122+阅读 · 2023年2月18日

未来网络白皮书——SmartNIC/DPU技术白皮书

未来网络白皮书——SmartNIC/DPU技术白皮书

专知会员服务

83+阅读 · 2022年8月31日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

【百度】-大规模深度学习广告系统的分布式分层GPU参数服务器，Distributed Hierarchical GPU PS

专知会员服务

24+阅读 · 2020年3月15日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

Colab 免费提供 Tesla T4 GPU，是时候薅羊毛了

Colab 免费提供 Tesla T4 GPU，是时候薅羊毛了

机器之心

10+阅读 · 2019年4月25日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

从网络设计到实际应用，深度学习图像超分辨率综述

从网络设计到实际应用，深度学习图像超分辨率综述

机器之心

25+阅读 · 2019年2月24日

【校招之学长分享】“职”在NVIDIA VLSI PD，了解一下？

【校招之学长分享】“职”在NVIDIA VLSI PD，了解一下？

英伟达NVIDIA中国

11+阅读 · 2018年8月13日

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

Github 项目推荐 | Nvidia 用于数据增强和 JPEG 图像解码的 GPU 加速库 DALI

AI研习社

11+阅读 · 2018年6月27日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

【机器学习】【案例分析】基于机器学习的磁盘故障预测

【机器学习】【案例分析】基于机器学习的磁盘故障预测

产业智能官

12+阅读 · 2017年8月13日

相关论文

PipeWeave: Synergizing Analytical and Learning Models for Unified GPU Performance Prediction

Arxiv

0+阅读 · 4月28日

Evaluating CUDA Tile for AI Workloads on Hopper and Blackwell GPUs

Arxiv

0+阅读 · 4月25日

The Landscape of GPU-Centric Communication

Arxiv

0+阅读 · 4月23日

On the energy efficiency of sparse matrix computations on multi-GPU clusters

Arxiv

0+阅读 · 4月15日

Taming GPU Underutilization via Static Partitioning and Fine-grained CPU Offloading

Arxiv

0+阅读 · 4月9日

Minos: Systematically Classifying Performance and Power Characteristics of GPU Workloads on HPC Clusters

Arxiv

0+阅读 · 4月8日

Measurement of Generative AI Workload Power Profiles for Whole-Facility Data Center Infrastructure Planning

Arxiv

0+阅读 · 4月8日

Minos: Systematically Classifying Performance and Power Characteristics of GPU Workloads on HPC Clusters

Arxiv

0+阅读 · 4月7日

A Practical Two-Stage Framework for GPU Resource and Power Prediction in Heterogeneous HPC Systems

Arxiv

0+阅读 · 4月2日

PRISM: Dynamic Primitive-Based Forecasting for Large-Scale GPU Cluster Workloads

Arxiv

0+阅读 · 3月26日

相关基金

基于大数据挖掘的数控机床多工况载荷谱系研究

国家自然科学基金

0+阅读 · 2016年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于数据特征选择与匹配的工业过程监测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

使用GPU加速银道面尘埃辐射图像的高分辨率模拟与多参数反演

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员