Graphics Processing Units (GPUs) are specialized accelerators in data centers and high-performance computing (HPC) systems, enabling the fast execution of compute-intensive applications, such as Convolutional Neural Networks (CNNs). However, sustained workloads can impose significant stress on GPU components, raising reliability concerns due to potential faults that corrupt the intermediate application computations, leading to incorrect results. Estimating the stress induced by an application is thus crucial to predict reliability (with\,special\,emphasis\,on\,aging\,effects). In this work, we combine online telemetry parameters and hardware performance counters to assess GPU stress induced by different applications. The experimental results indicate the stress induced by a parallel workload can be estimated by combining telemetry data and Performance Counters that reveal the efficiency in the resource usage of the target workload. For this purpose the selected performance counters focus on measuring the i) throughput, ii) amount of issued instructions and iii) stall events.


翻译:图形处理器(GPU)作为数据中心与高性能计算(HPC)系统中的专用加速器,能够高效执行计算密集型应用(如卷积神经网络CNN)。然而,持续工作负载会对GPU组件施加显著应力,引发可靠性担忧——潜在故障可能破坏应用程序的中间计算过程,导致错误结果。因此,估算应用程序引发的应力对于预测可靠性(尤其侧重老化效应)至关重要。本研究通过结合在线遥测参数与硬件性能计数器,评估不同应用对GPU产生的应力。实验结果表明:通过整合遥测数据与性能计数器(用于揭示目标工作负载的资源使用效率),可估算并行工作负载引发的应力。为此,选定的性能计数器聚焦于测量:i)吞吐量、ii)已发射指令数量、iii)停滞事件。

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员