As large-scale HPC compute clusters increasingly adopt accelerators such as GPUs to meet the voracious demands of modern workloads, these clusters are increasingly becoming power constrained. Unfortunately, modern applications can often temporarily exceed the power ratings of the accelerators ("power spikes"). Thus, current and future HPC systems must optimize for both power and performance together. However, this is made difficult by increasingly diverse applications, which often require bespoke optimizations to run efficiently on each cluster. Traditionally researchers overcome this problem by profiling applications on specific clusters and optimizing, but the scale, algorithmic diversity, and lack of effective tools make this challenging. To overcome these inefficiencies, we propose Minos, a systematic classification mechanism that identifies similar application characteristics via low-cost profiling for power and performance. This allows us to group similarly behaving workloads into a finite number of distinct classes and reduce the overhead of extensively profiling new workloads. For example, when predicting frequency capping behavior for a previously unseen application, Minos reduces profiling time by 89%. Moreover, across 18 popular graph analytics, HPC, HPC+ML, and ML workloads, Minos achieves a mean error of 4% for power predictions and 3% for performance predictions, significantly improving predictions over state-of-the-art approaches by 10%.


翻译:随着大规模HPC计算集群日益采用GPU等加速器来满足现代工作负载的旺盛需求,这些集群正面临越来越严重的功耗约束。遗憾的是,现代应用程序常常会暂时超出加速器的额定功率("功率尖峰")。因此,当前和未来的HPC系统必须同时优化功耗与性能。然而,日益多样化的应用程序使这一任务变得困难,这些应用通常需要针对每个集群进行定制优化才能高效运行。传统上,研究人员通过在特定集群上进行应用剖析并加以优化来解决此问题,但规模、算法多样性以及缺乏有效工具使这一过程充满挑战。为克服这些低效问题,我们提出Minos——一种系统分类机制,通过低开销的功耗与性能剖析识别具有相似应用特征的程序。这使我们能够将行为相似的工作负载归入有限个不同类别,并降低对新型工作负载进行大规模剖析的开销。例如,在预测未见过的应用的频率节流行为时,Minos可将剖析时间减少89%。此外,在18个流行的图分析、HPC、HPC+ML和ML工作负载上,Minos的功耗预测平均误差为4%,性能预测平均误差为3%,相比现有最先进方法的预测性能显著提升10%。

0
下载
关闭预览

相关内容

盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
【HPC】HPC高性能计算知识: 主要应用场景和软件
产业智能官
22+阅读 · 2019年3月27日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员