Architectural Trade-offs in the Energy-Efficient Era: A Comparative Study of power-capping NVIDIA H100 and H200 - 专知论文

会员服务 ·

0

内存 · 能效 · 英伟达（NVIDIA） · 带宽 · 分析 ·

Architectural Trade-offs in the Energy-Efficient Era: A Comparative Study of power-capping NVIDIA H100 and H200

翻译：能效时代下的架构权衡：NVIDIA H100与H200功率限制的对比研究

Aditya Ujeniya,Jan Eitzinger,Georg Hager,Gerhard Wellein

Modern NVIDIA GPUs like the H100 (HBM2e) and H200 (HBM3e) share similar compute characteristics but differ significantly in memory interface technology and bandwidth. By isolating memory bandwidth as a key variable, the power distribution between the memory and Streaming Multiprocessors (SM) changes notably between the two architectures. In the era of energy-efficient computing, analyzing how these hardware characteristics impact performance per watt is critical. This study investigates how the H100 and H200 manage memory power consumption at various power-cap levels. By a regression analysis, we study the memory power limit and uncover outliers consuming more memory power. To evaluate efficiency, we employ compute-bound (DGEMM) and memory-bound (TheBandwidthBenchmark) workloads, representing the two extremes of the Roof\-line model. Our observations indicate that across varying power caps, the H100 remains the slightly better choice for strictly compute-bound workloads, whereas the H200 demonstrates superior efficiency for memory-bound applications.

翻译：现代NVIDIA GPU（如搭载HBM2e的H100与搭载HBM3e的H200）在计算特性上相似，但内存接口技术与带宽存在显著差异。通过将内存带宽作为关键变量进行隔离分析，两种架构间内存与流式多处理器（SM）之间的功率分配发生显著变化。在能效计算时代，研究这些硬件特性如何影响每瓦性能至关重要。本研究探讨了H100和H200在不同功率限制水平下管理内存功耗的方式。通过回归分析，我们研究了内存功率限制机制，并发现了消耗异常内存功率的离群值。为评估效能，我们采用了计算密集型（DGEMM）和内存密集型（TheBandwidthBenchmark）工作负载，分别代表屋顶线模型的两个极端。观察结果表明，在不同的功率限制范围内，H100仍是严格计算密集型工作负载的稍优选择，而H200在内存密集型应用中展现出更优的能效表现。

0

相关内容

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

37+阅读 · 2025年4月12日

算力调度：算力时代的国家电网

算力调度：算力时代的国家电网

专知会员服务

44+阅读 · 2023年11月7日

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

专知会员服务

40+阅读 · 2023年4月10日

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

专知会员服务

122+阅读 · 2023年2月18日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知会员服务

147+阅读 · 2022年11月14日

计算体系架构研究综述与思考

计算体系架构研究综述与思考

专知会员服务

72+阅读 · 2022年3月21日

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

专知会员服务

65+阅读 · 2022年3月6日

【ICCV 2021】HCFlow：使用一个统一的框架处理图像超分辨率和图像再缩放

专知会员服务

15+阅读 · 2021年10月4日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

【CCF优秀博士学位论文奖-2019提名】面向绿色跨域数据中心的能效管理研究，华中科技大学周知

【CCF优秀博士学位论文奖-2019提名】面向绿色跨域数据中心的能效管理研究，华中科技大学周知

专知会员服务

14+阅读 · 2019年11月8日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

密歇根大学最新28页综述论文《GANs生成式对抗网络综述：算法、理论与应用》，带你全面了解GAN技术趋势

密歇根大学最新28页综述论文《GANs生成式对抗网络综述：算法、理论与应用》，带你全面了解GAN技术趋势

极市平台

19+阅读 · 2020年2月17日

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AI科技评论

13+阅读 · 2020年2月5日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

【干货】5个最新图像合成GAN架构解读：核心理念、关键成就、商业化路径

【干货】5个最新图像合成GAN架构解读：核心理念、关键成就、商业化路径

GAN生成式对抗网络

12+阅读 · 2019年3月17日

TensorFlow GPU基准测试：2080 Ti vs V100 vs 1080 Ti vs Titan V

TensorFlow GPU基准测试：2080 Ti vs V100 vs 1080 Ti vs Titan V

论智

12+阅读 · 2018年10月14日

分层异构网络面向视频流的绿色节能通信研究

国家自然科学基金

6+阅读 · 2015年12月31日

超密集分层异构网络能效增强研究

国家自然科学基金

4+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

灵活时分波分复用无源光网络中节能调度机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于认知技术的分层异构网络能效分析与资源分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

大幅度提高纳秒太赫兹参量源输出能量和效率的研究

国家自然科学基金

0+阅读 · 2014年12月31日

Evolution of NVENC Efficiency: A Longitudinal Analysis of HQ and UHQ Tuning Efficiency, Latency and Energy Trade-offs

Arxiv

0+阅读 · 5月2日

Coordinated Power Management on Heterogeneous Systems

Arxiv

0+阅读 · 4月23日

On the Power Saving in High-Speed Ethernet-based Networks for Supercomputers and Data Centers

Arxiv

0+阅读 · 4月21日

Towards Energy Efficient Co-Scheduling in HPC

Arxiv

0+阅读 · 4月19日

On the energy efficiency of sparse matrix computations on multi-GPU clusters

Arxiv

0+阅读 · 4月15日

A comparative study on power delivery aspects of compute-in/near-memory approaches using DRAM

Arxiv

0+阅读 · 4月6日

Performance Isolation and Semantic Determinism in Efficient GPU Spatial Sharing

Arxiv

0+阅读 · 4月3日

A Practical Two-Stage Framework for GPU Resource and Power Prediction in Heterogeneous HPC Systems

Arxiv

0+阅读 · 4月2日

From Skew to Symmetry: Node-Interconnect Multi-Path Balancing with Execution-time Planning for Modern GPU Clusters

Arxiv

0+阅读 · 3月31日

Holistic Energy Performance Management: Enablers, Capabilities, and Features

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

英伟达（NVIDIA）

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

2+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

3+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

3+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

3+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

37+阅读 · 2025年4月12日

算力调度：算力时代的国家电网

算力调度：算力时代的国家电网

专知会员服务

44+阅读 · 2023年11月7日

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

【阿姆斯特丹博士论文】GPU图算法性能分析与预测，227页pdf

专知会员服务

40+阅读 · 2023年4月10日

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

专知会员服务

122+阅读 · 2023年2月18日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知会员服务

147+阅读 · 2022年11月14日

计算体系架构研究综述与思考

计算体系架构研究综述与思考

专知会员服务

72+阅读 · 2022年3月21日

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

专知会员服务

65+阅读 · 2022年3月6日

【ICCV 2021】HCFlow：使用一个统一的框架处理图像超分辨率和图像再缩放

专知会员服务

15+阅读 · 2021年10月4日

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

【O'Reilly TensorFlow Conference 2019】HARP：高效的GPU共享系统（HARP: An efficient and elastic GPU-sharing system），Alibaba | Pengfei Fan，Lingling Jin

专知会员服务

10+阅读 · 2019年11月13日

【CCF优秀博士学位论文奖-2019提名】面向绿色跨域数据中心的能效管理研究，华中科技大学周知

【CCF优秀博士学位论文奖-2019提名】面向绿色跨域数据中心的能效管理研究，华中科技大学周知

专知会员服务

14+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

密歇根大学最新28页综述论文《GANs生成式对抗网络综述：算法、理论与应用》，带你全面了解GAN技术趋势

密歇根大学最新28页综述论文《GANs生成式对抗网络综述：算法、理论与应用》，带你全面了解GAN技术趋势

极市平台

19+阅读 · 2020年2月17日

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AAAI 2020 | 华为：短小时序，如何预测？——基于特征重构的张量ARIMA

AI科技评论

13+阅读 · 2020年2月5日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

【干货】5个最新图像合成GAN架构解读：核心理念、关键成就、商业化路径

【干货】5个最新图像合成GAN架构解读：核心理念、关键成就、商业化路径

GAN生成式对抗网络

12+阅读 · 2019年3月17日

TensorFlow GPU基准测试：2080 Ti vs V100 vs 1080 Ti vs Titan V

TensorFlow GPU基准测试：2080 Ti vs V100 vs 1080 Ti vs Titan V

论智

12+阅读 · 2018年10月14日

相关论文

Evolution of NVENC Efficiency: A Longitudinal Analysis of HQ and UHQ Tuning Efficiency, Latency and Energy Trade-offs

Arxiv

0+阅读 · 5月2日

Coordinated Power Management on Heterogeneous Systems

Arxiv

0+阅读 · 4月23日

On the Power Saving in High-Speed Ethernet-based Networks for Supercomputers and Data Centers

Arxiv

0+阅读 · 4月21日

Towards Energy Efficient Co-Scheduling in HPC

Arxiv

0+阅读 · 4月19日

On the energy efficiency of sparse matrix computations on multi-GPU clusters

Arxiv

0+阅读 · 4月15日

A comparative study on power delivery aspects of compute-in/near-memory approaches using DRAM

Arxiv

0+阅读 · 4月6日

Performance Isolation and Semantic Determinism in Efficient GPU Spatial Sharing

Arxiv

0+阅读 · 4月3日

A Practical Two-Stage Framework for GPU Resource and Power Prediction in Heterogeneous HPC Systems

Arxiv

0+阅读 · 4月2日

From Skew to Symmetry: Node-Interconnect Multi-Path Balancing with Execution-time Planning for Modern GPU Clusters

Arxiv

0+阅读 · 3月31日

Holistic Energy Performance Management: Enablers, Capabilities, and Features

Arxiv

0+阅读 · 3月19日

相关基金

分层异构网络面向视频流的绿色节能通信研究

国家自然科学基金

6+阅读 · 2015年12月31日

超密集分层异构网络能效增强研究

国家自然科学基金

4+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

大功率柔顺驱动器的设计方法及能量优化和交互安全机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

灵活时分波分复用无源光网络中节能调度机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

能源效率测度和资源优化配置的非参数前沿面建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于认知技术的分层异构网络能效分析与资源分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

大幅度提高纳秒太赫兹参量源输出能量和效率的研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员