DEEP-GAP: Deep-learning Evaluation of Execution Parallelism in GPU Architectural Performance - 专知论文

会员服务 ·

0

GPU · Performer · 推断 · 查准率/准确率 · Performance ·

DEEP-GAP: Deep-learning Evaluation of Execution Parallelism in GPU Architectural Performance

翻译：标题：DEEP-GAP：基于深度学习的GPU架构性能中执行并行性评估

Kathiravan Palaniappan

from arxiv, 16 pages, 42 figures. Evaluation of inference performance on NVIDIA T4 and L4 GPUs across precision modes (FP32, FP16, INT8)

Modern datacenters increasingly rely on low-power, single-slot inference accelerators to balance performance, energy efficiency, and rack density constraints. The NVIDIA T4 GPU has become widely deployed due to strong performance per watt and mature software support. Its successor, the NVIDIA L4 GPU, introduces improvements in Tensor Core throughput, cache capacity, memory bandwidth, and parallel execution capability. However, limited empirical evidence quantifies the practical inference performance gap between these two generations under controlled and reproducible conditions. This work introduces DEEP-GAP, a systematic evaluation extending the GDEV-AI methodology to GPU inference. Using identical configurations and workloads, we evaluate ResNet18, ResNet50, and ResNet101 across FP32, FP16, and INT8 precision modes using PyTorch and TensorRT. Results show that reduced precision significantly improves performance, with INT8 achieving up to 58x throughput improvement over CPU baselines. L4 achieves up to 4.4x higher throughput than T4 while reaching peak efficiency at smaller batch sizes between 16 and 32, improving latency-throughput tradeoffs for latency-sensitive workloads. T4 remains competitive for large batch workloads where cost or power efficiency is important. DEEP-GAP provides practical guidance for selecting precision modes, batch sizes, and GPU architectures for modern inference deployments.

翻译：摘要：现代数据中心日益依赖低功耗、单槽推理加速器，以平衡性能、能效与机架密度限制。NVIDIA T4 GPU凭借其出色的每瓦性能和完善的软件支持而得到广泛部署。其后续产品NVIDIA L4 GPU在张量核心吞吐量、缓存容量、内存带宽及并行执行能力方面均有改进。然而，在受控且可重复的条件下，量化这两代GPU间实际推理性能差距的实证证据仍有限。本文提出DEEP-GAP，这是一种将GDEV-AI方法论系统性地扩展到GPU推理中的评估方法。使用相同的配置与工作负载，我们基于PyTorch和TensorRT，在FP32、FP16和INT8精度模式下评估了ResNet18、ResNet50和ResNet101。结果表明，降低精度能显著提升性能，其中INT8模式相较于CPU基线实现了高达58倍的吞吐量提升。L4相比T4可实现高达4.4倍的吞吐量提升，同时在16至32的较小批量大小下达到峰值效率，优化了延迟敏感型工作负载的延迟-吞吐量权衡。对于注重成本或能效的大批量工作负载，T4仍具竞争力。DEEP-GAP为现代推理部署中选择精度模式、批量大小及GPU架构提供了实用指导。

0

相关内容

GPU

AIGC行业深度报告：华为算力分拆：全球AI算力的第二极

AIGC行业深度报告：华为算力分拆：全球AI算力的第二极

专知会员服务

92+阅读 · 2023年10月10日

【报告】解析英伟达成长的核心战略：研发为底、生态为径、AI为翼

【报告】解析英伟达成长的核心战略：研发为底、生态为径、AI为翼

专知会员服务

48+阅读 · 2023年5月25日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知会员服务

89+阅读 · 2023年4月6日

【ChatGPT系列报告】从算力到存力：存储芯片研究框架

【ChatGPT系列报告】从算力到存力：存储芯片研究框架

专知会员服务

60+阅读 · 2023年4月5日

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

专知会员服务

122+阅读 · 2023年2月18日

面向多GPU的图神经网络训练加速

面向多GPU的图神经网络训练加速

专知会员服务

24+阅读 · 2023年1月19日

DPU发展分析报告（2022年），44页pdf

DPU发展分析报告（2022年），44页pdf

专知会员服务

26+阅读 · 2023年1月13日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

深度神经网络 FPGA 设计进展、实现与展望

深度神经网络 FPGA 设计进展、实现与展望

专知会员服务

59+阅读 · 2022年3月26日

深度神经网络FPGA设计进展、实现与展望

深度神经网络FPGA设计进展、实现与展望

专知会员服务

36+阅读 · 2022年3月21日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

深度学习框架大PK：TNN决战MNN，ncnn依旧经典

深度学习框架大PK：TNN决战MNN，ncnn依旧经典

新智元

10+阅读 · 2020年7月3日

网络宽度对深度学习模型性能有什么影响？

网络宽度对深度学习模型性能有什么影响？

极市平台

15+阅读 · 2019年7月7日

深度学习应用在图像匹配的效果如何？

深度学习应用在图像匹配的效果如何？

中国图象图形学报

10+阅读 · 2019年6月11日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

深度学习在推荐系统上的应用

深度学习在推荐系统上的应用

架构文摘

13+阅读 · 2018年2月22日

【书籍】深度学习框架：PyTorch入门与实践（附代码）

【书籍】深度学习框架：PyTorch入门与实践（附代码）

专知

16+阅读 · 2018年1月21日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

算法与数据结构

22+阅读 · 2017年12月13日

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

338+阅读 · 2017年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

A comprehensive evaluation of spatial co-execution on GPUs using MPS and MIG technologies

Arxiv

0+阅读 · 4月29日

PipeWeave: Synergizing Analytical and Learning Models for Unified GPU Performance Prediction

Arxiv

0+阅读 · 4月28日

GPU Memory and Utilization Estimation for Training-Aware Resource Management: Opportunities and Limitations

Arxiv

0+阅读 · 4月27日

Evaluating CUDA Tile for AI Workloads on Hopper and Blackwell GPUs

Arxiv

0+阅读 · 4月25日

Maximizing Memory-Level Parallelism via Integrated Stochastic Logic-in-Memory Architectures

Arxiv

0+阅读 · 4月25日

A comprehensive evaluation of spatial co-execution on GPUs using MPS and MIG technologies

Arxiv

0+阅读 · 4月24日

Record-Remix-Replay: Hierarchical GPU Kernel Optimization using Evolutionary Search

Arxiv

0+阅读 · 4月13日

Performance Isolation and Semantic Determinism in Efficient GPU Spatial Sharing

Arxiv

0+阅读 · 4月3日

Efficient Graph Embedding at Scale: Optimizing CPU-GPU-SSD Integration

Arxiv

0+阅读 · 3月12日

Microbenchmarking NVIDIA's Blackwell Architecture: An in-depth Architectural Analysis

Arxiv

0+阅读 · 3月2日

VIP会员

文章信息

相关主题

查准率/准确率

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

2+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

2+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

AIGC行业深度报告：华为算力分拆：全球AI算力的第二极

AIGC行业深度报告：华为算力分拆：全球AI算力的第二极

专知会员服务

92+阅读 · 2023年10月10日

【报告】解析英伟达成长的核心战略：研发为底、生态为径、AI为翼

【报告】解析英伟达成长的核心战略：研发为底、生态为径、AI为翼

专知会员服务

48+阅读 · 2023年5月25日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知会员服务

89+阅读 · 2023年4月6日

【ChatGPT系列报告】从算力到存力：存储芯片研究框架

【ChatGPT系列报告】从算力到存力：存储芯片研究框架

专知会员服务

60+阅读 · 2023年4月5日

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

专知会员服务

122+阅读 · 2023年2月18日

面向多GPU的图神经网络训练加速

面向多GPU的图神经网络训练加速

专知会员服务

24+阅读 · 2023年1月19日

DPU发展分析报告（2022年），44页pdf

DPU发展分析报告（2022年），44页pdf

专知会员服务

26+阅读 · 2023年1月13日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

深度神经网络 FPGA 设计进展、实现与展望

深度神经网络 FPGA 设计进展、实现与展望

专知会员服务

59+阅读 · 2022年3月26日

深度神经网络FPGA设计进展、实现与展望

深度神经网络FPGA设计进展、实现与展望

专知会员服务

36+阅读 · 2022年3月21日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

深度学习框架大PK：TNN决战MNN，ncnn依旧经典

深度学习框架大PK：TNN决战MNN，ncnn依旧经典

新智元

10+阅读 · 2020年7月3日

网络宽度对深度学习模型性能有什么影响？

网络宽度对深度学习模型性能有什么影响？

极市平台

15+阅读 · 2019年7月7日

深度学习应用在图像匹配的效果如何？

深度学习应用在图像匹配的效果如何？

中国图象图形学报

10+阅读 · 2019年6月11日

如何设计基于深度学习的图像压缩算法

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

深度学习在推荐系统上的应用

深度学习在推荐系统上的应用

架构文摘

13+阅读 · 2018年2月22日

【书籍】深度学习框架：PyTorch入门与实践（附代码）

【书籍】深度学习框架：PyTorch入门与实践（附代码）

专知

16+阅读 · 2018年1月21日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

算法与数据结构

22+阅读 · 2017年12月13日

相关论文

A comprehensive evaluation of spatial co-execution on GPUs using MPS and MIG technologies

Arxiv

0+阅读 · 4月29日

PipeWeave: Synergizing Analytical and Learning Models for Unified GPU Performance Prediction

Arxiv

0+阅读 · 4月28日

GPU Memory and Utilization Estimation for Training-Aware Resource Management: Opportunities and Limitations

Arxiv

0+阅读 · 4月27日

Evaluating CUDA Tile for AI Workloads on Hopper and Blackwell GPUs

Arxiv

0+阅读 · 4月25日

Maximizing Memory-Level Parallelism via Integrated Stochastic Logic-in-Memory Architectures

Arxiv

0+阅读 · 4月25日

A comprehensive evaluation of spatial co-execution on GPUs using MPS and MIG technologies

Arxiv

0+阅读 · 4月24日

Record-Remix-Replay: Hierarchical GPU Kernel Optimization using Evolutionary Search

Arxiv

0+阅读 · 4月13日

Performance Isolation and Semantic Determinism in Efficient GPU Spatial Sharing

Arxiv

0+阅读 · 4月3日

Efficient Graph Embedding at Scale: Optimizing CPU-GPU-SSD Integration

Arxiv

0+阅读 · 3月12日

Microbenchmarking NVIDIA's Blackwell Architecture: An in-depth Architectural Analysis

Arxiv

0+阅读 · 3月2日

相关基金

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

338+阅读 · 2017年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员