Modern datacenters increasingly rely on low-power, single-slot inference accelerators to balance performance, energy efficiency, and rack density constraints. The NVIDIA T4 GPU has become widely deployed due to strong performance per watt and mature software support. Its successor, the NVIDIA L4 GPU, introduces improvements in Tensor Core throughput, cache capacity, memory bandwidth, and parallel execution capability. However, limited empirical evidence quantifies the practical inference performance gap between these two generations under controlled and reproducible conditions. This work introduces DEEP-GAP, a systematic evaluation extending the GDEV-AI methodology to GPU inference. Using identical configurations and workloads, we evaluate ResNet18, ResNet50, and ResNet101 across FP32, FP16, and INT8 precision modes using PyTorch and TensorRT. Results show that reduced precision significantly improves performance, with INT8 achieving up to 58x throughput improvement over CPU baselines. L4 achieves up to 4.4x higher throughput than T4 while reaching peak efficiency at smaller batch sizes between 16 and 32, improving latency-throughput tradeoffs for latency-sensitive workloads. T4 remains competitive for large batch workloads where cost or power efficiency is important. DEEP-GAP provides practical guidance for selecting precision modes, batch sizes, and GPU architectures for modern inference deployments.


翻译:摘要:现代数据中心日益依赖低功耗、单槽推理加速器,以平衡性能、能效与机架密度限制。NVIDIA T4 GPU凭借其出色的每瓦性能和完善的软件支持而得到广泛部署。其后续产品NVIDIA L4 GPU在张量核心吞吐量、缓存容量、内存带宽及并行执行能力方面均有改进。然而,在受控且可重复的条件下,量化这两代GPU间实际推理性能差距的实证证据仍有限。本文提出DEEP-GAP,这是一种将GDEV-AI方法论系统性地扩展到GPU推理中的评估方法。使用相同的配置与工作负载,我们基于PyTorch和TensorRT,在FP32、FP16和INT8精度模式下评估了ResNet18、ResNet50和ResNet101。结果表明,降低精度能显著提升性能,其中INT8模式相较于CPU基线实现了高达58倍的吞吐量提升。L4相比T4可实现高达4.4倍的吞吐量提升,同时在16至32的较小批量大小下达到峰值效率,优化了延迟敏感型工作负载的延迟-吞吐量权衡。对于注重成本或能效的大批量工作负载,T4仍具竞争力。DEEP-GAP为现代推理部署中选择精度模式、批量大小及GPU架构提供了实用指导。

0
下载
关闭预览

相关内容

AIGC行业深度报告:华为算力分拆:全球AI算力的第二极
专知会员服务
92+阅读 · 2023年10月10日
【ChatGPT系列报告】从算力到存力:存储芯片研究框架
专知会员服务
60+阅读 · 2023年4月5日
面向多GPU的图神经网络训练加速
专知会员服务
24+阅读 · 2023年1月19日
DPU发展分析报告(2022年),44页pdf
专知会员服务
26+阅读 · 2023年1月13日
深度神经网络 FPGA 设计进展、实现与展望
专知会员服务
59+阅读 · 2022年3月26日
深度神经网络FPGA设计进展、实现与展望
专知会员服务
36+阅读 · 2022年3月21日
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
深度学习框架大PK:TNN决战MNN,ncnn依旧经典
新智元
10+阅读 · 2020年7月3日
网络宽度对深度学习模型性能有什么影响?
极市平台
15+阅读 · 2019年7月7日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
深度学习在推荐系统上的应用
架构文摘
13+阅读 · 2018年2月22日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
尽早跑通深度学习的实践代码,是入门深度学习的最快途径
算法与数据结构
22+阅读 · 2017年12月13日
国家自然科学基金
338+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
AIGC行业深度报告:华为算力分拆:全球AI算力的第二极
专知会员服务
92+阅读 · 2023年10月10日
【ChatGPT系列报告】从算力到存力:存储芯片研究框架
专知会员服务
60+阅读 · 2023年4月5日
面向多GPU的图神经网络训练加速
专知会员服务
24+阅读 · 2023年1月19日
DPU发展分析报告(2022年),44页pdf
专知会员服务
26+阅读 · 2023年1月13日
深度神经网络 FPGA 设计进展、实现与展望
专知会员服务
59+阅读 · 2022年3月26日
深度神经网络FPGA设计进展、实现与展望
专知会员服务
36+阅读 · 2022年3月21日
相关资讯
盘点来自工业界的GPU共享方案
计算机视觉life
12+阅读 · 2021年9月2日
深度学习框架大PK:TNN决战MNN,ncnn依旧经典
新智元
10+阅读 · 2020年7月3日
网络宽度对深度学习模型性能有什么影响?
极市平台
15+阅读 · 2019年7月7日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
深度学习在推荐系统上的应用
架构文摘
13+阅读 · 2018年2月22日
深度学习的GPU:深度学习中使用GPU的经验和建议
数据挖掘入门与实战
11+阅读 · 2018年1月3日
尽早跑通深度学习的实践代码,是入门深度学习的最快途径
算法与数据结构
22+阅读 · 2017年12月13日
相关基金
国家自然科学基金
338+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员