The push for greater efficiency in AI computation has given rise to an array of accelerator architectures that increasingly challenge the GPU's long-standing dominance. In this work, we provide a quantitative view of this evolving landscape of AI accelerators, including the Cerebras CS-3, SambaNova SN-40, Groq, Gaudi, and TPUv5e platforms, and compare against both NVIDIA (A100, H100) and AMD (MI-300X) GPUs. We evaluate key trade-offs in latency, throughput, power consumption, and energy-efficiency across both (i) end-to-end workloads and (ii) benchmarks of individual computational primitives. Notably, we find the optimal hardware platform varies across batch size, sequence length, and model size, revealing a large underlying optimization space. Our analysis includes detailed power measurements across the prefill and decode phases of LLM inference, as well as quantification of the energy cost of communication. We additionally find that Cerebras, SambaNova, and Gaudi have 10-60% higher idle power than NVIDIA and AMD GPUs, emphasizing the importance of high utilization in order to realize promised efficiency gains. Finally, we assess programmability across platforms based on our experiments with real profiled workloads, comparing the compilation times and software stack maturity required to achieve promised performance.


翻译:人工智能计算追求更高效率的推动催生了大量加速器架构,这些架构日益挑战GPU长期以来的主导地位。本文对AI加速器的演化格局进行了量化分析,涵盖Cerebras CS-3、SambaNova SN-40、Groq、Gaudi和TPUv5e平台,并与NVIDIA(A100、H100)及AMD(MI-300X)GPU进行对比。我们评估了(i)端到端工作负载与(ii)单个计算原语基准测试中延迟、吞吐量、功耗和能效的关键权衡。值得注意的是,我们发现最优硬件平台随批处理大小、序列长度和模型规模而变化,揭示了巨大的底层优化空间。分析包含LLM推理预填充和解码阶段的详细功耗测量,以及通信能量成本的量化。此外,我们发现Cerebras、SambaNova和Gaudi的空闲功耗比NVIDIA和AMD GPU高10-60%,凸显了高利用率对于实现预期效率提升的重要性。最后,基于真实剖析工作负载的实验,我们评估了各平台的可编程性,比较了实现预期性能所需的编译时间和软件栈成熟度。

0
下载
关闭预览

相关内容

《人工智能暗战:SaaS与边缘计算架构之争》
专知会员服务
14+阅读 · 2025年7月23日
完备的 AI 学习路线,最详细的资源整理!
新智元
18+阅读 · 2019年5月4日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
从0到1,这篇深度学习综述送给你!
机器学习算法与Python学习
27+阅读 · 2018年6月13日
超全总结:神经网络加速之量化模型 | 附带代码
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月23日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
《人工智能暗战:SaaS与边缘计算架构之争》
专知会员服务
14+阅读 · 2025年7月23日
相关资讯
完备的 AI 学习路线,最详细的资源整理!
新智元
18+阅读 · 2019年5月4日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
从0到1,这篇深度学习综述送给你!
机器学习算法与Python学习
27+阅读 · 2018年6月13日
超全总结:神经网络加速之量化模型 | 附带代码
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员