Execution-Centric Characterization of FP8 Matrix Cores, Asynchronous Execution, and Structured Sparsity on AMD MI300A - 专知论文

会员服务 ·

0

稀疏 · 稀疏性 · 结构 · 结构化 · AMD ·

Execution-Centric Characterization of FP8 Matrix Cores, Asynchronous Execution, and Structured Sparsity on AMD MI300A

翻译：AMD MI300A 中 FP8 矩阵核心、异步执行与结构化稀疏性的执行中心化表征

Aaron Jarmusch,Connor Vitz,Sunita Chandrasekaran

The AMD MI300A APU integrates CDNA3 GPUs with high-bandwidth memory and advanced accelerator features: FP8 matrix cores, asynchronous compute engines (ACE), and 2:4 structured sparsity. These capabilities are increasingly relied upon by modern HPC and HPC-AI workloads, yet their execution characteristics and system-level implications remain insufficiently understood. In this paper, we present an execution-centric characterization of FP8 matrix execution, ACE concurrency, and structured sparsity on MI300A using targeted microbenchmarks. We quantify occupancy thresholds, fairness, throughput trade-offs under concurrent execution, and context-dependent sparsity benefits. We evaluate representative case studies - transformer-style, concurrent, and mixed-precision kernels - to show how these effects translate into application-level performance and predictability. Our results provide practical guidance for occupancy-aware scheduling, concurrency decisions, and sparsity enablement on MI300A-class unified nodes.

翻译：AMD MI300A APU 集成了 CDNA3 GPU、高带宽内存及先进的加速器特性：FP8 矩阵核心、异步计算引擎（ACE）以及 2:4 结构化稀疏性。现代高性能计算（HPC）与 HPC-AI 工作负载日益依赖这些能力，然而其执行特性与系统级影响仍未得到充分理解。本文通过针对性微基准测试，对 MI300A 上的 FP8 矩阵执行、ACE 并发性及结构化稀疏性进行了以执行中心化的表征。我们量化了占用率阈值、公平性、并发执行下的吞吐量权衡，以及上下文相关的稀疏性收益。我们评估了代表性案例研究——类 Transformer、并发及混合精度内核——以展示这些效应如何转化为应用级性能与可预测性。我们的结果为 MI300A 类统一节点上基于占用率的调度、并发决策及稀疏性启用提供了实用指导。

0

相关内容

【AIGC行业深度报告】ChatGPT:国内算力，拐点之时，52页ppt

【AIGC行业深度报告】ChatGPT:国内算力，拐点之时，52页ppt

专知会员服务

44+阅读 · 2023年8月16日

【报告】解析英伟达成长的核心战略：研发为底、生态为径、AI为翼

【报告】解析英伟达成长的核心战略：研发为底、生态为径、AI为翼

专知会员服务

48+阅读 · 2023年5月25日

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

专知会员服务

121+阅读 · 2023年2月18日

【TPAMI2023】基于条件生成对抗网络和集成主动学习的有监督异常检测

【TPAMI2023】基于条件生成对抗网络和集成主动学习的有监督异常检测

专知会员服务

24+阅读 · 2023年1月29日

DPU发展分析报告（2022年），44页pdf

DPU发展分析报告（2022年），44页pdf

专知会员服务

26+阅读 · 2023年1月13日

【博士论文】面向分布式深度学习的数据中心网络拓扑优化和流量调度

【博士论文】面向分布式深度学习的数据中心网络拓扑优化和流量调度

专知会员服务

29+阅读 · 2022年12月30日

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

专知会员服务

65+阅读 · 2022年3月6日

中科院计算所牵头发布《专⽤数据处理器DPU技术白皮书》，94页pdf

中科院计算所牵头发布《专⽤数据处理器DPU技术白皮书》，94页pdf

专知会员服务

91+阅读 · 2021年10月24日

处理器芯片敏捷设计方法：问题与挑战

专知会员服务

19+阅读 · 2021年6月29日

异构混合并行计算综述

专知会员服务

42+阅读 · 2020年8月14日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

专知

67+阅读 · 2022年4月9日

【硬核书】Linux核心编程|Linux Kernel Programming，741页pdf

【硬核书】Linux核心编程|Linux Kernel Programming，741页pdf

专知

13+阅读 · 2021年3月26日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

【数据中台】数据中台技术架构方案

【数据中台】数据中台技术架构方案

产业智能官

15+阅读 · 2020年5月26日

初学者系列：Attentional Factorization Machines（AFM）详解

初学者系列：Attentional Factorization Machines（AFM）详解

专知

82+阅读 · 2019年9月16日

中科院牛津华为诺亚提出：CenterNet，One-stage目标检测最强算法！可达47mAP，已开源！

中科院牛津华为诺亚提出：CenterNet，One-stage目标检测最强算法！可达47mAP，已开源！

极市平台

19+阅读 · 2019年4月18日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

全解：目标检测，图像分类、分割、生成……

全解：目标检测，图像分类、分割、生成……

全球人工智能

20+阅读 · 2017年9月15日

骨髓源性巨噬细胞microRNA-155对动脉粥样硬化的调控机制

国家自然科学基金

0+阅读 · 2016年12月31日

异构众核处理器非对称片上互连网络研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构体系结构的稀疏矩阵分解算法并行化研究

国家自然科学基金

1+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

纳米线阵列结构碲化铋基热电材料的费米面与界面调控及输运性能研究

国家自然科学基金

0+阅读 · 2014年12月31日

KernelFoundry: Hardware-aware evolutionary GPU kernel optimization

Arxiv

0+阅读 · 3月12日

ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs

Arxiv

0+阅读 · 3月8日

W4A16 Mixed-Precision Matrix Multiplication on Decoupled Architecture: Kernel Design and Memory Bottleneck Analysis for Ascend NPUs

Arxiv

0+阅读 · 3月3日

Microbenchmarking NVIDIA's Blackwell Architecture: An in-depth Architectural Analysis

Arxiv

0+阅读 · 3月2日

A Granularity Characterization of Task Scheduling Effectiveness

Arxiv

0+阅读 · 2月24日

Characterizing Production GPU Workloads using System-wide Telemetry Data

Arxiv

0+阅读 · 2月24日

The Landscape of GPU-Centric Communication

Arxiv

0+阅读 · 2月22日

Joint Training on AMD and NVIDIA GPUs

Arxiv

0+阅读 · 2月20日

ABI: A tightly integrated, unified, sparsity-aware, reconfigurable, compute near-register file/cache GPU architecture with light-weight softmax for deep learning, linear algebra, and Ising compute

Arxiv

0+阅读 · 2月15日

The Avatar Cache: Enabling On-Demand Security with Morphable Cache Architecture

Arxiv

0+阅读 · 2月6日

VIP会员

文章信息

相关主题

最新内容

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

3+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

4+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

2+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

1+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

3+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

2+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

1+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

12+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

8+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

相关VIP内容

【AIGC行业深度报告】ChatGPT:国内算力，拐点之时，52页ppt

【AIGC行业深度报告】ChatGPT:国内算力，拐点之时，52页ppt

专知会员服务

44+阅读 · 2023年8月16日

【报告】解析英伟达成长的核心战略：研发为底、生态为径、AI为翼

【报告】解析英伟达成长的核心战略：研发为底、生态为径、AI为翼

专知会员服务

48+阅读 · 2023年5月25日

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

【ChatGPT系列报告】ChatGPT的“背后英雄”，100页报告看懂GPU

专知会员服务

121+阅读 · 2023年2月18日

【TPAMI2023】基于条件生成对抗网络和集成主动学习的有监督异常检测

【TPAMI2023】基于条件生成对抗网络和集成主动学习的有监督异常检测

专知会员服务

24+阅读 · 2023年1月29日

DPU发展分析报告（2022年），44页pdf

DPU发展分析报告（2022年），44页pdf

专知会员服务

26+阅读 · 2023年1月13日

【博士论文】面向分布式深度学习的数据中心网络拓扑优化和流量调度

【博士论文】面向分布式深度学习的数据中心网络拓扑优化和流量调度

专知会员服务

29+阅读 · 2022年12月30日

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

「AI芯片/GPU/NPU/DSP专用处理器」技术特征比较分析最新2022综述论文

专知会员服务

65+阅读 · 2022年3月6日

中科院计算所牵头发布《专⽤数据处理器DPU技术白皮书》，94页pdf

中科院计算所牵头发布《专⽤数据处理器DPU技术白皮书》，94页pdf

专知会员服务

91+阅读 · 2021年10月24日

处理器芯片敏捷设计方法：问题与挑战

专知会员服务

19+阅读 · 2021年6月29日

异构混合并行计算综述

专知会员服务

42+阅读 · 2020年8月14日

热门VIP内容

开通专知VIP会员享更多权益服务

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

相关资讯

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

《以 CBM+ 和 PHM 为中心的数字孪生作战系统架构》美国海军研究生院最新论文，150页pdf

专知

67+阅读 · 2022年4月9日

【硬核书】Linux核心编程|Linux Kernel Programming，741页pdf

【硬核书】Linux核心编程|Linux Kernel Programming，741页pdf

专知

13+阅读 · 2021年3月26日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

【数据中台】数据中台技术架构方案

【数据中台】数据中台技术架构方案

产业智能官

15+阅读 · 2020年5月26日

初学者系列：Attentional Factorization Machines（AFM）详解

初学者系列：Attentional Factorization Machines（AFM）详解

专知

82+阅读 · 2019年9月16日

中科院牛津华为诺亚提出：CenterNet，One-stage目标检测最强算法！可达47mAP，已开源！

中科院牛津华为诺亚提出：CenterNet，One-stage目标检测最强算法！可达47mAP，已开源！

极市平台

19+阅读 · 2019年4月18日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

全解：目标检测，图像分类、分割、生成……

全解：目标检测，图像分类、分割、生成……

全球人工智能

20+阅读 · 2017年9月15日

相关论文

KernelFoundry: Hardware-aware evolutionary GPU kernel optimization

Arxiv

0+阅读 · 3月12日

ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs

Arxiv

0+阅读 · 3月8日

W4A16 Mixed-Precision Matrix Multiplication on Decoupled Architecture: Kernel Design and Memory Bottleneck Analysis for Ascend NPUs

Arxiv

0+阅读 · 3月3日

Microbenchmarking NVIDIA's Blackwell Architecture: An in-depth Architectural Analysis

Arxiv

0+阅读 · 3月2日

A Granularity Characterization of Task Scheduling Effectiveness

Arxiv

0+阅读 · 2月24日

Characterizing Production GPU Workloads using System-wide Telemetry Data

Arxiv

0+阅读 · 2月24日

The Landscape of GPU-Centric Communication

Arxiv

0+阅读 · 2月22日

Joint Training on AMD and NVIDIA GPUs

Arxiv

0+阅读 · 2月20日

ABI: A tightly integrated, unified, sparsity-aware, reconfigurable, compute near-register file/cache GPU architecture with light-weight softmax for deep learning, linear algebra, and Ising compute

Arxiv

0+阅读 · 2月15日

The Avatar Cache: Enabling On-Demand Security with Morphable Cache Architecture

Arxiv

0+阅读 · 2月6日

相关基金

骨髓源性巨噬细胞microRNA-155对动脉粥样硬化的调控机制

国家自然科学基金

0+阅读 · 2016年12月31日

异构众核处理器非对称片上互连网络研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于异构体系结构的稀疏矩阵分解算法并行化研究

国家自然科学基金

1+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

纳米线阵列结构碲化铋基热电材料的费米面与界面调控及输运性能研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员