Sawtooth Wavefront Reordering: Enhanced CuTile FlashAttention on NVIDIA GB10 - 专知论文

会员服务 ·

0

排序 · 英伟达（NVIDIA） · 分析 · 内存 · 识别 ·

Sawtooth Wavefront Reordering: Enhanced CuTile FlashAttention on NVIDIA GB10

翻译：锯齿波阵面重排序：NVIDIA GB10上增强的CuTile FlashAttention

Yifan Zhu,Yekai Pan,Chen Ding

High-performance attention kernels are essential for Large Language Models. This paper presents analysis of CuTile-based Flash Attention memory behavior and a technique to improve its cache performance. In particular, our analysis on the NVIDIA GB10 (Grace Blackwell) identifies the main cause of L2 cache miss. Leveraging this insight, we introduce a new programming technique called Sawtooth Wavefront Reordering that reduces L2 misses. We validate it in both CUDA and CuTile, observing 50\% or greater reduction in L2 misses and up to 60\% increase in throughput on GB10.

翻译：高性能注意力核对于大型语言模型至关重要。本文分析了基于CuTile的FlashAttention内存行为，并提出一种提升其缓存性能的技术。具体而言，我们在NVIDIA GB10（Grace Blackwell）平台上的分析识别了L2缓存未命中的主要原因。基于这一发现，我们引入了一种称为锯齿波阵面重排序的新型编程技术，该技术可减少L2未命中。我们在CUDA和CuTile环境中均进行了验证，观察到在GB10平台上L2未命中减少50%以上，吞吐量最高提升60%。

0

相关内容

排序是计算机内经常进行的一种操作，其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序。若整个排序过程不需要访问外存便能完成，则称此类排序问题为内部排序。反之，若参加排序的记录数量很大，整个序列的排序过程不可能在内存中完成，则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。

【AAAI2026】Align3GR：面向 LLM 生成式推荐的统一多层次对齐方法

【AAAI2026】Align3GR：面向 LLM 生成式推荐的统一多层次对齐方法

专知会员服务

13+阅读 · 2025年11月17日

【博士论文】《通过提前退出算法加速大语言模型推理》

【博士论文】《通过提前退出算法加速大语言模型推理》

专知会员服务

13+阅读 · 2025年9月9日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

23+阅读 · 2024年12月27日

【ICML 2024】零阶优化器微调大模型，大幅降低内存

【ICML 2024】零阶优化器微调大模型，大幅降低内存

专知会员服务

32+阅读 · 2024年7月8日

【AAAI2024】SeTformer：视觉与语言处理的理想选择"

【AAAI2024】SeTformer：视觉与语言处理的理想选择"

专知会员服务

21+阅读 · 2024年1月13日

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

专知会员服务

21+阅读 · 2023年12月21日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

专知会员服务

24+阅读 · 2020年4月13日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

DeepMind Nando（原牛津大学教授）强化学习最新进展，含图文、公式和代码，附102页PPT下载

DeepMind Nando（原牛津大学教授）强化学习最新进展，含图文、公式和代码，附102页PPT下载

专知

18+阅读 · 2019年11月15日

英伟达Faster Transformer：作者带你揭秘BERT优化

英伟达Faster Transformer：作者带你揭秘BERT优化

机器之心

14+阅读 · 2019年9月18日

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

泡泡机器人SLAM

13+阅读 · 2019年6月13日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

SQN算法效果及代码: Breakout-ram-v4 打砖块

SQN算法效果及代码: Breakout-ram-v4 打砖块

CreateAMind

12+阅读 · 2019年1月21日

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

泡泡机器人SLAM

24+阅读 · 2018年9月18日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

三维堆叠DRAM的低功耗刷新技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

用于微流体驱动的微纳米多级沟槽结构的飞秒激光制备技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

用于2D/3D切换显示的可调液体柱透镜阵列研究

国家自然科学基金

0+阅读 · 2015年12月31日

高速相干光OFDM通信系统基于Viterbi算法最大似然序列检测的噪声补偿算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高速冲击破碎问题的Hamilton粒子重构单元方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于全数字化的闪烁脉冲时间标记

国家自然科学基金

1+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

FlashMem: Supporting Modern DNN Workloads on Mobile with GPU Memory Hierarchy Optimizations

Arxiv

0+阅读 · 2月17日

Cognitive Chunking for Soft Prompts: Accelerating Compressor Learning via Block-wise Causal Masking

Arxiv

0+阅读 · 2月15日

FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing

Arxiv

0+阅读 · 2月13日

From Buffers to Registers: Unlocking Fine-Grained FlashAttention with Hybrid-Bonded 3D NPU Co-Design

Arxiv

0+阅读 · 2月11日

Flare: Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale

Arxiv

0+阅读 · 2月9日

H-FA: A Hybrid Floating-Point and Logarithmic Approach to Hardware Accelerated FlashAttention

Arxiv

0+阅读 · 2月9日

FlashBlock: Attention Caching for Efficient Long-Context Block Diffusion

Arxiv

0+阅读 · 2月6日

DFlash: Block Diffusion for Flash Speculative Decoding

Arxiv

0+阅读 · 2月5日

Sawtooth Wavefront Reordering: Enhanced CuTile FlashAttention on NVIDIA GB10

Arxiv

0+阅读 · 1月26日

SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

英伟达（NVIDIA）

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

【AAAI2026】Align3GR：面向 LLM 生成式推荐的统一多层次对齐方法

【AAAI2026】Align3GR：面向 LLM 生成式推荐的统一多层次对齐方法

专知会员服务

13+阅读 · 2025年11月17日

【博士论文】《通过提前退出算法加速大语言模型推理》

【博士论文】《通过提前退出算法加速大语言模型推理》

专知会员服务

13+阅读 · 2025年9月9日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

23+阅读 · 2024年12月27日

【ICML 2024】零阶优化器微调大模型，大幅降低内存

【ICML 2024】零阶优化器微调大模型，大幅降低内存

专知会员服务

32+阅读 · 2024年7月8日

【AAAI2024】SeTformer：视觉与语言处理的理想选择"

【AAAI2024】SeTformer：视觉与语言处理的理想选择"

专知会员服务

21+阅读 · 2024年1月13日

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

专知会员服务

21+阅读 · 2023年12月21日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

【华为-诺亚实验室】动态BERT, Dynamic BERT with Adaptive Width and Depth

专知会员服务

24+阅读 · 2020年4月13日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

DeepMind Nando（原牛津大学教授）强化学习最新进展，含图文、公式和代码，附102页PPT下载

DeepMind Nando（原牛津大学教授）强化学习最新进展，含图文、公式和代码，附102页PPT下载

专知

18+阅读 · 2019年11月15日

英伟达Faster Transformer：作者带你揭秘BERT优化

英伟达Faster Transformer：作者带你揭秘BERT优化

机器之心

14+阅读 · 2019年9月18日

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

【泡泡图灵智库】FlowNet3D:在三维点云中学习场景流（CVPR）

泡泡机器人SLAM

13+阅读 · 2019年6月13日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

SQN算法效果及代码: Breakout-ram-v4 打砖块

SQN算法效果及代码: Breakout-ram-v4 打砖块

CreateAMind

12+阅读 · 2019年1月21日

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

泡泡机器人SLAM

24+阅读 · 2018年9月18日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关论文

FlashMem: Supporting Modern DNN Workloads on Mobile with GPU Memory Hierarchy Optimizations

Arxiv

0+阅读 · 2月17日

Cognitive Chunking for Soft Prompts: Accelerating Compressor Learning via Block-wise Causal Masking

Arxiv

0+阅读 · 2月15日

FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing

Arxiv

0+阅读 · 2月13日

From Buffers to Registers: Unlocking Fine-Grained FlashAttention with Hybrid-Bonded 3D NPU Co-Design

Arxiv

0+阅读 · 2月11日

Flare: Anomaly Diagnostics for Divergent LLM Training in GPU Clusters of Thousand-Plus Scale

Arxiv

0+阅读 · 2月9日

H-FA: A Hybrid Floating-Point and Logarithmic Approach to Hardware Accelerated FlashAttention

Arxiv

0+阅读 · 2月9日

FlashBlock: Attention Caching for Efficient Long-Context Block Diffusion

Arxiv

0+阅读 · 2月6日

DFlash: Block Diffusion for Flash Speculative Decoding

Arxiv

0+阅读 · 2月5日

Sawtooth Wavefront Reordering: Enhanced CuTile FlashAttention on NVIDIA GB10

Arxiv

0+阅读 · 1月26日

SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training

Arxiv

0+阅读 · 1月14日

相关基金

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

三维堆叠DRAM的低功耗刷新技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

用于微流体驱动的微纳米多级沟槽结构的飞秒激光制备技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

用于2D/3D切换显示的可调液体柱透镜阵列研究

国家自然科学基金

0+阅读 · 2015年12月31日

高速相干光OFDM通信系统基于Viterbi算法最大似然序列检测的噪声补偿算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高速冲击破碎问题的Hamilton粒子重构单元方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于全数字化的闪烁脉冲时间标记

国家自然科学基金

1+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员