Breadth-First Search (BFS) is a fundamental graph kernel that underpins a wide range of applications. While modern GPUs provide specialised Matrix-Multiply-Accumulate (MMA) units, e.g., Tensor Cores (TC), with extremely high throughput, they target dense operations, making it non-trivial to exploit them for irregular, unstructured graph computations. In particular, fully utilising them for a BFS requires an efficient mapping of the edge operations onto TCs while avoiding redundancy, load imbalance, and synchronisation. We present BLEST, a TC-accelerated framework that reformulates the pull-based BFS pipeline around a bitmap-oriented structure and a carefully engineered execution layout. BLEST introduces Binarised Virtual Slice Sets (BVSS) to enforce warp-level load balancing and to eliminate frontier-oblivious work assignment. To improve both memory efficiency and update locality across diverse graphs, we apply two complementary graph reordering strategies: a compression-oriented ordering for social-like graphs and a bandwidth-reducing ordering for non-social graphs. At the compute level, we develop a batched SpMSpV multiplication pattern that uses the bitwise TC tiles to handle dot products without wasting output entries, thereby reducing the number of required MMA calls. Finally, BLEST combines kernel fusion with a lazy vertex update scheme to reduce host-side synchronisation, mitigate atomic overheads, and improve cache locality. Experiments show that BLEST delivers, on average, $3.58\times$, $4.64\times$ and $4.9\times$ speedup over BerryBees, Gunrock, and GSWITCH, respectively, across a broad set of real-world graphs.


翻译:广度优先搜索(BFS)是支撑广泛应用的图计算核心算法。现代GPU配备了专用的矩阵乘加(MMA)单元(如张量核(TC)),其吞吐量极高,但主要针对稠密运算,难以直接用于不规则、非结构化的图计算。具体而言,为BFS充分利用张量核需要将边操作高效映射到TC上,同时避免冗余、负载不均和同步开销。本文提出BLEST,一种基于TC加速的框架,其围绕位图导向的数据结构和精心设计的执行布局重构了基于拉取(pull-based)的BFS流水线。BLEST引入二值化虚拟切片集(BVSS)以实现线程束级别的负载均衡,并消除与前沿无关的工作分配。为提升不同图结构上的内存效率与更新局部性,我们采用两种互补的图重排序策略:面向社交类图的压缩导向排序,以及面向非社交类图的带宽优化排序。在计算层面,我们设计了一种批量稀疏矩阵-稀疏向量乘法模式,利用按位TC切片处理点积运算而不浪费输出项,从而减少所需的MMA调用次数。最后,BLEST结合内核融合与惰性顶点更新方案,以降低主机端同步开销、减少原子操作代价并提升缓存局部性。实验表明,在多种真实世界图数据集上,BLEST相比BerryBees、Gunrock和GSWITCH分别平均实现了$3.58\times$、$4.64\times$和$4.9\times$的加速。

0
下载
关闭预览

相关内容

【ICML2022】Sharp-MAML:锐度感知的模型无关元学习
专知会员服务
17+阅读 · 2022年6月10日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员