Graph Neural Networks (GNNs) are widely used today in recommendation systems, fraud detection, and node/link classification tasks. Real world GNNs continue to scale in size and require a large memory footprint for storing graphs and embeddings that often exceed the memory capacities of the target GPUs used for training. To address limited memory capacities, traditional GNN training approaches use graph partitioning and sharding techniques to scale up across multiple GPUs within a node and/or scale out across multiple nodes. However, this approach suffers from the high computational costs of graph partitioning algorithms and inefficient communication across GPUs. To address these overheads, we propose Large-scale Storage-based Multi-GPU GNN framework (LSM-GNN), a storage-based approach to train GNN models that utilizes a novel communication layer enabling GPU software caches to function as a system-wide shared cache with low overheads. LSM-GNN incorporates a hybrid eviction policy that intelligently manages cache space by using both static and dynamic node information to significantly enhance cache performance. Furthermore, we introduce the Preemptive Victim-buffer Prefetcher (PVP), a mechanism for prefetching node feature data from a Victim Buffer located in CPU pinned-memory to further reduce the pressure on the storage devices. Experimental results show that despite the lower compute capabilities and memory capacities, LSM-GNN in a single node with two GPUs offers superior performance over two-node-four-GPU Dist-DGL baseline and provides up to 3.75x speed up on end-to-end epoch time while running large-scale GNN training


翻译:图神经网络(GNN)如今广泛应用于推荐系统、欺诈检测以及节点/边分类任务。现实世界的GNN规模持续增大,存储图和嵌入向量所需的内存足迹庞大,常常超过训练所用目标GPU的内存容量。为应对有限内存容量问题,传统GNN训练方法采用图分区与分片技术,以在单节点内跨多GPU扩展或在多节点间横向扩展。然而,此类方法受限于图分区算法的高计算开销以及GPU间低效的通信。为解决这些额外开销,我们提出基于大容量存储的多GPU图神经网络框架LSM-GNN,这是一种基于存储的GNN模型训练方法。该方法利用新型通信层,使GPU软件缓存能够以低开销实现系统级共享缓存。LSM-GNN引入混合淘汰策略,通过同时利用静态与动态节点信息智能管理缓存空间,显著提升缓存性能。此外,我们提出抢占式受害者缓冲区预取器(PVP),该机制可从位于CPU固定内存中的受害者缓冲区预取节点特征数据,进一步减轻存储设备压力。实验结果表明,尽管单节点双GPU配置下LSM-GNN的计算能力与内存容量较低,但其在端到端周期时间上相较于分布式两节点四GPU的Dist-DGL基线展现出更优性能,并在大规模GNN训练中实现了最高3.75倍的加速。

0
下载
关闭预览

相关内容

【图神经网络(GNN)结构化数据分析】
专知会员服务
117+阅读 · 2020年3月22日
【GNN】深度学习之上,图神经网络(GNN )崛起
产业智能官
16+阅读 · 2019年8月15日
Graph Neural Network(GNN)最全资源整理分享
深度学习与NLP
339+阅读 · 2019年7月9日
掌握图神经网络GNN基本,看这篇文章就够了
新智元
164+阅读 · 2019年2月14日
清华NLP组图深度学习推荐,146篇必读GNN最新论文
中国人工智能学会
28+阅读 · 2018年12月29日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关主题
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
9+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
【图神经网络(GNN)结构化数据分析】
专知会员服务
117+阅读 · 2020年3月22日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员