Graph neural networks (GNNs) have achieved breakthroughs in various real-world downstream tasks due to their powerful expressiveness. As the scale of real-world graphs has been continuously growing, a storage-based approach to GNN training has been studied, which leverages external storage (e.g., NVMe SSDs) to handle such web-scale graphs on a single machine. Although such storage-based GNN training methods have shown promising potential in large-scale GNN training, we observed that they suffer from a severe bottleneck in data preparation since they overlook a critical challenge: how to handle a large number of small storage I/Os. To address the challenge, in this paper, we propose a novel storage-based GNN training framework, named AGNES, that employs a method of block-wise storage I/O processing to fully utilize the I/O bandwidth of high-performance storage devices. Moreover, to further enhance the efficiency of each storage I/O, AGNES employs a simple yet effective strategy, hyperbatch-based processing based on the characteristics of real-world graphs. Comprehensive experiments on five real-world graphs reveal that AGNES consistently outperforms four state-of-the-art methods, by up to 4.1X faster than the best competitor. Our code is available at https://github.com/Bigdasgit/agnes-kdd26.


翻译:图神经网络(GNNs)凭借其强大的表达能力,已在多种现实世界下游任务中取得突破性进展。随着现实世界图数据规模的持续增长,研究者开始探索基于存储的GNN训练方法,该方法利用外部存储设备(如NVMe固态硬盘)在单机上处理此类网络级规模的图数据。尽管此类基于存储的GNN训练方法在大规模GNN训练中展现出巨大潜力,但我们发现其数据准备阶段存在严重瓶颈,因为它们忽视了一个关键挑战:如何处理大量的小型存储I/O操作。为解决这一挑战,本文提出一种新型的基于存储的GNN训练框架AGNES,该框架采用分块式存储I/O处理方法,以充分利用高性能存储设备的I/O带宽。此外,为进一步提升每次存储I/O操作的效率,AGNES基于现实世界图数据的特性,采用了一种简单而有效的策略——基于超批量的处理方法。在五个现实世界图数据集上的综合实验表明,AGNES始终优于四种最先进的方法,其训练速度最高可达到最佳竞争方法的4.1倍。我们的代码公开于https://github.com/Bigdasgit/agnes-kdd26。

0
下载
关闭预览

相关内容

面向多GPU的图神经网络训练加速
专知会员服务
24+阅读 · 2023年1月19日
最新《图神经网络实用指南》2020论文,28页pdf
专知会员服务
222+阅读 · 2020年10月17日
【KDD2020】图神经网络生成式预训练
专知
23+阅读 · 2020年7月3日
【GNN】深度学习之上,图神经网络(GNN )崛起
产业智能官
16+阅读 · 2019年8月15日
图神经网络火了?谈下它的普适性与局限性
机器之心
22+阅读 · 2019年7月29日
Graph Neural Network(GNN)最全资源整理分享
深度学习与NLP
339+阅读 · 2019年7月9日
掌握图神经网络GNN基本,看这篇文章就够了
新智元
164+阅读 · 2019年2月14日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月27日
Arxiv
14+阅读 · 2021年7月20日
Arxiv
17+阅读 · 2019年3月28日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员