CaPGNN: Optimizing Parallel Graph Neural Network Training with Joint Caching and Resource-Aware Graph Partitioning - 专知论文

会员服务 ·

0

并行 · GPU · 图划分 · 划分 · 神经网络训练 ·

CaPGNN: Optimizing Parallel Graph Neural Network Training with Joint Caching and Resource-Aware Graph Partitioning

翻译：CaPGNN：通过联合缓存与资源感知图划分优化并行图神经网络训练

Xianfeng Song,Yi Zou,Zheng Shi

Graph-structured data is ubiquitous in the real world, and Graph Neural Networks (GNNs) have become increasingly popular in various fields due to their ability to process such irregular data directly. However, as data scale, GNNs become inefficient. Although parallel training offers performance improvements, increased communication costs often offset these advantages. To address this, this paper introduces CaPGNN, a novel parallel full-batch GNN training framework on single-server with multi-GPU. Firstly, considering the fact that the number of remote vertices in a partition is often greater than or equal to the number of local vertices and there may exist many duplicate vertices, we propose a joint adaptive caching algorithm that leverages both CPU and GPU memory, integrating lightweight cache update and prefetch techniques to effectively reduce redundant communication costs. Furthermore, taking into account the varying computational and communication capabilities among GPUs, we propose a communication- and computation-aware heuristic graph partitioning algorithm inspired by graph sparsification. Additionally, we implement a pipeline to overlap computation and communication. Extensive experiments show that CaPGNN improves training efficiency by up to 18.98x and reduces communication costs by up to 99%, with minimal accuracy loss or even accuracy improvement in some cases. Finally, we extend CaPGNN to multi-machine multi-GPU environments. The code is available at https://github.com/songxf1024/CaPGNN.

翻译：图结构数据在现实世界中无处不在，图神经网络因其能够直接处理此类不规则数据而在各领域日益普及。然而，随着数据规模扩大，图神经网络的训练效率会降低。尽管并行训练能提升性能，但增加的通信开销往往抵消了这些优势。为此，本文提出CaPGNN，一种在单服务器多GPU环境下的新型并行全批次图神经网络训练框架。首先，考虑到分区中远程顶点数量通常大于或等于本地顶点数量，且可能存在大量重复顶点，我们提出一种联合自适应缓存算法，该算法同时利用CPU与GPU内存，并集成轻量级缓存更新与预取技术，以有效降低冗余通信开销。此外，考虑到不同GPU之间计算与通信能力的差异，我们受图稀疏化启发，提出一种通信与计算感知的启发式图划分算法。同时，我们实现了计算与通信重叠的流水线机制。大量实验表明，CaPGNN最高可将训练效率提升18.98倍，通信开销降低达99%，且精度损失极小，部分情况下甚至能提升精度。最后，我们将CaPGNN扩展至多机多GPU环境。代码开源地址：https://github.com/songxf1024/CaPGNN。

0

相关内容

面向多GPU的图神经网络训练加速

面向多GPU的图神经网络训练加速

专知会员服务

24+阅读 · 2023年1月19日

大“GNN”如何学习？北邮最新《分布式图神经网络》综述，35页pdf阐述分布式GNN训练算法和系统

大“GNN”如何学习？北邮最新《分布式图神经网络》综述，35页pdf阐述分布式GNN训练算法和系统

专知会员服务

53+阅读 · 2022年11月2日

「图神经网络GNN:模型与应用」最新SDM2021-Tutorial，附视频与203页ppt

专知会员服务

93+阅读 · 2021年5月1日

【AAAI2021-Tutorial】图神经网络GNN:模型与应用，附视频与291页ppt

【AAAI2021-Tutorial】图神经网络GNN:模型与应用，附视频与291页ppt

专知会员服务

178+阅读 · 2021年2月6日

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

【清华大学】图随机神经网络，Graph Random Neural Networks

【清华大学】图随机神经网络，Graph Random Neural Networks

专知会员服务

156+阅读 · 2020年5月26日

具有组合核的图神经网络，Graph Neural Networks with Composite Kernels

具有组合核的图神经网络，Graph Neural Networks with Composite Kernels

专知会员服务

59+阅读 · 2020年5月20日

【CMU】图卷积神经网络中的池化综述，Pooling in Graph Convolutional Neural Network

【CMU】图卷积神经网络中的池化综述，Pooling in Graph Convolutional Neural Network

专知会员服务

46+阅读 · 2020年4月8日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知会员服务

40+阅读 · 2020年3月31日

【CCL 2019】表示学习--自然语言处理中的图神经网络（Graph Neural Networks in NLP），西湖大学长聘副教授张岳

【CCL 2019】表示学习--自然语言处理中的图神经网络（Graph Neural Networks in NLP），西湖大学长聘副教授张岳

专知会员服务

64+阅读 · 2019年11月12日

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

专知

20+阅读 · 2020年10月5日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

23+阅读 · 2020年7月3日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

【AAAI2020-清华大学】张量图卷积网络(TensorGCN)文本分类

【AAAI2020-清华大学】张量图卷积网络(TensorGCN)文本分类

专知

63+阅读 · 2020年1月20日

【论文笔记】用于Web级推荐系统的图卷积神经网络

【论文笔记】用于Web级推荐系统的图卷积神经网络

专知

20+阅读 · 2019年9月30日

图神经网络GNN最新理论进展和应用探索，附报告下载

图神经网络GNN最新理论进展和应用探索，附报告下载

专知

70+阅读 · 2019年8月25日

【GNN】深度学习之上，图神经网络（GNN ）崛起

【GNN】深度学习之上，图神经网络（GNN ）崛起

产业智能官

16+阅读 · 2019年8月15日

入门学习 | 什么是图卷积网络？行为识别领域新星

入门学习 | 什么是图卷积网络？行为识别领域新星

AI100

18+阅读 · 2019年6月7日

【学界】基于GNN，强于GNN：胶囊图神经网络的PyTorch实现 | ICLR 2019

【学界】基于GNN，强于GNN：胶囊图神经网络的PyTorch实现 | ICLR 2019

GAN生成式对抗网络

31+阅读 · 2019年3月26日

掌握图神经网络GNN基本，看这篇文章就够了

掌握图神经网络GNN基本，看这篇文章就够了

新智元

164+阅读 · 2019年2月14日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于张量的高维多通道图像压缩感知重建理论与算法及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

神经元网络系统的斑图动力学行为分析及控制

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

Training Deep Normalization-Free Spiking Neural Networks with Lateral Inhibition

Arxiv

0+阅读 · 2月25日

Training-Free Cross-Architecture Merging for Graph Neural Networks

Arxiv

0+阅读 · 2月22日

Revisiting Graph Neural Networks for Graph-level Tasks: Taxonomy, Empirical Study, and Future Directions

Arxiv

0+阅读 · 2月22日

Graph Neural Networks Powered by Encoder Embedding for Improved Node Learning

Arxiv

0+阅读 · 2月21日

Unifying approach to uniform expressivity of graph neural networks

Arxiv

0+阅读 · 2月20日

GraphFM: A generalist graph transformer that learns transferable representations across diverse domains

Arxiv

0+阅读 · 2月14日

LogicXGNN: Grounded Logical Rules for Explaining Graph Neural Networks

Arxiv

0+阅读 · 2月8日

A Parallel Alternative for Energy-Efficient Neural Network Training and Inferencing

Arxiv

0+阅读 · 2月6日

Parallel Training in Spiking Neural Networks

Arxiv

0+阅读 · 2月1日

AutoGNN: End-to-End Hardware-Driven Graph Preprocessing for Enhanced GNN Performance

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

神经网络训练

最新内容

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

2+阅读 · 6月3日

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

1+阅读 · 6月3日

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

6+阅读 · 6月3日

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

专知会员服务

9+阅读 · 6月3日

《发展用于决策支持的化生放核（CBRN）态势理解》

《发展用于决策支持的化生放核（CBRN）态势理解》

专知会员服务

5+阅读 · 6月3日

《通往人工通用智能之路上的均衡策略》

《通往人工通用智能之路上的均衡策略》

专知会员服务

3+阅读 · 6月3日

《人工智能与军事整合：现状与未来风险》报告

《人工智能与军事整合：现状与未来风险》报告

专知会员服务

3+阅读 · 6月3日

《Palantir的科技生态系统》

《Palantir的科技生态系统》

专知会员服务

14+阅读 · 6月2日

《脑机接口：拓展神经前沿及其战略意涵》最新报告

《脑机接口：拓展神经前沿及其战略意涵》最新报告

专知会员服务

8+阅读 · 6月2日

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

《美军联合跨部门特遣部队401：反无人机系统表征通用标准（C4）》最新报告（中文版）

专知会员服务

20+阅读 · 6月2日

《反无人机系统传感器融合》90页报告

《反无人机系统传感器融合》90页报告

专知会员服务

16+阅读 · 6月2日

运用人工智能与卫星通信驱散“战争迷雾”

运用人工智能与卫星通信驱散“战争迷雾”

专知会员服务

8+阅读 · 6月2日

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

ACL 2026 | LLMSurgeon：从生成文本诊断大模型训练数据

专知会员服务

7+阅读 · 6月2日

【综述】世界模型：架构、方法、推理与应用全景

【综述】世界模型：架构、方法、推理与应用全景

专知会员服务

12+阅读 · 6月2日

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

专知会员服务

8+阅读 · 6月1日

相关VIP内容

面向多GPU的图神经网络训练加速

面向多GPU的图神经网络训练加速

专知会员服务

24+阅读 · 2023年1月19日

大“GNN”如何学习？北邮最新《分布式图神经网络》综述，35页pdf阐述分布式GNN训练算法和系统

大“GNN”如何学习？北邮最新《分布式图神经网络》综述，35页pdf阐述分布式GNN训练算法和系统

专知会员服务

53+阅读 · 2022年11月2日

「图神经网络GNN:模型与应用」最新SDM2021-Tutorial，附视频与203页ppt

专知会员服务

93+阅读 · 2021年5月1日

【AAAI2021-Tutorial】图神经网络GNN:模型与应用，附视频与291页ppt

【AAAI2021-Tutorial】图神经网络GNN:模型与应用，附视频与291页ppt

专知会员服务

178+阅读 · 2021年2月6日

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

【清华大学】图随机神经网络，Graph Random Neural Networks

【清华大学】图随机神经网络，Graph Random Neural Networks

专知会员服务

156+阅读 · 2020年5月26日

具有组合核的图神经网络，Graph Neural Networks with Composite Kernels

具有组合核的图神经网络，Graph Neural Networks with Composite Kernels

专知会员服务

59+阅读 · 2020年5月20日

【CMU】图卷积神经网络中的池化综述，Pooling in Graph Convolutional Neural Network

【CMU】图卷积神经网络中的池化综述，Pooling in Graph Convolutional Neural Network

专知会员服务

46+阅读 · 2020年4月8日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知会员服务

40+阅读 · 2020年3月31日

【CCL 2019】表示学习--自然语言处理中的图神经网络（Graph Neural Networks in NLP），西湖大学长聘副教授张岳

【CCL 2019】表示学习--自然语言处理中的图神经网络（Graph Neural Networks in NLP），西湖大学长聘副教授张岳

专知会员服务

64+阅读 · 2019年11月12日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

【博士论文】抽象信息论与安全奖励学习的数学发展

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

相关资讯

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

图神经网络模型集合GraphGallery，TensorFLow&PyTorch一并实现

专知

20+阅读 · 2020年10月5日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

23+阅读 · 2020年7月3日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

【AAAI2020-清华大学】张量图卷积网络(TensorGCN)文本分类

【AAAI2020-清华大学】张量图卷积网络(TensorGCN)文本分类

专知

63+阅读 · 2020年1月20日

【论文笔记】用于Web级推荐系统的图卷积神经网络

【论文笔记】用于Web级推荐系统的图卷积神经网络

专知

20+阅读 · 2019年9月30日

图神经网络GNN最新理论进展和应用探索，附报告下载

图神经网络GNN最新理论进展和应用探索，附报告下载

专知

70+阅读 · 2019年8月25日

【GNN】深度学习之上，图神经网络（GNN ）崛起

【GNN】深度学习之上，图神经网络（GNN ）崛起

产业智能官

16+阅读 · 2019年8月15日

入门学习 | 什么是图卷积网络？行为识别领域新星

入门学习 | 什么是图卷积网络？行为识别领域新星

AI100

18+阅读 · 2019年6月7日

【学界】基于GNN，强于GNN：胶囊图神经网络的PyTorch实现 | ICLR 2019

【学界】基于GNN，强于GNN：胶囊图神经网络的PyTorch实现 | ICLR 2019

GAN生成式对抗网络

31+阅读 · 2019年3月26日

掌握图神经网络GNN基本，看这篇文章就够了

掌握图神经网络GNN基本，看这篇文章就够了

新智元

164+阅读 · 2019年2月14日

相关论文

Training Deep Normalization-Free Spiking Neural Networks with Lateral Inhibition

Arxiv

0+阅读 · 2月25日

Training-Free Cross-Architecture Merging for Graph Neural Networks

Arxiv

0+阅读 · 2月22日

Revisiting Graph Neural Networks for Graph-level Tasks: Taxonomy, Empirical Study, and Future Directions

Arxiv

0+阅读 · 2月22日

Graph Neural Networks Powered by Encoder Embedding for Improved Node Learning

Arxiv

0+阅读 · 2月21日

Unifying approach to uniform expressivity of graph neural networks

Arxiv

0+阅读 · 2月20日

GraphFM: A generalist graph transformer that learns transferable representations across diverse domains

Arxiv

0+阅读 · 2月14日

LogicXGNN: Grounded Logical Rules for Explaining Graph Neural Networks

Arxiv

0+阅读 · 2月8日

A Parallel Alternative for Energy-Efficient Neural Network Training and Inferencing

Arxiv

0+阅读 · 2月6日

Parallel Training in Spiking Neural Networks

Arxiv

0+阅读 · 2月1日

AutoGNN: End-to-End Hardware-Driven Graph Preprocessing for Enhanced GNN Performance

Arxiv

0+阅读 · 1月31日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于张量的高维多通道图像压缩感知重建理论与算法及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

神经元网络系统的斑图动力学行为分析及控制

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员