Modern deep learning workloads increasingly exhibit dynamic, metadata-driven execution, where runtime-generated information determines memory provisioning and kernel launch decisions. In sampling-based graph neural network (GNN) training, this behavior places the CPU on the critical path, introducing persistent host-device orchestration overhead and frequent GPU-CPU synchronization, which dominate end-to-end runtime when GPU computation is small. Existing approaches, including CUDA Graphs and GPU dynamic parallelism, fail to address this problem because the metadata-driven control loop remains host-mediated, and execution structure varies across iterations. We present ZEROGNN, a system that removes the host from the metadata-driven control loop and enables fully GPU-resident execution under dynamic behavior. ZEROGNN keeps runtime metadata on-device, mediates dynamic execution within a fixed launch structure, and provisions a conservative yet tight execution envelope to restore CUDA Graph replayability. Experiments on sampling-based GNN workloads show that ZEROGNN achieves up to 5.28 x end-to-end speedup, near 100% GPU execution fraction, and memory efficiency comparable to ideal metadata-informed allocation, while enabling strong multi-GPU scaling by eliminating host-side bottlenecks.


翻译:现代深度学习工作负载日益表现出动态、元数据驱动的执行特性,其中运行时生成的信息决定了内存供给和内核启动决策。在基于采样的图神经网络(GNN)训练中,这种行为使CPU处于关键路径上,引入了持续的主机-设备协调开销和频繁的GPU-CPU同步,当GPU计算量较小时,这些开销主导了端到端的运行时间。现有方法(包括CUDA Graphs和GPU动态并行性)未能解决此问题,因为元数据驱动的控制循环仍由主机中介,且执行结构随迭代而变化。我们提出了ZEROGNN,一个将主机从元数据驱动的控制循环中移除,并在动态行为下实现完全的GPU驻留执行的系统。ZEROGNN将运行时元数据保留在设备上,在固定的启动结构内中介动态执行,并提供一个保守但紧密的执行包络,以恢复CUDA Graph的可重放性。在基于采样的GNN工作负载上的实验表明,ZEROGNN实现了高达5.28倍的端到端加速、接近100%的GPU执行占比,以及与理想元数据感知分配相当的内存效率,同时通过消除主机端瓶颈实现了强大的多GPU扩展性。

0
下载
关闭预览

相关内容

万字综述,GNN在NLP中的应用,建议收藏慢慢看
专知会员服务
59+阅读 · 2021年6月22日
一份简短《图神经网络GNN》笔记,入门小册
专知会员服务
226+阅读 · 2020年4月11日
【GNN】深度学习之上,图神经网络(GNN )崛起
产业智能官
16+阅读 · 2019年8月15日
Graph Neural Network(GNN)最全资源整理分享
深度学习与NLP
339+阅读 · 2019年7月9日
Github热门图深度学习(GraphDL)源码与框架
新智元
21+阅读 · 2019年3月19日
掌握图神经网络GNN基本,看这篇文章就够了
新智元
164+阅读 · 2019年2月14日
图神经网络概述第三弹:来自IEEE Fellow的GNN综述
机器之心
46+阅读 · 2019年1月7日
CNN已老,GNN来了!清华大学孙茂松组一文综述GNN
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
万字综述,GNN在NLP中的应用,建议收藏慢慢看
专知会员服务
59+阅读 · 2021年6月22日
一份简短《图神经网络GNN》笔记,入门小册
专知会员服务
226+阅读 · 2020年4月11日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员