Efficient Graph Embedding at Scale: Optimizing CPU-GPU-SSD Integration - 专知论文

会员服务 ·

0

GPU · 嵌入 · 图嵌入 · SSD · 系统 ·

Efficient Graph Embedding at Scale: Optimizing CPU-GPU-SSD Integration

翻译：大规模图嵌入的高效实现：优化CPU-GPU-SSD协同计算

Zhonggen Li,Xiangyu Ke,Yifan Zhu,Yunjun Gao,Feifei Li

from arxiv, Accepted by The VLDB Journal 2026

Graph embeddings map graph nodes to continuous vectors and are foundational to community detection, recommendation, and many scientific applications. At billion-scale, however, existing graph embedding systems face a trade-off: they either rely on large in-memory footprints across many GPUs (limited scalability) or repeatedly stream data from disk (incurring severe I/O overhead and low GPU utilization). In this paper, we propose Legend, a lightweight heterogeneous system for graph embedding that systematically redesigns data management across CPU, GPU, and NVMe SSD resources. Legend combines three practical ideas: (1) a prefetch-friendly embedding-loading order that lets GPUs efficiently prefetch necessary embeddings directly from NVMe SSD with low I/O amplification; (2) a high-throughput GPU-SSD direct-access driver tuned for the access patterns of embedding training; and (3) a customized parallel execution strategy that maximizes GPU utilization. Together, these components let Legend store and stream vast embedding data without overprovisioning GPU memory or suffering I/O stalls. Extensive experiments on billion-scale graphs demonstrate that Legend speeds up end-to-end workloads by up to 4.8x versus state-of-the-art systems, and matches their performance on the largest workloads while using only one quarter of the GPUs.

翻译：图嵌入将图节点映射为连续向量，是社区发现、推荐系统及众多科学应用的基础技术。然而，面对十亿级规模图数据时，现有图嵌入系统面临两难选择：要么依赖多GPU的大容量内存（可扩展性受限），要么反复从磁盘流式读取数据（产生严重的I/O开销且GPU利用率低下）。本文提出Legend——一个轻量级异构图嵌入系统，通过系统性地重构CPU、GPU与NVMe SSD资源间的数据管理机制来解决这一矛盾。Legend融合了三个创新设计：（1）支持预取的嵌入加载顺序，使GPU能够以低I/O放大率直接从NVMe SSD高效预取必要嵌入向量；（2）针对嵌入训练访问模式优化的高吞吐量GPU-SSD直连驱动；（3）最大化GPU利用率的定制化并行执行策略。这些组件协同工作，使得Legend能够在不超额配置GPU内存或遭遇I/O阻塞的前提下，存储并流式传输海量嵌入数据。在十亿级图数据上的大量实验表明，相较于最先进系统，Legend将端到端工作负载加速最高达4.8倍，并在最大规模任务中达到同等性能的同时仅需四分之一数量的GPU。

0

相关内容

GPU

图数据管理与图机器学习：协同效应与机会

图数据管理与图机器学习：协同效应与机会

专知会员服务

16+阅读 · 2025年2月5日

【博士论文】高性能并发图计算优化技术研究

【博士论文】高性能并发图计算优化技术研究

专知会员服务

34+阅读 · 2023年12月13日

大模型在图上怎么做？北邮等最新《图基础模型》综述，详述GFMs关键技术

大模型在图上怎么做？北邮等最新《图基础模型》综述，详述GFMs关键技术

专知会员服务

60+阅读 · 2023年10月19日

图预处理怎么做？中科院计算所等《图预处理方法》综述，从算法到硬件视角讲述图预处理方法

图预处理怎么做？中科院计算所等《图预处理方法》综述，从算法到硬件视角讲述图预处理方法

专知会员服务

27+阅读 · 2023年9月18日

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

专知会员服务

60+阅读 · 2023年4月14日

面向多GPU的图神经网络训练加速

面向多GPU的图神经网络训练加速

专知会员服务

24+阅读 · 2023年1月19日

图嵌入模型综述

图嵌入模型综述

专知会员服务

93+阅读 · 2022年1月17日

图计算加速架构综述

图计算加速架构综述

专知会员服务

51+阅读 · 2021年4月5日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

52+阅读 · 2019年11月8日

Deep Learning for Graphs: Models and Applications，密歇根州立大学唐继良助理教授，CIPS ATT 16（2019）

Deep Learning for Graphs: Models and Applications，密歇根州立大学唐继良助理教授，CIPS ATT 16（2019）

专知会员服务

54+阅读 · 2019年10月25日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

41+阅读 · 2020年8月31日

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）

深度学习自然语言处理

31+阅读 · 2020年6月12日

图表示学习Graph Embedding综述

图表示学习Graph Embedding综述

图与推荐

10+阅读 · 2020年3月23日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

深度学习应用在图像匹配的效果如何？

深度学习应用在图像匹配的效果如何？

中国图象图形学报

10+阅读 · 2019年6月11日

面试题：请简要介绍下tensorflow的计算图

面试题：请简要介绍下tensorflow的计算图

七月在线实验室

14+阅读 · 2019年6月10日

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

专知

48+阅读 · 2019年5月10日

图嵌入（Graph embedding）综述

图嵌入（Graph embedding）综述

人工智能前沿讲习班

449+阅读 · 2019年4月30日

Github上热门图深度学习（GraphDL）源码与工业级框架

Github上热门图深度学习（GraphDL）源码与工业级框架

专知

15+阅读 · 2019年3月15日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态异质大图匹配模型及算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构图论的一般图嵌入分布的研究

国家自然科学基金

4+阅读 · 2014年12月31日

Compressing then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding

Arxiv

0+阅读 · 4月20日

Towards Energy Efficient Co-Scheduling in HPC

Arxiv

0+阅读 · 4月19日

Scalable and Adaptive Parallel Training of Graph Transformer on Large Graphs

Arxiv

0+阅读 · 4月17日

How Embeddings Shape Graph Neural Networks: Classical vs Quantum-Oriented Node Representations

Arxiv

0+阅读 · 4月16日

gMatch: Fine-Grained and Hardware-Efficient Subgraph Matching on GPUs

Arxiv

0+阅读 · 4月12日

NOMAD: Generating Embeddings for Massive Distributed Graphs

Arxiv

0+阅读 · 4月10日

Performance Isolation and Semantic Determinism in Efficient GPU Spatial Sharing

Arxiv

0+阅读 · 4月3日

System-Technology Co-Optimization of Bitline Routing and Bonding Pathways in Monolithic 3D DRAM Architectures

Arxiv

0+阅读 · 3月12日

Optimizing SSD-Resident Graph Indexing for High-Throughput Vector Search

Arxiv

0+阅读 · 2月26日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

111+阅读 · 2023年4月11日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

2+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

1+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

4+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

3+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

11+阅读 · 6月16日

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

4+阅读 · 6月16日

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

7+阅读 · 6月16日

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

19+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

8+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

9+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

9+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

8+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

8+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

6+阅读 · 6月14日

相关VIP内容

图数据管理与图机器学习：协同效应与机会

图数据管理与图机器学习：协同效应与机会

专知会员服务

16+阅读 · 2025年2月5日

【博士论文】高性能并发图计算优化技术研究

【博士论文】高性能并发图计算优化技术研究

专知会员服务

34+阅读 · 2023年12月13日

大模型在图上怎么做？北邮等最新《图基础模型》综述，详述GFMs关键技术

大模型在图上怎么做？北邮等最新《图基础模型》综述，详述GFMs关键技术

专知会员服务

60+阅读 · 2023年10月19日

图预处理怎么做？中科院计算所等《图预处理方法》综述，从算法到硬件视角讲述图预处理方法

图预处理怎么做？中科院计算所等《图预处理方法》综述，从算法到硬件视角讲述图预处理方法

专知会员服务

27+阅读 · 2023年9月18日

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

专知会员服务

60+阅读 · 2023年4月14日

面向多GPU的图神经网络训练加速

面向多GPU的图神经网络训练加速

专知会员服务

24+阅读 · 2023年1月19日

图嵌入模型综述

图嵌入模型综述

专知会员服务

93+阅读 · 2022年1月17日

图计算加速架构综述

图计算加速架构综述

专知会员服务

51+阅读 · 2021年4月5日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

52+阅读 · 2019年11月8日

Deep Learning for Graphs: Models and Applications，密歇根州立大学唐继良助理教授，CIPS ATT 16（2019）

Deep Learning for Graphs: Models and Applications，密歇根州立大学唐继良助理教授，CIPS ATT 16（2019）

专知会员服务

54+阅读 · 2019年10月25日

热门VIP内容

开通专知VIP会员享更多权益服务

多模态代码智能综述：从视觉输入到可执行代码系统

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

相关资讯

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

41+阅读 · 2020年8月31日

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）

深度学习自然语言处理

31+阅读 · 2020年6月12日

图表示学习Graph Embedding综述

图表示学习Graph Embedding综述

图与推荐

10+阅读 · 2020年3月23日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

深度学习应用在图像匹配的效果如何？

深度学习应用在图像匹配的效果如何？

中国图象图形学报

10+阅读 · 2019年6月11日

面试题：请简要介绍下tensorflow的计算图

面试题：请简要介绍下tensorflow的计算图

七月在线实验室

14+阅读 · 2019年6月10日

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

专知

48+阅读 · 2019年5月10日

图嵌入（Graph embedding）综述

图嵌入（Graph embedding）综述

人工智能前沿讲习班

449+阅读 · 2019年4月30日

Github上热门图深度学习（GraphDL）源码与工业级框架

Github上热门图深度学习（GraphDL）源码与工业级框架

专知

15+阅读 · 2019年3月15日

相关论文

Compressing then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding

Arxiv

0+阅读 · 4月20日

Towards Energy Efficient Co-Scheduling in HPC

Arxiv

0+阅读 · 4月19日

Scalable and Adaptive Parallel Training of Graph Transformer on Large Graphs

Arxiv

0+阅读 · 4月17日

How Embeddings Shape Graph Neural Networks: Classical vs Quantum-Oriented Node Representations

Arxiv

0+阅读 · 4月16日

gMatch: Fine-Grained and Hardware-Efficient Subgraph Matching on GPUs

Arxiv

0+阅读 · 4月12日

NOMAD: Generating Embeddings for Massive Distributed Graphs

Arxiv

0+阅读 · 4月10日

Performance Isolation and Semantic Determinism in Efficient GPU Spatial Sharing

Arxiv

0+阅读 · 4月3日

System-Technology Co-Optimization of Bitline Routing and Bonding Pathways in Monolithic 3D DRAM Architectures

Arxiv

0+阅读 · 3月12日

Optimizing SSD-Resident Graph Indexing for High-Throughput Vector Search

Arxiv

0+阅读 · 2月26日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

111+阅读 · 2023年4月11日

相关基金

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态异质大图匹配模型及算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构图论的一般图嵌入分布的研究

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员