Graph processing systems are essential for analyzing large-scale data with complex relationships, yet most existing frameworks rely on statically provisioned clusters, resulting in poor elasticity and inefficient resource utilization under dynamic workloads. Serverless computing offers automatic scaling and fine-grained billing, but existing serverless graph systems suffer from performance limitations due to inefficient state management and high communication overhead through external storage. We present GraphFlash, a fast and elastic graph processing framework built on serverless infrastructure. GraphFlash adopts a subgraph-centric programming model and leverages shared external storage for coordination and communication, enabling stateless, fine-grained function execution. It supports two execution modes: rotating mode for resource-constrained environments and pinned mode for higher performance when resources are sufficient. To address serverless limitations, GraphFlash introduces system-level optimizations, including partition-aware key aggregation, intra-function partition co-location, and superstep-aware activation. Across multiple graph algorithms and datasets, GraphFlash outperforms existing serverless-compatible systems by up to 127x in execution time and reduces resource consumption by up to 98% under higher-resource configurations, while matching the performance of traditional distributed frameworks on large workloads. Even with limited resources, it achieves up to 48x speedup and 99.97% cost reduction over prior serverless solutions, demonstrating that GraphFlash makes serverless graph processing practical and performant.


翻译:摘要:图处理系统对于分析具有复杂关系的大规模数据至关重要,但现有大多数框架依赖于静态配置的集群,导致在动态工作负载下弹性不足且资源利用效率低下。无服务器计算提供了自动扩缩容和细粒度计费能力,然而现有无服务器图系统因低效的状态管理和通过外部存储产生的高通信开销而面临性能瓶颈。我们提出GraphFlash,一个构建于无服务器基础设施上的快速弹性图处理框架。GraphFlash采用子图中心编程模型,并利用共享外部存储进行协调与通信,从而实现无状态、细粒度的函数执行。它支持两种执行模式:面向资源受限环境的旋转模式和资源充足时提供更高性能的固定模式。为克服无服务器限制,GraphFlash引入了系统级优化,包括分区感知键聚合、函数内分区协同部署以及超步感知激活。在多种图算法和数据集上,GraphFlash相比现有无服务器兼容系统在执行时间上最高提升127倍,在高资源配置下资源消耗降低最高98%,同时在大规模工作负载上达到传统分布式框架的性能水平。即使在资源受限条件下,相较于此前无服务器解决方案,它仍能实现最高48倍加速和99.97%成本降低,证明GraphFlash使无服务器图处理变得实用且高效。

0
下载
关闭预览

相关内容

《大规模分布式图算法》综述
专知会员服务
28+阅读 · 2024年4月11日
《图简化(Graph Reduction)》最新综述
专知会员服务
31+阅读 · 2024年2月10日
字节跳动自研万亿级图数据库ByteGraph及其应用与挑战
专知会员服务
32+阅读 · 2022年6月1日
图计算加速架构综述
专知会员服务
51+阅读 · 2021年4月5日
最新《图嵌入组合优化》综述论文,40页pdf
图嵌入(Graph embedding)综述
人工智能前沿讲习班
449+阅读 · 2019年4月30日
领域应用 | 到底什么时候使用图数据库?
开放知识图谱
16+阅读 · 2019年4月19日
Github热门图深度学习(GraphDL)源码与框架
新智元
21+阅读 · 2019年3月19日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员