Graph-structured data underpins many critical applications. While foundation models have transformed language and vision via large-scale pretraining and lightweight adaptation, extending this paradigm to general, real-world graphs is challenging. In this work, we present Graph Billion- Foundation-Fusion (GraphBFF): the first end-to-end recipe for building billion-parameter Graph Foundation Models (GFMs) for arbitrary heterogeneous, billion-scale graphs. Central to the recipe is the GraphBFF Transformer, a flexible and scalable architecture designed for practical billion-scale GFMs. Using the GraphBFF, we present the first neural scaling laws for general graphs and show that loss decreases predictably as either model capacity or training data scales, depending on which factor is the bottleneck. The GraphBFF framework provides concrete methodologies for data batching, pretraining, and fine-tuning for building GFMs at scale. We demonstrate the effectiveness of the framework with an evaluation of a 1.4 billion-parameter GraphBFF Transformer pretrained on one billion samples. Across ten diverse, real-world downstream tasks on graphs unseen during training, spanning node- and link-level classification and regression, GraphBFF achieves remarkable zero-shot and probing performance, including in few-shot settings, with large margins of up to 31 PRAUC points. Finally, we discuss key challenges and open opportunities for making GFMs a practical and principled foundation for graph learning at industrial scale.


翻译:图结构数据支撑着许多关键应用。尽管基础模型已通过大规模预训练与轻量级适配改变了语言与视觉领域,但将这一范式扩展到通用、真实世界的图数据仍面临挑战。本研究提出Graph Billion-Foundation-Fusion(GraphBFF):首个为任意异构十亿规模图构建十亿参数级图基础模型(GFM)的端到端方案。该方案的核心是GraphBFF Transformer——一种为实用化十亿规模GFM设计的灵活可扩展架构。基于GraphBFF,我们首次提出了通用图的神经缩放定律,并证明损失函数会随模型容量或训练数据规模的扩大而可预测地下降,具体取决于何者为瓶颈因素。GraphBFF框架为大规模构建GFM提供了数据批处理、预训练与微调的具体方法论。我们通过评估一个基于十亿样本预训练的14亿参数GraphBFF Transformer,验证了该框架的有效性。在训练阶段未见过的十个多样化真实世界下游图任务(涵盖节点级与链接级分类及回归任务)中,GraphBFF在零样本与探针评估(包括少样本场景)中均取得显著性能提升,PRAUC指标最高领先达31个百分点。最后,我们探讨了将GFM发展为工业级图学习实用化、原则性基础所面临的关键挑战与开放机遇。

0
下载
关闭预览

相关内容

图基础模型:全面综述
专知会员服务
36+阅读 · 2025年5月22日
推荐系统的图基础模型综述
专知会员服务
20+阅读 · 2025年2月13日
知识图谱基础模型的数学基础
专知会员服务
41+阅读 · 2025年1月12日
【剑桥大学博士论文】图机器学习非参数建模,128页pdf
专知会员服务
47+阅读 · 2024年5月4日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
58+阅读 · 2021年5月3日
VIP会员
相关VIP内容
图基础模型:全面综述
专知会员服务
36+阅读 · 2025年5月22日
推荐系统的图基础模型综述
专知会员服务
20+阅读 · 2025年2月13日
知识图谱基础模型的数学基础
专知会员服务
41+阅读 · 2025年1月12日
【剑桥大学博士论文】图机器学习非参数建模,128页pdf
专知会员服务
47+阅读 · 2024年5月4日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员