图是表示社交网络、分子系统和知识图谱等领域关联信息的基础数据结构。然而,图学习模型在应用于其训练分布之外时,往往面临泛化能力有限的问题。在实践中,分布偏移可能源于图结构、领域语义、可用模态或任务设定的变化。为了应对这些挑战,图基础模型(GFMs)近期应运而生,旨在通过在不同图和任务上的大规模预训练来学习通用表示。在本综述中,我们从分布外(OOD)泛化的视角回顾了 GFMs 的最新进展。我们首先讨论了图学习中分布偏移带来的主要挑战,并概述了一个统一的问题设置。随后,我们根据现有方法是设计用于固定任务规范,还是支持跨异构任务设定的泛化,对它们进行了组织,并总结了相应的 OOD 处理策略和预训练目标。最后,我们回顾了常用的评估协议并讨论了未来研究的开放方向。据我们所知,本文是首篇关于 GFMs 中 OOD 泛化问题的综述。

1 引言

图(Graph)是表征诸多应用领域中关联信息的基础数据结构,包括社交与信息网络、分子及生物系统、推荐平台以及知识图谱等 [1, 2, 3]。通过将实体编码为节点、交互编码为边,图能够捕捉复杂的依赖结构,而这些结构难以通过独立的特征表示进行建模。图学习方法(如图神经网络)已成为预测与推理任务的核心工具,涵盖节点分类、链接预测及图级预测等 [4, 5]。然而,在特定数据集或图上训练的模型,当应用于图拓扑、特征分布、语义含义或任务定义与训练阶段不同的新测试环境时,往往表现出有限的泛化能力 [6]。 分布外(Out-of-Distribution, OOD)泛化为解决这些局限性提供了一个极具价值的视角 [7, 8]。在图学习领域,分布偏移可能源于多种渠道。诸如连通模式或基元统计(Motif statistics)等结构属性可能在不同图之间发生变化 [9, 10]。领域特定因素(包括数据收集和标注惯例)可能会引入数据集偏置 [11]。辅助模态(如文本或分子特征)在不同数据集之间可能存在缺失、噪声或对齐不一致的问题 [12]。此外,下游任务在监督形式或输出空间上亦可能发生改变 [13]。这些因素导致图模型难以在具有多元分布偏移的真实复杂环境(In-the-wild environment)中可靠部署。

近期,图基础模型(Graph Foundation Models, GFMs)兴起并引起了研究界的广泛关注。受语言和视觉领域基础模型 [14, 15] 的启发,GFMs 旨在通过在多元图集合上进行大规模预训练,学习通用型图表示 [16, 17]。这些模型不再仅仅针对特定数据集进行优化,而是探索捕获在不同图、领域及下游目标之间具有复用性且稳定的泛化模式。越来越多的研究探索了构建 GFMs 的不同方法 [18, 19, 20],包括多图预训练 [21]、跨领域与跨模态对齐 [22]、不变性表示学习 [23]、以及用于任务泛化的提示或指令接口 [24] 等。这些基础模型解决了传统图学习在实践与方法论上的局限。在许多应用中,新图的标注数据稀缺,且从头开始重训模型通常是不可行的 [25]。跨领域和跨时间的分布偏移进一步增加了稳定部署的难度。从建模角度看,图结构和特征空间的异构性也为设计可跨场景扩展的架构与目标带来了挑战 [11]。在海量且多元的图数据上进行预训练,提供了一种提高样本效率、实现迁移并减少对数据集特定相关性依赖的途径,从而激发了对 GFMs 的研究兴趣 [26, 27, 23],并为处理 OOD 泛化的分布偏移提供了极具前景的范式。

近期已有几篇综述 [28, 16, 17] 从模型架构 [29]、预训练目标、可扩展性及应用领域 [30, 31] 等角度对 GFMs 进行了回顾。相比之下,本综述明确地从 OOD 泛化的视角组织文献。我们不仅关注模型设计,还探讨了不同 GFMs 如何应对由图结构、领域语义、模态可用性及任务定义变化引起的分布偏移,从而对现有方法进行更深层次的讨论,并阐明建模选择、部署挑战与评估实践之间的关系。 在本综述中,我们从 OOD 泛化的视角对图基础模型进行了全面概述。我们首先识别了图学习中分布偏移带来的关键挑战,并引入了一个捕捉结构/特征、领域、模态及任务中 OOD 因素的统一问题公式化定义。随后,我们根据现有方法是否显式支持跨不同任务规范(Task specifications)的泛化,将其分为两大类。第一类方法侧重于固定任务设定下的泛化,通过学习在结构、领域或模态偏移下保持有效的表示来实现 OOD 泛化。第二类方法则旨在实现跨越更复杂的异构任务的泛化。在每个类别中,我们都分析了具有代表性的方法。我们还回顾了验证 OOD 性能时广泛采用的评估设定,并讨论了开放性挑战与未来方向。最后,我们探讨了潜在的未来研究课题,旨在为这一极具前景的发展方向提供启发。我们希望本综述能为促进该社区的研究提供有益的见解。 https://arxiv.org/abs/2601.21067

成为VIP会员查看完整内容
11

相关内容

图基础模型:全面综述
专知会员服务
36+阅读 · 2025年5月22日
图神经网络泛化理论研究综述
专知会员服务
24+阅读 · 2025年3月22日
知识图谱基础模型的数学基础
专知会员服务
41+阅读 · 2025年1月12日
《分布外泛化评估》综述
专知会员服务
43+阅读 · 2024年3月6日
【NeurIPS 2023】环境感知的动态图学习,用于分布外泛化
专知会员服务
30+阅读 · 2023年11月22日
TPAMI2023 | 图神经网络在分布外图上的泛化
专知会员服务
30+阅读 · 2023年11月7日
【剑桥大学博士论文】机器学习中的分布外泛化,214页pdf
基于图神经网络的知识图谱研究进展
AI科技评论
21+阅读 · 2020年8月31日
最新《图嵌入组合优化》综述论文,40页pdf
通俗易懂!《图机器学习导论》附69页PPT
专知
55+阅读 · 2019年12月27日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2月4日
Arxiv
10+阅读 · 2023年8月13日
VIP会员
相关VIP内容
图基础模型:全面综述
专知会员服务
36+阅读 · 2025年5月22日
图神经网络泛化理论研究综述
专知会员服务
24+阅读 · 2025年3月22日
知识图谱基础模型的数学基础
专知会员服务
41+阅读 · 2025年1月12日
《分布外泛化评估》综述
专知会员服务
43+阅读 · 2024年3月6日
【NeurIPS 2023】环境感知的动态图学习,用于分布外泛化
专知会员服务
30+阅读 · 2023年11月22日
TPAMI2023 | 图神经网络在分布外图上的泛化
专知会员服务
30+阅读 · 2023年11月7日
【剑桥大学博士论文】机器学习中的分布外泛化,214页pdf
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员