Subgraph similarity search over large-scale graphs is a fundamental task that retrieves subgraphs similar to a given query graph from a data graph, and it plays a crucial role in real applications such as protein discovery, social network analysis, and recommendation systems. While prior works on subgraph similarity search studied various graph similarity metrics, in this paper, we propose a novel graph similarity semantics, \textit{generalized neighbor difference} (GND), that accounts for both the keyword-set relationships between vertices and edge-weight differences. We formulate the problem of \textit{subgraph similarity search under the generalized neighbor difference semantics} (S$^3$GND), which retrieves those subgraphs similar to a query graph $q$ under GND semantics. To efficiently tackle the S$^3$GND problem, we propose an effective learning-based approach, which constructs a keyword hypergraph from the data graph, and trains a \textit{hypergraph neural network} (HGNN) model to obtain high-quality keyword embedding representations. We design effective pruning strategies, \textit{keyword embedding MBR}, \textit{vertex-Level ND lower bound}, and \textit{graph-level GND lower bound pruning}, to rule out false alarms of candidate vertices/subgraphs, and devise a tree-based indexing mechanism to facilitate efficient S$^3$GND query answering. We develop an efficient S$^3$GND query-processing algorithm that traverses the index, applies pruning strategies, and returns actual S$^3$GND answers. Finally, we conduct extensive experiments to verify the effectiveness and efficiency of our proposed S$^3$GND approach over both real and synthetic graphs.


翻译:大规模图上的子图相似性搜索是一项基础任务,旨在从数据图中检索出与给定查询图相似的子图,在蛋白质发现、社交网络分析和推荐系统等实际应用中发挥着关键作用。以往关于子图相似性搜索的研究探讨了多种图相似性度量方法,本文提出了一种新颖的图相似性语义——**广义邻居差异**,该语义同时考虑了顶点间的关键词集关系与边权重差异。我们形式化了**广义邻居差异语义下的子图相似性搜索**问题,其目标是在GND语义下检索出与查询图$q$相似的子图。为高效解决S$^3$GND问题,我们提出了一种有效的基于学习的方法:首先从数据图构建关键词超图,然后训练一个**超图神经网络**模型以获得高质量的关键词嵌入表示。我们设计了有效的剪枝策略——**关键词嵌入最小边界矩形**、**顶点级邻居差异下界**与**图级广义邻居差异下界剪枝**,以排除候选顶点/子图的误报;同时构建了一种基于树的索引机制以支持高效的S$^3$GND查询应答。我们开发了一种高效的S$^3$GND查询处理算法,该算法通过遍历索引、应用剪枝策略并返回最终的S$^3$GND结果。最后,我们在真实与合成图上进行了大量实验,验证了所提S$^3$GND方法的有效性与高效性。

0
下载
关闭预览

相关内容

专知会员服务
52+阅读 · 2021年6月16日
【图与几何深度学习】Graph and geometric deep learning,49页ppt
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员