Automatically inferring join relationships is a critical task for effective data discovery, integration, querying and reuse. However, accurately and efficiently identifying these relationships in large and complex schemas can be challenging, especially in enterprise settings where access to data values is constrained. In this paper, we introduce the problem of join graph inference when only metadata is available. We conduct an empirical study on a large number of real-world schemas and observe that join graphs when represented as adjacency matrices exhibit two key properties: high sparsity and low-rank structure. Based on these novel observations, we formulate join graph inference as a low-rank matrix completion problem and propose Nexus, an end-to-end solution using only metadata. To further enhance accuracy, we propose a novel Expectation-Maximization algorithm that alternates between low-rank matrix completion and refining join candidate probabilities by leveraging Large Language Models. Our extensive experiments demonstrate that Nexus outperforms existing methods by a significant margin on four datasets including a real-world production dataset. Additionally, Nexus can operate in a fast mode, providing comparable results with up to 6x speedup, offering a practical and efficient solution for real-world deployments.


翻译:自动推断连接关系是实现有效数据发现、集成、查询和重用的关键任务。然而,在大型复杂模式中准确高效地识别这些关系具有挑战性,尤其是在数据值访问受限的企业环境中。本文提出了仅当元数据可用时的连接图推断问题。我们对大量真实世界模式进行了实证研究,发现以邻接矩阵表示的连接图展现出两个关键特性:高稀疏性和低秩结构。基于这些新颖观察,我们将连接图推断形式化为低秩矩阵补全问题,并提出仅使用元数据的端到端解决方案 Nexus。为进一步提升准确性,我们提出一种新颖的期望最大化算法,该算法通过利用大型语言模型,在低秩矩阵补全与优化连接候选概率之间交替进行。我们的大量实验表明,在包含真实世界生产数据集在内的四个数据集上,Nexus 显著优于现有方法。此外,Nexus 可在快速模式下运行,以高达 6 倍的加速比提供可比结果,为实际部署提供了实用高效的解决方案。

0
下载
关闭预览

相关内容

图数据库综述
专知会员服务
18+阅读 · 2025年6月2日
【2024新书】数据科学中的图算法:以Neo4j为例
专知会员服务
81+阅读 · 2024年1月19日
【经典书】图数据挖掘算法,安全性及应用,256页pdf
专知会员服务
91+阅读 · 2022年8月22日
最新《图机器学习》综述论文,19页pdf
专知会员服务
152+阅读 · 2021年5月5日
【2020新书】图机器学习,Graph-Powered Machine Learning
专知会员服务
343+阅读 · 2020年1月27日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
通俗易懂!《图机器学习导论》附69页PPT
专知
55+阅读 · 2019年12月27日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Arxiv
0+阅读 · 1月16日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员