Nexus: Inferring Join Graphs from Metadata Alone via Iterative Low-Rank Matrix Completion - 专知论文

会员服务 ·

0

低秩 · 推断 · 元数据 · 矩阵补全 · 低秩矩阵 ·

Nexus: Inferring Join Graphs from Metadata Alone via Iterative Low-Rank Matrix Completion

翻译：Nexus：仅通过元数据基于迭代低秩矩阵补全推断连接图

Tianji Cong,Yuanyuan Tian,Andreas Mueller,Rathijit Sen,Yeye He,Fotis Psallidas,Shaleen Deep,H. V. Jagadish

Automatically inferring join relationships is a critical task for effective data discovery, integration, querying and reuse. However, accurately and efficiently identifying these relationships in large and complex schemas can be challenging, especially in enterprise settings where access to data values is constrained. In this paper, we introduce the problem of join graph inference when only metadata is available. We conduct an empirical study on a large number of real-world schemas and observe that join graphs when represented as adjacency matrices exhibit two key properties: high sparsity and low-rank structure. Based on these novel observations, we formulate join graph inference as a low-rank matrix completion problem and propose Nexus, an end-to-end solution using only metadata. To further enhance accuracy, we propose a novel Expectation-Maximization algorithm that alternates between low-rank matrix completion and refining join candidate probabilities by leveraging Large Language Models. Our extensive experiments demonstrate that Nexus outperforms existing methods by a significant margin on four datasets including a real-world production dataset. Additionally, Nexus can operate in a fast mode, providing comparable results with up to 6x speedup, offering a practical and efficient solution for real-world deployments.

翻译：自动推断连接关系是实现有效数据发现、集成、查询和重用的关键任务。然而，在大型复杂模式中准确高效地识别这些关系具有挑战性，尤其是在数据值访问受限的企业环境中。本文提出了仅当元数据可用时的连接图推断问题。我们对大量真实世界模式进行了实证研究，发现以邻接矩阵表示的连接图展现出两个关键特性：高稀疏性和低秩结构。基于这些新颖观察，我们将连接图推断形式化为低秩矩阵补全问题，并提出仅使用元数据的端到端解决方案 Nexus。为进一步提升准确性，我们提出一种新颖的期望最大化算法，该算法通过利用大型语言模型，在低秩矩阵补全与优化连接候选概率之间交替进行。我们的大量实验表明，在包含真实世界生产数据集在内的四个数据集上，Nexus 显著优于现有方法。此外，Nexus 可在快速模式下运行，以高达 6 倍的加速比提供可比结果，为实际部署提供了实用高效的解决方案。

0

相关内容

图数据库综述

图数据库综述

专知会员服务

18+阅读 · 2025年6月2日

北科大最新《分布变化下的图学习》综述，详述领域适应、非分布和持续学习进展

北科大最新《分布变化下的图学习》综述，详述领域适应、非分布和持续学习进展

专知会员服务

45+阅读 · 2024年2月27日

【2024新书】数据科学中的图算法：以Neo4j为例

【2024新书】数据科学中的图算法：以Neo4j为例

专知会员服务

81+阅读 · 2024年1月19日

【经典书】图数据挖掘算法，安全性及应用，256页pdf

【经典书】图数据挖掘算法，安全性及应用，256页pdf

专知会员服务

91+阅读 · 2022年8月22日

最新《图机器学习》综述论文，19页pdf

最新《图机器学习》综述论文，19页pdf

专知会员服务

152+阅读 · 2021年5月5日

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

专知会员服务

138+阅读 · 2020年7月29日

【新书】图神经网络导论，清华大学刘知远和周杰老师著作，Introduction to Graph Neural Networks

【新书】图神经网络导论，清华大学刘知远和周杰老师著作，Introduction to Graph Neural Networks

专知会员服务

260+阅读 · 2020年6月11日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知会员服务

343+阅读 · 2020年1月27日

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

专知会员服务

115+阅读 · 2020年1月3日

Deep Learning for Graphs: Models and Applications，密歇根州立大学唐继良助理教授，CIPS ATT 16（2019）

Deep Learning for Graphs: Models and Applications，密歇根州立大学唐继良助理教授，CIPS ATT 16（2019）

专知会员服务

54+阅读 · 2019年10月25日

【经典书】图数据挖掘算法，安全性及应用，256页pdf

【经典书】图数据挖掘算法，安全性及应用，256页pdf

专知

17+阅读 · 2022年8月22日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图与推荐

10+阅读 · 2020年3月28日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知

76+阅读 · 2020年1月27日

通俗易懂！《图机器学习导论》附69页PPT

通俗易懂！《图机器学习导论》附69页PPT

专知

55+阅读 · 2019年12月27日

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

专知

48+阅读 · 2019年5月10日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

度条件和连通度条件下任意可分图的研究

国家自然科学基金

0+阅读 · 2015年12月31日

非单调映射迭代根的构造及其分类

国家自然科学基金

0+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

关于点传递图的彩虹连通数的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

Faster Relational Algorithms Using Geometric Data Structures

Arxiv

0+阅读 · 3月12日

K-Join: Combining Vertex Covers for Parallel Joins

Arxiv

0+阅读 · 3月10日

AutoDataset: A Lightweight System for Continuous Dataset Discovery and Search

Arxiv

0+阅读 · 3月7日

Scalable Join Inference for Large Context Graphs

Arxiv

0+阅读 · 3月4日

Survey: Graph Databases

Arxiv

0+阅读 · 2月23日

Including Node Textual Metadata in Laplacian-constrained Gaussian Graphical Models

Arxiv

0+阅读 · 2月17日

Crane: An Accurate and Scalable Neural Sketch for Graph Stream Summarization

Arxiv

0+阅读 · 2月17日

Deterministic Lower Bounds for $k$-Edge Connectivity in the Distributed Sketching Model

Arxiv

0+阅读 · 2月9日

Stationarity and Spectral Characterization of Random Signals on Simplicial Complexes

Arxiv

0+阅读 · 2月3日

NEXUS: Bit-Exact ANN-to-SNN Equivalence via Neuromorphic Gate Circuits with Surrogate-Free Training

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

0+阅读 · 今天15:20

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

0+阅读 · 今天15:18

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

8+阅读 · 今天5:53

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

4+阅读 · 今天5:45

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

2+阅读 · 今天5:23

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

2+阅读 · 今天5:11

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

6+阅读 · 今天5:04

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

4+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

8+阅读 · 7月26日

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

《面向可扩展高韧性无人机集群网络的速度感知分层通信框架》

专知会员服务

8+阅读 · 7月26日

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

《面向概率推理的可定制战术引擎及其在军事任务规划中的应用》

专知会员服务

10+阅读 · 7月26日

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

《先进防空系统选型战略框架：基于巴基斯坦的实证启示》

专知会员服务

8+阅读 · 7月26日

《反无人机交战场景下的战斗归零研究》

《反无人机交战场景下的战斗归零研究》

专知会员服务

7+阅读 · 7月26日

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

霍尔木兹与不对称作战时代：水雷、无人系统与海军力量的重新定义

专知会员服务

4+阅读 · 7月26日

博士论文 | 用代码结构感知方法推进代码大模型

博士论文 | 用代码结构感知方法推进代码大模型

专知会员服务

5+阅读 · 7月25日

相关VIP内容

图数据库综述

图数据库综述

专知会员服务

18+阅读 · 2025年6月2日

北科大最新《分布变化下的图学习》综述，详述领域适应、非分布和持续学习进展

北科大最新《分布变化下的图学习》综述，详述领域适应、非分布和持续学习进展

专知会员服务

45+阅读 · 2024年2月27日

【2024新书】数据科学中的图算法：以Neo4j为例

【2024新书】数据科学中的图算法：以Neo4j为例

专知会员服务

81+阅读 · 2024年1月19日

【经典书】图数据挖掘算法，安全性及应用，256页pdf

【经典书】图数据挖掘算法，安全性及应用，256页pdf

专知会员服务

91+阅读 · 2022年8月22日

最新《图机器学习》综述论文，19页pdf

最新《图机器学习》综述论文，19页pdf

专知会员服务

152+阅读 · 2021年5月5日

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

专知会员服务

138+阅读 · 2020年7月29日

【新书】图神经网络导论，清华大学刘知远和周杰老师著作，Introduction to Graph Neural Networks

【新书】图神经网络导论，清华大学刘知远和周杰老师著作，Introduction to Graph Neural Networks

专知会员服务

260+阅读 · 2020年6月11日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知会员服务

343+阅读 · 2020年1月27日

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

【清华大学朱文武老师课题组】图表示深度学习的5种方法，Deep Learning for Learning Graph Representations

专知会员服务

115+阅读 · 2020年1月3日

Deep Learning for Graphs: Models and Applications，密歇根州立大学唐继良助理教授，CIPS ATT 16（2019）

Deep Learning for Graphs: Models and Applications，密歇根州立大学唐继良助理教授，CIPS ATT 16（2019）

专知会员服务

54+阅读 · 2019年10月25日

热门VIP内容

开通专知VIP会员享更多权益服务

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

美空军新型反无人机部队初探

博士论文 | 面向大模型推理的内存高效算法

《无人系统互操作性导论——无人系统联合架构（JAUS）》

相关资讯

【经典书】图数据挖掘算法，安全性及应用，256页pdf

【经典书】图数据挖掘算法，安全性及应用，256页pdf

专知

17+阅读 · 2022年8月22日

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

最新最全《深度元学习》2021综述论文，68页pdf，A Survey of Deep Meta-Learning

专知

11+阅读 · 2021年4月23日

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

【KDD2020】更深的图神经网络，Towards Deeper Graph Neural Networks

专知

45+阅读 · 2020年7月22日

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图机器学习 2.2-2.4 Properties of Networks, Random Graph

图与推荐

10+阅读 · 2020年3月28日

【2020新书】图机器学习，Graph-Powered Machine Learning

【2020新书】图机器学习，Graph-Powered Machine Learning

专知

76+阅读 · 2020年1月27日

通俗易懂！《图机器学习导论》附69页PPT

通俗易懂！《图机器学习导论》附69页PPT

专知

55+阅读 · 2019年12月27日

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

专知

48+阅读 · 2019年5月10日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

相关论文

Faster Relational Algorithms Using Geometric Data Structures

Arxiv

0+阅读 · 3月12日

K-Join: Combining Vertex Covers for Parallel Joins

Arxiv

0+阅读 · 3月10日

AutoDataset: A Lightweight System for Continuous Dataset Discovery and Search

Arxiv

0+阅读 · 3月7日

Scalable Join Inference for Large Context Graphs

Arxiv

0+阅读 · 3月4日

Survey: Graph Databases

Arxiv

0+阅读 · 2月23日

Including Node Textual Metadata in Laplacian-constrained Gaussian Graphical Models

Arxiv

0+阅读 · 2月17日

Crane: An Accurate and Scalable Neural Sketch for Graph Stream Summarization

Arxiv

0+阅读 · 2月17日

Deterministic Lower Bounds for $k$-Edge Connectivity in the Distributed Sketching Model

Arxiv

0+阅读 · 2月9日

Stationarity and Spectral Characterization of Random Signals on Simplicial Complexes

Arxiv

0+阅读 · 2月3日

NEXUS: Bit-Exact ANN-to-SNN Equivalence via Neuromorphic Gate Circuits with Surrogate-Free Training

Arxiv

0+阅读 · 1月30日

相关基金

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

度条件和连通度条件下任意可分图的研究

国家自然科学基金

0+阅读 · 2015年12月31日

非单调映射迭代根的构造及其分类

国家自然科学基金

0+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

关于点传递图的彩虹连通数的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员