Scalable Join Inference for Large Context Graphs - 专知论文

会员服务 ·

0

数据库 · 上下文 · 结构 · 负载 · 大语言模型 ·

Scalable Join Inference for Large Context Graphs

翻译：面向大规模上下文图的可扩展连接推理

Shivani Tripathi,Ravi Shetye,Shi Qiao,Alekh Jindal

Context graphs are essential for modern AI applications including question answering, pattern discovery, and data analysis. Building accurate context graphs from structured databases requires inferring join relationships between entities. Invalid joins introduce ambiguity and duplicate records, compromising graph quality. We present a scalable join inference approach combining statistical pruning with Large Language Model (LLM) reasoning. Unlike purely statistics-based methods, our hybrid approach mimics human semantic understanding while mitigating LLM hallucination through data-driven inference. We first identify primary key candidates and use LLMs for adjudication, then detect inclusion dependencies with the same two-stage process. This statistics-LLM combination scales to large schemas while maintaining accuracy and minimizing false positives. We further leverage the database query history to refine the join inferences over time as the query workloads evolve. Our evaluation on TPC-DS, TPC-H, BIRD-Dev, and production workloads demonstrates that the approach achieves high precision (78-100%) on well-structured schemas, while highlighting the inherent difficulty of join discovery in poorly normalized settings.

翻译：上下文图对于现代人工智能应用至关重要，涵盖问答系统、模式发现和数据分析等领域。从结构化数据库构建精确的上下文图需要推断实体间的连接关系。无效连接会引入歧义和重复记录，从而损害图的质量。我们提出一种可扩展的连接推理方法，该方法将统计剪枝与大型语言模型推理相结合。与纯基于统计的方法不同，我们的混合方法模拟了人类的语义理解，同时通过数据驱动的推理减轻了LLM的幻觉问题。我们首先识别主键候选，并利用LLM进行判定，随后通过相同的两阶段流程检测包含依赖关系。这种统计与LLM结合的方法能够扩展到大规模数据库模式，同时保持准确性并最小化误报。我们进一步利用数据库查询历史，随着查询工作负载的演变，持续优化连接推理。我们在TPC-DS、TPC-H、BIRD-Dev及生产工作负载上的评估表明，该方法在结构良好的数据库模式上实现了高精度（78-100%），同时凸显了在规范化程度较差的环境中进行连接发现的内在困难。

0

相关内容

数据库

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据，而转变成用户所需要的各种数据管理的方式。

图与基础模型：多模态基础模型关系推理能力概述

图与基础模型：多模态基础模型关系推理能力概述

专知会员服务

30+阅读 · 2023年12月23日

大模型和图如何结合？最新《图遇见大型语言模型》综述，详述最新进展

大模型和图如何结合？最新《图遇见大型语言模型》综述，详述最新进展

专知会员服务

79+阅读 · 2023年11月25日

图学习如何用结构和文本？密歇根大学博士论文《用文本增强结构改进图学习》，185页pdf

图学习如何用结构和文本？密歇根大学博士论文《用文本增强结构改进图学习》，185页pdf

专知会员服务

28+阅读 · 2023年1月10日

最新《图机器学习》综述论文，19页pdf

最新《图机器学习》综述论文，19页pdf

专知会员服务

152+阅读 · 2021年5月5日

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

专知会员服务

137+阅读 · 2020年7月29日

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

专知会员服务

21+阅读 · 2020年4月5日

【中科大】上下文感知推荐系统的图卷积机：Graph Convolution Machine for Context-aware Recommender System

【中科大】上下文感知推荐系统的图卷积机：Graph Convolution Machine for Context-aware Recommender System

专知会员服务

71+阅读 · 2020年2月5日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

图卷积神经网络及其应用，中国科学院计算技术研究所沈华伟研究员，第八届全国社会媒体处理大会SMP2019

图卷积神经网络及其应用，中国科学院计算技术研究所沈华伟研究员，第八届全国社会媒体处理大会SMP2019

专知会员服务

67+阅读 · 2019年10月21日

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

【经典书】图数据挖掘算法，安全性及应用，256页pdf

【经典书】图数据挖掘算法，安全性及应用，256页pdf

专知

17+阅读 · 2022年8月22日

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

专知

36+阅读 · 2020年5月19日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

清华大学唐杰老师：用于理解、推理和决策的认知图计算

清华大学唐杰老师：用于理解、推理和决策的认知图计算

专知

17+阅读 · 2019年11月29日

【HEC-Montreal唐建博士】图神经网络推理，附27页ppt

【HEC-Montreal唐建博士】图神经网络推理，附27页ppt

专知

47+阅读 · 2019年10月30日

【论文笔记】用于Web级推荐系统的图卷积神经网络

【论文笔记】用于Web级推荐系统的图卷积神经网络

专知

20+阅读 · 2019年9月30日

送你200+篇论文，学习图或图神经网络必读！（附下载）

送你200+篇论文，学习图或图神经网络必读！（附下载）

数据派THU

19+阅读 · 2019年7月23日

图神经网络最近十篇论文，来自KDD、IJCAI、ICML等，附PDF下载

图神经网络最近十篇论文，来自KDD、IJCAI、ICML等，附PDF下载

专知

50+阅读 · 2019年6月7日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

度条件和连通度条件下任意可分图的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态异质大图匹配模型及算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

Scalable Inference Architectures for Compound AI Systems: A Production Deployment Study

Arxiv

0+阅读 · 4月28日

Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models

Arxiv

0+阅读 · 4月20日

GraphTide: Augmenting Knowledge-Intensive Text with Progressive Nested Graph

Arxiv

0+阅读 · 4月14日

Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Reasoning

Arxiv

0+阅读 · 4月2日

Contextual Graph Matching with Correlated Gaussian Features

Arxiv

0+阅读 · 3月24日

Graph Fusion Across Languages using Large Language Models

Arxiv

0+阅读 · 3月22日

Controllable Graph Generation with Diffusion Models via Inference-Time Tree Search Guidance

Arxiv

0+阅读 · 3月17日

Beyond Explicit Edges: Robust Reasoning over Noisy and Sparse Knowledge Graphs

Arxiv

0+阅读 · 3月14日

Retrieving Minimal and Sufficient Reasoning Subgraphs with Graph Foundation Models for Path-aware GraphRAG

Arxiv

0+阅读 · 3月7日

Reasoning by Exploration: A Unified Approach to Retrieval and Generation over Graphs

Arxiv

0+阅读 · 2月27日

VIP会员

文章信息

相关主题

大语言模型

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

9+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

图与基础模型：多模态基础模型关系推理能力概述

图与基础模型：多模态基础模型关系推理能力概述

专知会员服务

30+阅读 · 2023年12月23日

大模型和图如何结合？最新《图遇见大型语言模型》综述，详述最新进展

大模型和图如何结合？最新《图遇见大型语言模型》综述，详述最新进展

专知会员服务

79+阅读 · 2023年11月25日

图学习如何用结构和文本？密歇根大学博士论文《用文本增强结构改进图学习》，185页pdf

图学习如何用结构和文本？密歇根大学博士论文《用文本增强结构改进图学习》，185页pdf

专知会员服务

28+阅读 · 2023年1月10日

最新《图机器学习》综述论文，19页pdf

最新《图机器学习》综述论文，19页pdf

专知会员服务

152+阅读 · 2021年5月5日

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

最新《图神经网络知识图谱补全综述论文》A Survey on Graph Neural Networks for Knowledge Graph Completion

专知会员服务

137+阅读 · 2020年7月29日

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

【论文推荐】 GIANT: Scalable Creation of a Web-scale Ontology，基于web本体的可扩展创建

专知会员服务

21+阅读 · 2020年4月5日

【中科大】上下文感知推荐系统的图卷积机：Graph Convolution Machine for Context-aware Recommender System

【中科大】上下文感知推荐系统的图卷积机：Graph Convolution Machine for Context-aware Recommender System

专知会员服务

71+阅读 · 2020年2月5日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

图卷积神经网络及其应用，中国科学院计算技术研究所沈华伟研究员，第八届全国社会媒体处理大会SMP2019

图卷积神经网络及其应用，中国科学院计算技术研究所沈华伟研究员，第八届全国社会媒体处理大会SMP2019

专知会员服务

67+阅读 · 2019年10月21日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

55+阅读 · 2023年4月13日

【经典书】图数据挖掘算法，安全性及应用，256页pdf

【经典书】图数据挖掘算法，安全性及应用，256页pdf

专知

17+阅读 · 2022年8月22日

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

专知

36+阅读 · 2020年5月19日

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

55页图深度学习导论《A Gentle Introduction to Deep Learning for Graphs》

专知

16+阅读 · 2020年1月3日

清华大学唐杰老师：用于理解、推理和决策的认知图计算

清华大学唐杰老师：用于理解、推理和决策的认知图计算

专知

17+阅读 · 2019年11月29日

【HEC-Montreal唐建博士】图神经网络推理，附27页ppt

【HEC-Montreal唐建博士】图神经网络推理，附27页ppt

专知

47+阅读 · 2019年10月30日

【论文笔记】用于Web级推荐系统的图卷积神经网络

【论文笔记】用于Web级推荐系统的图卷积神经网络

专知

20+阅读 · 2019年9月30日

送你200+篇论文，学习图或图神经网络必读！（附下载）

送你200+篇论文，学习图或图神经网络必读！（附下载）

数据派THU

19+阅读 · 2019年7月23日

图神经网络最近十篇论文，来自KDD、IJCAI、ICML等，附PDF下载

图神经网络最近十篇论文，来自KDD、IJCAI、ICML等，附PDF下载

专知

50+阅读 · 2019年6月7日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

相关论文

Scalable Inference Architectures for Compound AI Systems: A Production Deployment Study

Arxiv

0+阅读 · 4月28日

Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models

Arxiv

0+阅读 · 4月20日

GraphTide: Augmenting Knowledge-Intensive Text with Progressive Nested Graph

Arxiv

0+阅读 · 4月14日

Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Reasoning

Arxiv

0+阅读 · 4月2日

Contextual Graph Matching with Correlated Gaussian Features

Arxiv

0+阅读 · 3月24日

Graph Fusion Across Languages using Large Language Models

Arxiv

0+阅读 · 3月22日

Controllable Graph Generation with Diffusion Models via Inference-Time Tree Search Guidance

Arxiv

0+阅读 · 3月17日

Beyond Explicit Edges: Robust Reasoning over Noisy and Sparse Knowledge Graphs

Arxiv

0+阅读 · 3月14日

Retrieving Minimal and Sufficient Reasoning Subgraphs with Graph Foundation Models for Path-aware GraphRAG

Arxiv

0+阅读 · 3月7日

Reasoning by Exploration: A Unified Approach to Retrieval and Generation over Graphs

Arxiv

0+阅读 · 2月27日

相关基金

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

度条件和连通度条件下任意可分图的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态异质大图匹配模型及算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员