Context graphs are essential for modern AI applications including question answering, pattern discovery, and data analysis. Building accurate context graphs from structured databases requires inferring join relationships between entities. Invalid joins introduce ambiguity and duplicate records, compromising graph quality. We present a scalable join inference approach combining statistical pruning with Large Language Model (LLM) reasoning. Unlike purely statistics-based methods, our hybrid approach mimics human semantic understanding while mitigating LLM hallucination through data-driven inference. We first identify primary key candidates and use LLMs for adjudication, then detect inclusion dependencies with the same two-stage process. This statistics-LLM combination scales to large schemas while maintaining accuracy and minimizing false positives. We further leverage the database query history to refine the join inferences over time as the query workloads evolve. Our evaluation on TPC-DS, TPC-H, BIRD-Dev, and production workloads demonstrates that the approach achieves high precision (78-100%) on well-structured schemas, while highlighting the inherent difficulty of join discovery in poorly normalized settings.


翻译:上下文图对于现代人工智能应用至关重要,涵盖问答系统、模式发现和数据分析等领域。从结构化数据库构建精确的上下文图需要推断实体间的连接关系。无效连接会引入歧义和重复记录,从而损害图的质量。我们提出一种可扩展的连接推理方法,该方法将统计剪枝与大型语言模型推理相结合。与纯基于统计的方法不同,我们的混合方法模拟了人类的语义理解,同时通过数据驱动的推理减轻了LLM的幻觉问题。我们首先识别主键候选,并利用LLM进行判定,随后通过相同的两阶段流程检测包含依赖关系。这种统计与LLM结合的方法能够扩展到大规模数据库模式,同时保持准确性并最小化误报。我们进一步利用数据库查询历史,随着查询工作负载的演变,持续优化连接推理。我们在TPC-DS、TPC-H、BIRD-Dev及生产工作负载上的评估表明,该方法在结构良好的数据库模式上实现了高精度(78-100%),同时凸显了在规范化程度较差的环境中进行连接发现的内在困难。

0
下载
关闭预览

相关内容

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
图与基础模型:多模态基础模型关系推理能力概述
专知会员服务
30+阅读 · 2023年12月23日
最新《图机器学习》综述论文,19页pdf
专知会员服务
152+阅读 · 2021年5月5日
图神经网络最近这么火,不妨看看我们精选的这七篇
人工智能前沿讲习班
37+阅读 · 2018年12月10日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月16日
Arxiv
0+阅读 · 2月13日
VIP会员
相关VIP内容
图与基础模型:多模态基础模型关系推理能力概述
专知会员服务
30+阅读 · 2023年12月23日
最新《图机器学习》综述论文,19页pdf
专知会员服务
152+阅读 · 2021年5月5日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员