We present an index structure to boost the evaluation of free-connex acyclic conjunctive queries (fc-ACQs) over relational databases. The main ingredient of the index associated with a given database $D$ is an auxiliary database $D_{col}$. Our main result states that for any fc-ACQ $Q$ over $D$, we can count the number of answers of $Q$ or enumerate them with constant delay after a preprocessing phase that takes time linear in the size of $D_{col}$. Unlike previous indexing methods based on values or order (e.g., B+ trees), our index is based on structural symmetries among tuples in a database, and the size of $D_{col}$ is related to the number of colors assigned to $D$ by Scheidt and Schweikardt's "relational color refinement" (2025). In the particular case of graphs, this coincides with the minimal size of an equitable partition of the graph. For example, the size of $D_{col}$ is logarithmic in the case of binary trees and constant for regular graphs. Even in the worst-case that $D$ has no structural symmetries among tuples at all, the size of $D_{col}$ is still linear in the size of $D$. Given that the size of $D_{col}$ is bounded by the size of $D$ and can be much smaller (even constant for some families of databases), our index is the first foundational result on indexing internal structural symmetries of a database to evaluate all fc-ACQs with performance potentially strictly smaller than the database size.


翻译:我们提出了一种索引结构,用于加速关系数据库上自由连接无环合取查询(fc-ACQ)的评估。与给定数据库 $D$ 关联的索引主要组成部分是一个辅助数据库 $D_{col}$。我们的主要结果表明,对于 $D$ 上的任意 fc-ACQ $Q$,我们可以在一个预处理阶段后,以常数延迟对 $Q$ 的答案进行计数或枚举,该预处理阶段的时间复杂度与 $D_{col}$ 的大小呈线性关系。与以往基于值或顺序的索引方法(例如 B+ 树)不同,我们的索引基于数据库中元组间的结构对称性,且 $D_{col}$ 的大小与 Scheidt 和 Schweikardt 的“关系颜色细化”(2025)方法分配给 $D$ 的颜色数量相关。在图这一特定情况下,这等同于图的公平划分的最小尺寸。例如,对于二叉树,$D_{col}$ 的大小是对数级的;对于正则图,则是常数。即使在最坏情况下,即 $D$ 中的元组之间完全没有结构对称性,$D_{col}$ 的大小仍然与 $D$ 的大小呈线性关系。鉴于 $D_{col}$ 的大小受限于 $D$ 的大小,并且可能小得多(对于某些数据库族甚至是常数),我们的索引是首个基于数据库内部结构对称性进行索引的基础性成果,旨在以可能严格小于数据库大小的性能评估所有 fc-ACQ。

0
下载
关闭预览

相关内容

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
【SIGIR2024】生成检索作即多向量密集检索
专知会员服务
23+阅读 · 2024年4月5日
【CVPR2024】非自回归序列到序列的视觉-语言模型
专知会员服务
22+阅读 · 2024年3月5日
【ICLR2022】GNN-LM基于全局信息的图神经网络语义理解模型
【NeurIPS2021】序一致因果图的多任务学习
专知会员服务
20+阅读 · 2021年11月7日
专知会员服务
20+阅读 · 2021年9月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【SIGIR2024】生成检索作即多向量密集检索
专知会员服务
23+阅读 · 2024年4月5日
【CVPR2024】非自回归序列到序列的视觉-语言模型
专知会员服务
22+阅读 · 2024年3月5日
【ICLR2022】GNN-LM基于全局信息的图神经网络语义理解模型
【NeurIPS2021】序一致因果图的多任务学习
专知会员服务
20+阅读 · 2021年11月7日
专知会员服务
20+阅读 · 2021年9月12日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员