PANDA is a powerful generic algorithm for answering conjunctive queries (CQs) and disjunctive datalog rules (DDRs) given input degree constraints. In the special case where degree constraints are cardinality constraints and the query is Boolean, PANDA runs in $\tilde O (N^{subw})$-time, where $N$ is the input size, and $subw$ is the submodular width of the query, a notion introduced by Daniel Marx (JACM 2013). When specialized to certain classes of sub-graph pattern finding problems, the $\tilde O(N^{subw})$ runtime matches the optimal runtime possible, modulo some conjectures in fine-grained complexity (Bringmann and Gorbachev (STOC 25)). The PANDA framework is much more general, as it handles arbitrary input degree constraints, which capture common statistics and integrity constraints used in relational database management systems, it works for queries with free variables, and for both CQs and DDRs. The key weakness of PANDA is the large $polylog(N)$-factor hidden in the $\tilde O(\cdot)$ notation. This makes PANDA completely impractical, and fall short of what is achievable with specialized algorithms. This paper resolves this weakness with two novel ideas. First, we prove a new probabilistic inequality that upper-bounds the output size of DDRs under arbitrary degree constraints. Second, the proof of this inequality directly leads to a new algorithm named PANDAExpress that is both simpler and faster than PANDA. The novel feature of PANDAExpress is a new partitioning scheme that uses arbitrary hyperplane cuts instead of axis-parallel hyperplanes used in PANDA. These hyperplanes are dynamically constructed based on data-skewness statistics carefully tracked throughout the algorithm's execution. As a result, PANDAExpress removes the $polylog(N)$-factor from the runtime of PANDA, matching the runtimes of intricate specialized algorithms, while retaining all its generality and power.


翻译:PANDA是一种强大的通用算法,用于在给定输入度约束下回答合取查询(CQs)和析取数据日志规则(DDRs)。在度约束为基数约束且查询为布尔型的特殊情况下,PANDA的运行时间为$\tilde O (N^{subw})$,其中$N$为输入规模,$subw$为查询的子模宽度(该概念由Daniel Marx在JACM 2013中提出)。当应用于特定类别的子图模式查找问题时,$\tilde O(N^{subw})$的运行时间在精细复杂度理论中的某些猜想下(Bringmann与Gorbachev,STOC 25)达到了可能的最优运行时间。PANDA框架具有更广泛的通用性:它能处理任意输入度约束(这类约束捕捉了关系数据库管理系统中常用的统计信息和完整性约束),适用于含自由变量的查询,并同时支持CQs和DDRs。PANDA的主要缺陷在于$\tilde O(\cdot)$符号中隐藏的巨大$polylog(N)$因子,这导致PANDA完全不具备实用性,且无法达到专用算法所能实现的性能。本文通过两个创新性思路解决了这一缺陷。首先,我们证明了一个新的概率不等式,该不等式能上界任意度约束下DDRs的输出规模。其次,该不等式的证明直接导出了一个名为PANDAExpress的新算法,该算法比PANDA更简单且更快速。PANDAExpress的创新特性在于采用了一种新的划分方案:使用任意超平面切割替代PANDA中使用的轴平行超平面。这些超平面根据算法执行过程中精心追踪的数据偏斜统计信息动态构建。因此,PANDAExpress消除了PANDA运行时间中的$polylog(N)$因子,在保持其全部通用性和强大功能的同时,达到了复杂专用算法的运行时间水平。

0
下载
关闭预览

相关内容

【干货书】利用 Python 进行数据分析,470页pdf
专知会员服务
119+阅读 · 2021年3月13日
【电子书推荐】Data Science with Python and Dask
专知会员服务
44+阅读 · 2019年6月1日
【2022新书】Python数据分析第三版,579页pdf
专知
19+阅读 · 2022年8月31日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
教你用Python爬虫股票评论,简单分析股民用户情绪
数据派THU
10+阅读 · 2017年12月12日
机器学习(4)之线性判别式(附Python源码)
机器学习算法与Python学习
13+阅读 · 2017年7月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国当前高超音速导弹发展概述
专知会员服务
0+阅读 · 47分钟前
《高超音速武器:一项再度兴起的技术》120页slides
无人机蜂群建模与仿真方法
专知会员服务
1+阅读 · 今天14:08
澳大利亚发布《国防战略(2026年)》
专知会员服务
0+阅读 · 今天13:42
【CMU博士论文】迈向基于基础先验的 4D 感知研究
专知会员服务
0+阅读 · 今天13:46
全球高超音速武器最新发展趋势
专知会员服务
1+阅读 · 今天13:17
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员