Uniform sampling and approximate counting are fundamental primitives for modern database applications, ranging from query optimization to approximate query processing. While recent breakthroughs have established optimal sampling and counting algorithms for full join queries, a significant gap remains for join-project queries, which are ubiquitous in real-world workloads. The state-of-the-art ``propose-and-verify'' framework \cite{chen2020random} for these queries suffers from fundamental inefficiencies, often yielding prohibitive complexity when projections significantly reduce the output size. In this paper, we present the first asymptotically optimal algorithms for fundamental classes of join-project queries, including matrix, star, and chain queries. By leveraging a novel rejection-based sampling strategy and a hybrid counting reduction, we achieve polynomial speedups over the state of the art. We establish the optimality of our results through matching communication complexity lower bounds, which hold even against algebraic techniques like fast matrix multiplication. Finally, we delineate the theoretical limits of the problem space. While matrix and star queries admit efficient sublinear-time algorithms, we establish a significantly stronger lower bound for chain queries, demonstrating that sublinear algorithms are impossible in general.


翻译:均匀采样与近似计数是现代数据库应用中的基本原语,涵盖从查询优化到近似查询处理等场景。尽管近期突破性进展已为全连接查询建立了最优采样与计数算法,但在实际负载中普遍存在的连接-投影查询仍存在显著差距。当前针对此类查询的最先进"提议-验证"框架\cite{chen2020random}存在根本性效率缺陷,当投影操作大幅缩减输出规模时,往往导致复杂度难以承受。本文首次针对连接-投影查询的基础类别(包括矩阵查询、星型查询和链式查询)提出渐近最优算法。通过采用基于拒绝采样的新型策略与混合计数归约方法,我们实现了相较于现有技术的多项式级别加速。通过匹配通信复杂度的下界(该下界即使面对快速矩阵乘法等代数技术依然成立),我们证明了结果的渐近最优性。最后,我们刻画了该问题空间的理论边界:尽管矩阵与星型查询可设计高效次线性时间算法,但针对链式查询我们证明了更强的下界,表明通用情况下无法实现次线性算法。

0
下载
关闭预览

相关内容

连续表示方法、理论与应用:综述与前瞻
专知会员服务
23+阅读 · 2025年5月28日
【博士论文】大数据相似查询关键技术研究
专知会员服务
24+阅读 · 2021年12月2日
专知会员服务
21+阅读 · 2021年8月1日
专知会员服务
27+阅读 · 2021年5月9日
pytorch中六种常用的向量相似度评估方法
极市平台
22+阅读 · 2021年12月9日
常见的距离算法和相似度计算方法
极市平台
18+阅读 · 2020年7月31日
详解ORB-SLAM2中的特征均匀提取策略
计算机视觉life
11+阅读 · 2019年10月9日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员