Cardinality-estimation (CE) research ranks estimators by q-error, yet it is well known that q-error is an imperfect proxy for query-plan quality. We give a measurement-driven account of when it is a good proxy and when it is not, and why. Modeling plan selection as an argmin over a piecewise-linear cost landscape, we find that plan regret (the cost of the chosen plan relative to the optimal, under true cardinalities) is governed by plan-cost geometry in a regime-dependent way. (i) For small errors, a true-point condition number kappa predicts regret and out-predicts q-error; its predictive power decays to zero as error grows, as a local linearization must. (ii) For large errors -- where deployed learned estimators operate -- an estimator-independent average-case sub-optimality measure ACS-infinity predicts which queries are regret-prone (Spearman rho ~ 0.54 on STATS-CEB), while q-error is nearly uninformative at the query level (rho ~ 0.05). (iii) The worst case is Haritsa's maximum sub-optimality (MSO). The three are one cost-ratio spectrum under three weightings. We prove a limit law ACS-infinity = sum_k r_k pi_k with cardinality-independent combinatorial weights, and validate every claim on STATS-CEB and JOB-light with four released estimators under pre-registered decision rules, and confirm on real PostgreSQL runtime that ACS-infinity predicts regret where q-error does not. The contribution is conceptual and empirical -- an average-case companion to worst-case robust query optimization, and a characterization of when an accuracy metric tracks plan quality -- rather than a new estimator. Code and the full pre-registration are public.


翻译:基数估计(CE)研究通过q-error对估计器进行排序,但众所周知,q-error是查询计划质量的不完美代理指标。我们基于测量结果,系统阐述了q-error在何种情况下是良好的代理指标、何时不是,并解释了原因。通过将计划选择建模为分段线性代价景观上的argmin问题,我们发现计划遗憾(在真实基数下所选计划相对于最优计划的代价)受制于以区间依赖方式呈现的计划代价几何结构:(i)对于小误差,真点条件数kappa可预测遗憾且效果优于q-error;其预测能力随误差增大而衰减至零——局部线性化必然如此。(ii)对于大误差(即已部署的学习型估计器的工作区间),与估计器无关的平均情况次优性度量ACS-infinity可预测哪些查询容易产生遗憾(在STATS-CEB上Spearman rho ~ 0.54),而q-error在查询层面几乎无信息量(rho ~ 0.05)。(iii)最坏情况是Haritsa的最大次优性(MSO)。这三者构成三种不同加权下的代价比率谱。我们证明了极限定律ACS-infinity = sum_k r_k pi_k,其中包含与基数无关的组合权重,并通过预注册决策规则在STATS-CEB和JOB-light上使用四个已发布估计器验证了所有结论,同时在实际PostgreSQL运行时中确认ACS-infinity能预测q-error无法预测的遗憾。本贡献是概念性与实证性的——作为最坏情况鲁棒查询优化的平均情况补充,并刻画了准确度指标何时能追踪计划质量——而非提出新估计器。代码及完整预注册文档均已公开。

0
下载
关闭预览

相关内容

基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
专知会员服务
17+阅读 · 2020年12月4日
缺失数据统计分析,第三版,462页pdf
专知
50+阅读 · 2020年2月28日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
详解常见的损失函数
七月在线实验室
20+阅读 · 2018年7月12日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
专知会员服务
17+阅读 · 2020年12月4日
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员