Learned index structures aim to accelerate queries by training machine learning models to approximate the rank function associated with a database attribute. While effective in practice, their theoretical limitations are not fully understood. We present a general framework for proving lower bounds on query time for learned indexes, expressed in terms of their space overhead and parameterized by the model class used for approximation. Our formulation captures a broad family of learned indexes, including most existing designs, as piecewise model-based predictors. We solve the problem of lower bounding query time in two steps: first, we use probabilistic tools to control the effect of sampling when the database attribute is drawn from a probability distribution. Then, we analyze the approximation-theoretic problem of how to optimally represent a cumulative distribution function with approximators from a given model class. Within this framework, we derive lower bounds under a range of modeling and distributional assumptions, paying particular attention to the case of piecewise linear and piecewise constant model classes, which are common in practical implementations. Our analysis shows how tools from approximation theory, such as quantization and Kolmogorov widths, can be leveraged to formalize the space-time tradeoffs inherent to learned index structures. The resulting bounds illuminate core limitations of these methods.


翻译:学习索引结构旨在通过训练机器学习模型来近似数据库属性的秩函数,从而加速查询。尽管在实践中有效,但其理论局限性尚未得到充分理解。我们提出了一个通用框架,用于证明学习索引查询时间的下界,该下界以其空间开销表示,并以用于近似的模型类为参数。我们的框架将广泛的学习索引族(包括大多数现有设计)捕获为基于分段模型的预测器。我们通过两个步骤解决查询时间下界问题:首先,当数据库属性从概率分布中抽取时,我们使用概率工具来控制采样的影响;然后,我们分析如何用给定模型类中的近似器最优表示累积分布函数的逼近理论问题。在此框架内,我们在多种建模和分布假设下推导下界,特别关注分段线性和分段常数模型类(这些在实际实现中很常见)。我们的分析展示了如何利用逼近理论中的工具(如量化和Kolmogorov宽度)来形式化学习索引结构固有的空间-时间权衡。所得下界揭示了这些方法的核心局限性。

0
下载
关闭预览

相关内容

【博士论文】电商搜索中的排序学习
专知会员服务
13+阅读 · 2025年11月15日
【CMU博士论文】在学习与推理中融入搜索
专知会员服务
17+阅读 · 2025年9月12日
智能数据库学习型索引研究综述
专知会员服务
23+阅读 · 2023年1月14日
专知会员服务
88+阅读 · 2021年5月30日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
61+阅读 · 2020年5月9日
【新书】深度学习搜索,Deep Learning for Search,附327页pdf
专知会员服务
214+阅读 · 2020年1月13日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月5日
Arxiv
0+阅读 · 1月11日
VIP会员
最新内容
美国当前高超音速导弹发展概述
专知会员服务
0+阅读 · 28分钟前
《高超音速武器:一项再度兴起的技术》120页slides
无人机蜂群建模与仿真方法
专知会员服务
1+阅读 · 今天14:08
澳大利亚发布《国防战略(2026年)》
专知会员服务
0+阅读 · 今天13:42
【CMU博士论文】迈向基于基础先验的 4D 感知研究
专知会员服务
0+阅读 · 今天13:46
全球高超音速武器最新发展趋势
专知会员服务
1+阅读 · 今天13:17
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员