Indexes are critical for efficient data retrieval and updates in modern databases. Recent advances in machine learning have led to the development of learned indexes, which model the cumulative distribution function of data to predict search positions and accelerate query processing. While learned indexes substantially outperform traditional structures for point lookups, they often suffer from high tail latency, suboptimal range query performance, and inconsistent effectiveness across diverse workloads. To address these challenges, this paper proposes HIRE, a hybrid in-memory index structure designed to deliver efficient performance consistently. HIRE combines the structural and performance robustness of traditional indexes with the predictive power of model-based prediction to reduce search overhead while maintaining worst-case stability. Specifically, it employs (1) hybrid leaf nodes adaptive to varying data distributions and workloads, (2) model-accelerated internal nodes augmented by log-based updates for efficient updates, (3) a nonblocking, cost-driven recalibration mechanism for dynamic data, and (4) an inter-level optimized bulk-loading algorithm accounting for leaf and internal-node errors. Experimental results on multiple real-world datasets demonstrate that HIRE outperforms both state-of-the-art learned indexes and traditional structures in range-query throughput, tail latency, and overall stability. Compared to state-of-the-art learned indexes and traditional indexes, HIRE achieves up to 41.7$\times$ higher throughput under mixed workloads, reduces tail latency by up to 98% across varying scenarios.


翻译:索引是现代数据库中实现高效数据检索与更新的关键。近期机器学习的进展催生了学习索引,其通过建模数据的累积分布函数来预测搜索位置并加速查询处理。尽管学习索引在点查询上显著优于传统结构,但其常面临高尾延迟、范围查询性能欠佳以及跨不同工作负载下效果不稳定等问题。为应对这些挑战,本文提出HIRE——一种旨在持续提供高效性能的混合内存索引结构。HIRE融合了传统索引的结构与性能鲁棒性,以及基于模型预测的搜索开销削减能力,同时保持最坏情况下的稳定性。具体而言,其采用:(1) 适应不同数据分布与工作负载的混合叶节点;(2) 由基于日志的更新增强的模型加速内部节点,以实现高效更新;(3) 面向动态数据的无阻塞、成本驱动重校准机制;(4) 考虑叶节点与内部节点误差的层级间优化批量加载算法。在多个真实数据集上的实验结果表明,HIRE在范围查询吞吐量、尾延迟及整体稳定性上均优于现有最先进的学习索引与传统结构。与最先进的学习索引和传统索引相比,HIRE在混合工作负载下可实现高达41.7倍的吞吐量提升,并在不同场景下将尾延迟降低最高达98%。

0
下载
关闭预览

相关内容

【CMU博士论文】在学习与推理中融入搜索
专知会员服务
17+阅读 · 2025年9月12日
智能数据库学习型索引研究综述
专知会员服务
23+阅读 · 2023年1月14日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
完备的 AI 学习路线,最详细的资源整理!
新智元
18+阅读 · 2019年5月4日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月3日
Arxiv
0+阅读 · 4月25日
VIP会员
相关主题
最新内容
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员