Hybrid queries, which combine vector nearest neighbor searches with scalar predicates, represent a fundamental challenge in managing vector databases. Existing methods often restrict the number of vector columns involved or the complexity of scalar predicates, thereby limiting their flexibility in handling diverse query patterns. Moreover, these approaches typically do not fully leverage the correlations between scalar and vector attributes, or the distributional patterns observed from query vector neighborhoods. To address these limitations, we introduce BoomHQ, a learning-based framework to boost multiple hybrid queries on vector DBMSs. First, BoomHQ models the correlation between vector and scalar attributes using an autoencoder-based architecture, which is also friendly to data updates. Second, BoomHQ captures prevailing query patterns, particularly using estimated selectivity of scalar predicates within the neighborhood of a query vector. Guided by these two key features, BoomHQ predicts the execution hints and rewrites the original query into an optimized version. Furthermore, we extend well-known benchmarks by introducing vector and scalar data with inherent correlations to better evaluate query execution. Experimental results demonstrate that for multiple hybrid queries at specified recall thresholds, our method achieves a 2x average and over 25x peak speedup compared to the state-of-the-art. Additionally, BoomHQ shows strong robustness against data updates and consistent optimization effectiveness across three representative vector database systems.


翻译:混合查询将向量最近邻搜索与标量谓词相结合,是向量数据库管理中的一项基本挑战。现有方法通常限制所涉及的向量列数量或标量谓词的复杂度,从而限制了其在处理多样查询模式时的灵活性。此外,这些方法通常未能充分利用标量属性与向量属性之间的相关性,或从查询向量邻域中观察到的分布模式。为应对这些限制,我们提出BoomHQ——一种基于学习的框架,用于加速向量数据库管理系统上的多混合查询。首先,BoomHQ采用基于自编码器的架构对向量属性与标量属性之间的相关性进行建模,该架构同时支持便捷的数据更新。其次,BoomHQ捕获主流查询模式,特别是通过估计查询向量邻域内标量谓词的选择性。在这两大特性的指导下,BoomHQ预测执行提示,并将原始查询重写为优化版本。此外,我们通过引入具有内在相关性的向量与标量数据来扩展现有基准测试,以更有效地评估查询执行。实验结果表明,在指定召回率阈值下,针对多混合查询,我们的方法相比现有最优方案实现了平均2倍、峰值超过25倍的加速。同时,BoomHQ对数据更新展现出强鲁棒性,并在三个代表性向量数据库系统中保持一致的优化效果。

0
下载
关闭预览

相关内容

【博士论文】电商搜索中的排序学习
专知会员服务
13+阅读 · 2025年11月15日
《深度学习多标签学习》最新综述
专知会员服务
47+阅读 · 2024年1月31日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月3日
Arxiv
0+阅读 · 4月25日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员