Despite filtered nearest neighbor search being a fundamental task in modern vector search systems, the performance of existing algorithms is highly sensitive to query selectivity and filter type. In particular, existing solutions excel either at specific filter categories (e.g., label equality) or within narrow selectivity bands (e.g., pre-filtering for low selectivity) and are therefore a poor fit for practical deployments that demand generalization to new filter types and unknown query selectivities. In this paper, we propose JAG (Joint Attribute Graphs), a graph-based algorithm designed to deliver robust performance across the entire selectivity spectrum and support diverse filter types. Our key innovation is the introduction of attribute and filter distances, which transform binary filter constraints into continuous navigational guidance. By constructing a proximity graph that jointly optimizes for both vector similarity and attribute proximity, JAG prevents navigational dead-ends and allows JAG to consistently outperform prior graph-based filtered nearest neighbor search methods. Our experimental results across five datasets and four filter types (Label, Range, Subset, Boolean) demonstrate that JAG significantly outperforms existing state-of-the-art baselines in both throughput and recall robustness.


翻译:尽管过滤最近邻搜索是现代向量搜索系统中的一项基础任务,但现有算法的性能对查询选择性和过滤器类型高度敏感。具体而言,现有解决方案要么在特定过滤器类别(例如标签相等性)上表现出色,要么仅在狭窄的选择性区间内(例如针对低选择性的预过滤)表现良好,因此难以适应实际部署中需要泛化到新过滤器类型和未知查询选择性的需求。本文提出JAG(联合属性图),一种基于图的算法,旨在在整个选择性范围内提供鲁棒性能,并支持多样化的过滤器类型。我们的核心创新在于引入了属性和过滤器距离,将二元过滤器约束转化为连续的导航引导。通过构建一个同时优化向量相似性和属性邻近度的邻近图,JAG避免了导航死胡同,使其能够持续超越先前基于图的过滤最近邻搜索方法。我们在五个数据集和四种过滤器类型(标签、范围、子集、布尔)上的实验结果表明,JAG在吞吐量和召回鲁棒性方面均显著优于现有最先进的基线方法。

0
下载
关闭预览

相关内容

一个具体事物,总是有许许多多的性质与关系,我们把一个事物的性质与关系,都叫作事物的属性。 事物与属性是不可分的,事物都是有属性的事物,属性也都是事物的属性。 一个事物与另一个事物的相同或相异,也就是一个事物的属性与另一事物的属性的相同或相异。 由于事物属性的相同或相异,客观世界中就形成了许多不同的事物类。具有相同属性的事物就形成一类,具有不同属性的事物就分别地形成不同的类。
【KDD2023】协同过滤的高效联合超参数和架构搜索
专知会员服务
23+阅读 · 2023年7月23日
专知会员服务
15+阅读 · 2021年6月26日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【KDD2023】协同过滤的高效联合超参数和架构搜索
专知会员服务
23+阅读 · 2023年7月23日
专知会员服务
15+阅读 · 2021年6月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员