Approximate nearest neighbor search (ANNS) has become a cornerstone in modern vector database systems. Given a query vector, ANNS retrieves the closest vectors from a set of base vectors. In real-world applications, vectors are often accompanied by additional information, such as sequences or structured attributes, motivating the need for fine-grained vector search with constraints on this auxiliary data. Existing methods support attribute-based filtering or range-based filtering on categorical and numerical attributes, but they do not support pattern predicates over sequence attributes. In relational databases, predicates such as LIKE and CONTAINS are fundamental operators for filtering records based on substring patterns. As vector databases increasingly adopt SQL-style query interfaces, enabling pattern predicates over sequence attributes (e.g., texts and biological sequences) alongside vector similarity search becomes essential. In this paper, we formulate a novel problem: given a set of vectors each associated with a sequence, retrieve the nearest vectors whose sequences contain a given query pattern. To address this challenge, we propose VectorMaton, an automaton-based index that integrates pattern filtering with efficient vector search, while maintaining an index size comparable to the dataset size. Extensive experiments on real-world datasets demonstrate that VectorMaton consistently outperforms all baselines, achieving up to 10x higher query throughput at the same accuracy and up to 18x reduction in index size.


翻译:近似最近邻搜索已成为现代向量数据库系统的基石技术。给定查询向量,近似最近邻搜索从基础向量集合中检索最接近的向量。在实际应用中,向量通常伴随序列或结构化属性等附加信息,这推动了对辅助数据施加约束的细粒度向量搜索需求。现有方法支持对分类属性和数值属性进行基于属性的过滤或范围过滤,但无法支持对序列属性的模式谓词查询。在关系数据库中,LIKE和CONTAINS等谓词是基于子串模式过滤记录的基础操作符。随着向量数据库日益采用类SQL查询接口,在向量相似性搜索的同时实现对序列属性(如文本和生物序列)的模式谓词查询变得至关重要。本文提出一个新颖问题:给定每个向量关联一个序列的数据集,检索其序列包含给定查询模式的最近邻向量。为解决这一挑战,我们提出VectorMaton——一种基于自动机的索引结构,将模式过滤与高效向量搜索相集成,同时保持与数据集规模相当的索引大小。在真实数据集上的大量实验表明,VectorMaton始终优于所有基线方法,在相同准确率下实现高达10倍的查询吞吐量提升,并减少高达18倍的索引大小。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
专知会员服务
19+阅读 · 2021年5月16日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
【收藏】支持向量机原理详解+案例+代码!【点击阅读原文下载】
机器学习算法与Python学习
10+阅读 · 2018年9月13日
Machine Learning:十大机器学习算法
开源中国
21+阅读 · 2018年3月1日
机器学习(19)之支持向量回归机
机器学习算法与Python学习
12+阅读 · 2017年10月3日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月2日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员