Modern vector databases enable efficient retrieval over high-dimensional neural embeddings, powering applications from web search to retrieval-augmented generation. However, classical theory predicts such tasks should suffer from the curse of dimensionality, where distances between points become nearly indistinguishable, thereby crippling efficient nearest-neighbor search. We revisit this paradox through the lens of stability, the property that small perturbations to a query do not radically alter its nearest neighbors. Building on foundational results, we extend stability theory to three key retrieval settings widely used in practice: (i) multi-vector search, where we prove that the popular Chamfer distance metric preserves single-vector stability, while average pooling aggregation may destroy it; (ii) filtered vector search, where we show that sufficiently large penalties for mismatched filters can induce stability even when the underlying search is unstable; and (iii) sparse vector search, where we formalize and prove novel sufficient stability conditions. Across synthetic and real datasets, our experimental results match our theoretical predictions, offering concrete guidance for model and system design to avoid the curse of dimensionality.


翻译:现代向量数据库能够实现对高维神经嵌入的高效检索,为从网络搜索到检索增强生成的各种应用提供支持。然而,经典理论预测此类任务应受维度灾难影响,即点间距离变得几乎无法区分,从而阻碍高效的最近邻搜索。我们通过稳定性的视角重新审视这一悖论,稳定性是指对查询的微小扰动不会显著改变其最近邻的性质。基于基础性研究成果,我们将稳定性理论扩展至实践中广泛使用的三种关键检索场景:(i) 多向量检索,我们证明了流行的Chamfer距离度量能够保持单向量稳定性,而平均池化聚合可能破坏该稳定性;(ii) 带过滤器的向量检索,我们证明当底层检索不稳定时,对不匹配过滤器施加足够大的惩罚仍可诱导稳定性;(iii) 稀疏向量检索,我们形式化并证明了新颖的充分稳定性条件。在合成与真实数据集上的实验结果均与理论预测相符,为规避维度灾难的模型与系统设计提供了具体指导。

0
下载
关闭预览

相关内容

专知会员服务
53+阅读 · 2021年8月13日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月2日
Arxiv
0+阅读 · 1月29日
VIP会员
相关VIP内容
专知会员服务
53+阅读 · 2021年8月13日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员