Vector databases are critical infrastructure in AI systems, and average recall is the dominant metric for their evaluation. Both users and researchers rely on it to choose and optimize their systems. We show that relying on average recall is problematic. It hides variability across queries, allowing systems with strong mean performance to underperform significantly on hard queries. These tail cases confuse users and can lead to failure in downstream applications such as RAG. We argue that robustness consistently achieving acceptable recall across queries is crucial to vector database evaluation. We propose Robustness-$δ$@K, a new metric that captures the fraction of queries with recall above a threshold $δ$. This metric offers a deeper view of recall distribution, helps vector index selection regarding application needs, and guides the optimization of tail performance. We integrate Robustness-$δ$@K into existing benchmarks and evaluate mainstream vector indexes, revealing significant robustness differences. More robust vector indexes yield better application performance, even with the same average recall. We also identify design factors that influence robustness, providing guidance for improving real-world performance.


翻译:向量数据库是人工智能系统的关键基础设施,平均召回率是其评估的主流指标。用户与研究者都依赖该指标进行系统选择与优化。我们证明依赖平均召回率存在缺陷:该指标掩盖了查询间的性能差异,使得均值表现优异的系统在困难查询上可能显著失效。这些极端情况不仅混淆用户,还可能导致下游应用(如RAG)失败。我们认为,鲁棒性——即跨查询稳定实现可接受召回率的能力——对于向量数据库评估至关重要。我们提出Robustness-δ@K这一新指标,用于度量召回率超过阈值δ的查询占比。该指标能更深入地揭示召回率分布特征,有助于根据应用需求选择向量索引,并指导尾部性能优化。我们将Robustness-δ@K集成到现有基准测试中,评估主流向量索引,揭示出显著的鲁棒性差异。实验表明,即使平均召回率相同,更鲁棒的向量索引能带来更优的应用性能。我们还识别出影响鲁棒性的设计因素,为提升实际性能提供了指导。

0
下载
关闭预览

相关内容

《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
42+阅读 · 2023年10月29日
面向图像分类的对抗鲁棒性评估综述
专知会员服务
59+阅读 · 2022年10月15日
深度学习模型鲁棒性研究综述
专知会员服务
97+阅读 · 2022年1月23日
【SIGMOD2021】数据库与人工智能交叉技术综述
专知会员服务
71+阅读 · 2021年7月14日
专知会员服务
30+阅读 · 2021年2月21日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
情感分析:数据采集与词向量构造方法
北京思腾合力科技有限公司
29+阅读 · 2017年12月20日
综述 | 知识图谱向量化表示
开放知识图谱
33+阅读 · 2017年10月26日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月22日
VIP会员
相关主题
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
2+阅读 · 今天11:43
网状网络及其在军事领域的运用
专知会员服务
5+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
6+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
7+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
7+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
9+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
9+阅读 · 6月24日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员