We introduce Semantic Recall, a novel metric to assess the quality of approximate nearest neighbor search algorithms by considering only semantically relevant objects that are theoretically retrievable via exact nearest neighbor search. Unlike traditional recall, semantic recall does not penalize algorithms for failing to retrieve objects that are semantically irrelevant to the query, even if those objects are among their nearest neighbors. We demonstrate that semantic recall is particularly useful for assessing retrieval quality on queries that have few relevant results among their nearest neighbors-a scenario we uncover to be common within embedding datasets. Additionally, we introduce Tolerant Recall, a proxy metric that approximates semantic recall when semantically relevant objects cannot be identified. We empirically show that our metrics are more effective indicators of retrieval quality, and that optimizing search algorithms for these metrics can lead to improved cost-quality tradeoffs.


翻译:我们提出了语义召回(Semantic Recall)这一新型评估指标,通过仅考虑理论上可通过精确最近邻搜索检索到的语义相关对象,来评估近似最近邻搜索算法的质量。与传统召回率不同,语义召回不会因算法未能检索到与查询语义无关的对象而施加惩罚——即便这些对象属于查询的最近邻集合。我们证明,在查询结果中最近邻内相关结果稀少的场景中(该场景在嵌入数据集中普遍存在),语义召回对于评估检索质量尤为有效。此外,我们提出了宽容召回(Tolerant Recall)这一代理指标,用于在无法识别语义相关对象时近似估计语义召回。实验表明,我们的指标能够更有效地反映检索质量,且针对这些指标优化搜索算法可提升成本-质量权衡效果。

0
下载
关闭预览

相关内容

互联网
王晓伟:图神经网络在快手推荐召回中的应用和挑战
专知会员服务
26+阅读 · 2022年3月23日
面向语义搜索的自然语言处理
专知会员服务
60+阅读 · 2021年12月18日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
推荐系统主流召回方法综述
AINLP
10+阅读 · 2020年7月16日
最全推荐系统Embedding召回算法总结
凡人机器学习
30+阅读 · 2020年7月5日
Query 理解和语义召回在知乎搜索中的应用
DataFunTalk
25+阅读 · 2020年1月2日
SemanticAdv:基于语义属性的对抗样本生成方法
机器之心
14+阅读 · 2019年7月12日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
情感分析:数据采集与词向量构造方法
北京思腾合力科技有限公司
29+阅读 · 2017年12月20日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
2+阅读 · 今天11:43
网状网络及其在军事领域的运用
专知会员服务
5+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
6+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
7+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
7+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
9+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
9+阅读 · 6月24日
相关VIP内容
王晓伟:图神经网络在快手推荐召回中的应用和挑战
专知会员服务
26+阅读 · 2022年3月23日
面向语义搜索的自然语言处理
专知会员服务
60+阅读 · 2021年12月18日
相关资讯
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
推荐系统主流召回方法综述
AINLP
10+阅读 · 2020年7月16日
最全推荐系统Embedding召回算法总结
凡人机器学习
30+阅读 · 2020年7月5日
Query 理解和语义召回在知乎搜索中的应用
DataFunTalk
25+阅读 · 2020年1月2日
SemanticAdv:基于语义属性的对抗样本生成方法
机器之心
14+阅读 · 2019年7月12日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
情感分析:数据采集与词向量构造方法
北京思腾合力科技有限公司
29+阅读 · 2017年12月20日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员