Semantic Recall for Vector Search - 专知论文

会员服务 ·

0

搜索 · 最近邻 · 近邻 · 算法 · 查全率/召回率 ·

Semantic Recall for Vector Search

翻译：面向向量搜索的语义召回方法

Leonardo Kuffo,Ioanna Tsakalidou,Roberta De Viti,Albert Angel,Jiří Iša,Rastislav Lenhardt

from arxiv, Proceedings of the 49th International ACM SIGIR Conference on Research and Development in Information Retrieval

We introduce Semantic Recall, a novel metric to assess the quality of approximate nearest neighbor search algorithms by considering only semantically relevant objects that are theoretically retrievable via exact nearest neighbor search. Unlike traditional recall, semantic recall does not penalize algorithms for failing to retrieve objects that are semantically irrelevant to the query, even if those objects are among their nearest neighbors. We demonstrate that semantic recall is particularly useful for assessing retrieval quality on queries that have few relevant results among their nearest neighbors-a scenario we uncover to be common within embedding datasets. Additionally, we introduce Tolerant Recall, a proxy metric that approximates semantic recall when semantically relevant objects cannot be identified. We empirically show that our metrics are more effective indicators of retrieval quality, and that optimizing search algorithms for these metrics can lead to improved cost-quality tradeoffs.

翻译：我们提出了语义召回(Semantic Recall)这一新型评估指标，通过仅考虑理论上可通过精确最近邻搜索检索到的语义相关对象，来评估近似最近邻搜索算法的质量。与传统召回率不同，语义召回不会因算法未能检索到与查询语义无关的对象而施加惩罚——即便这些对象属于查询的最近邻集合。我们证明，在查询结果中最近邻内相关结果稀少的场景中（该场景在嵌入数据集中普遍存在），语义召回对于评估检索质量尤为有效。此外，我们提出了宽容召回(Tolerant Recall)这一代理指标，用于在无法识别语义相关对象时近似估计语义召回。实验表明，我们的指标能够更有效地反映检索质量，且针对这些指标优化搜索算法可提升成本-质量权衡效果。

0

相关内容

互联网

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

专知会员服务

70+阅读 · 2023年1月17日

王晓伟：图神经网络在快手推荐召回中的应用和挑战

王晓伟：图神经网络在快手推荐召回中的应用和挑战

专知会员服务

26+阅读 · 2022年3月23日

面向语义搜索的自然语言处理

面向语义搜索的自然语言处理

专知会员服务

60+阅读 · 2021年12月18日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

专知会员服务

27+阅读 · 2020年3月9日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

【NLP| 推荐文章】基于文本和知识库的语义搜索（Semantic search on text and knowledge bases）

专知会员服务

46+阅读 · 2019年11月24日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知会员服务

75+阅读 · 2019年10月19日

搜索query意图识别的演进

搜索query意图识别的演进

DataFunTalk

13+阅读 · 2020年11月15日

推荐系统主流召回方法综述

推荐系统主流召回方法综述

AINLP

10+阅读 · 2020年7月16日

最全推荐系统Embedding召回算法总结

最全推荐系统Embedding召回算法总结

凡人机器学习

30+阅读 · 2020年7月5日

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

推荐召回算法之深度召回模型串讲

推荐召回算法之深度召回模型串讲

AINLP

22+阅读 · 2019年6月14日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

腾讯词向量实战：通过Annoy进行索引和快速查询

腾讯词向量实战：通过Annoy进行索引和快速查询

AINLP

11+阅读 · 2019年4月18日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

情感分析:数据采集与词向量构造方法

情感分析:数据采集与词向量构造方法

北京思腾合力科技有限公司

29+阅读 · 2017年12月20日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

概率和平均框架下一系列Sobolev空间中的函数逼近与恢复

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

Enhanced LLM Reasoning by Optimizing Reward Functions with Search-Driven Reinforcement Learning

Arxiv

0+阅读 · 5月8日

Evergreen: Efficient Claim Verification for Semantic Aggregates

Arxiv

0+阅读 · 4月28日

Health System Scale Semantic Search Across Unstructured Clinical Notes

Arxiv

0+阅读 · 4月28日

Coverage, Not Averages: Semantic Stratification for Trustworthy Retrieval Evaluation

Arxiv

0+阅读 · 4月22日

Geodesic Semantic Search: Cartographic Navigation of Citation Graphs with Learned Local Riemannian Maps

Arxiv

0+阅读 · 4月17日

Real-Time Cross-Layer Semantic Error Correction Using Language Models and Software-Defined Radio

Arxiv

0+阅读 · 4月9日

Achieving Optimal Sample Complexity for a Broader Class of Signals in Sparse Phase Retrieval

Arxiv

0+阅读 · 3月27日

Back to Basics: Revisiting ASR in the Age of Voice Agents

Arxiv

0+阅读 · 3月26日

KuaiSearch: A Large-Scale E-Commerce Search Dataset for Recall, Ranking, and Relevance

Arxiv

0+阅读 · 3月24日

flexvec: SQL Vector Retrieval with Programmatic Embedding Modulation

Arxiv

0+阅读 · 3月23日

VIP会员

文章信息

相关主题

查全率/召回率

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

2+阅读 · 今天11:43

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

2+阅读 · 今天11:41

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

5+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

5+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

6+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

6+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

7+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

7+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

7+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

5+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

7+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

10+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

9+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

9+阅读 · 6月24日

相关VIP内容

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

如何用机器学习损失函数？最新《机器学习损失函数》综述，详述其33个损失函数与分类法

专知会员服务

70+阅读 · 2023年1月17日

王晓伟：图神经网络在快手推荐召回中的应用和挑战

王晓伟：图神经网络在快手推荐召回中的应用和挑战

专知会员服务

26+阅读 · 2022年3月23日

面向语义搜索的自然语言处理

面向语义搜索的自然语言处理

专知会员服务

60+阅读 · 2021年12月18日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

专知会员服务

27+阅读 · 2020年3月9日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

【NLP| 推荐文章】基于文本和知识库的语义搜索（Semantic search on text and knowledge bases）

专知会员服务

46+阅读 · 2019年11月24日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知会员服务

75+阅读 · 2019年10月19日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

搜索query意图识别的演进

搜索query意图识别的演进

DataFunTalk

13+阅读 · 2020年11月15日

推荐系统主流召回方法综述

推荐系统主流召回方法综述

AINLP

10+阅读 · 2020年7月16日

最全推荐系统Embedding召回算法总结

最全推荐系统Embedding召回算法总结

凡人机器学习

30+阅读 · 2020年7月5日

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

推荐召回算法之深度召回模型串讲

推荐召回算法之深度召回模型串讲

AINLP

22+阅读 · 2019年6月14日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

腾讯词向量实战：通过Annoy进行索引和快速查询

腾讯词向量实战：通过Annoy进行索引和快速查询

AINLP

11+阅读 · 2019年4月18日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

情感分析:数据采集与词向量构造方法

情感分析:数据采集与词向量构造方法

北京思腾合力科技有限公司

29+阅读 · 2017年12月20日

相关论文

Enhanced LLM Reasoning by Optimizing Reward Functions with Search-Driven Reinforcement Learning

Arxiv

0+阅读 · 5月8日

Evergreen: Efficient Claim Verification for Semantic Aggregates

Arxiv

0+阅读 · 4月28日

Health System Scale Semantic Search Across Unstructured Clinical Notes

Arxiv

0+阅读 · 4月28日

Coverage, Not Averages: Semantic Stratification for Trustworthy Retrieval Evaluation

Arxiv

0+阅读 · 4月22日

Geodesic Semantic Search: Cartographic Navigation of Citation Graphs with Learned Local Riemannian Maps

Arxiv

0+阅读 · 4月17日

Real-Time Cross-Layer Semantic Error Correction Using Language Models and Software-Defined Radio

Arxiv

0+阅读 · 4月9日

Achieving Optimal Sample Complexity for a Broader Class of Signals in Sparse Phase Retrieval

Arxiv

0+阅读 · 3月27日

Back to Basics: Revisiting ASR in the Age of Voice Agents

Arxiv

0+阅读 · 3月26日

KuaiSearch: A Large-Scale E-Commerce Search Dataset for Recall, Ranking, and Relevance

Arxiv

0+阅读 · 3月24日

flexvec: SQL Vector Retrieval with Programmatic Embedding Modulation

Arxiv

0+阅读 · 3月23日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

概率和平均框架下一系列Sobolev空间中的函数逼近与恢复

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

压缩感知与稀疏信号恢复

国家自然科学基金

2+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员