Sum Estimation via Vector Similarity Search - 专知论文

会员服务 ·

0

相似性 · 相似性搜索 · 搜索 · 密度估计 · Softmax ·

Sum Estimation via Vector Similarity Search

翻译：基于向量相似性搜索的和估计

Stephen Mussmann,Mehul Smriti Raje,Kavya Tumkur,Oumayma Messoussi,Cyprien Hachem,Seby Jacob

Semantic embeddings to represent objects such as image, text and audio are widely used in machine learning and have spurred the development of vector similarity search methods for retrieving semantically related objects. In this work, we study the sibling task of estimating a sum over all objects in a set, such as the kernel density estimate (KDE) and the normalizing constant for softmax distributions. While existing solutions provably reduce the sum estimation task to acquiring $\mathcal{O}(\sqrt{n})$ most similar vectors, where $n$ is the number of objects, we introduce a novel algorithm that only requires $\mathcal{O}(\log(n))$ most similar vectors. Our approach randomly assigns objects to levels with exponentially-decaying probabilities and constructs a vector similarity search data structure for each level. With the top-$k$ objects from each level, we propose an unbiased estimate of the sum and prove a high-probability relative error bound. We run experiments on OpenImages and Amazon Reviews with a vector similar search implementation to show that our method can achieve lower error using less computational time than existing reductions. We show results on applications in estimating densities, computing softmax denominators, and counting the number of vectors within a ball.

翻译：在机器学习中，广泛使用语义嵌入来表示图像、文本和音频等对象，并推动了用于检索语义相关对象的向量相似性搜索方法的发展。在本工作中，我们研究其姊妹任务：估计集合中所有对象的和，例如核密度估计（KDE）和 softmax 分布归一化常数的计算。虽然现有解决方案在理论上将和估计任务简化为获取 $\mathcal{O}(\sqrt{n})$ 个最相似向量（其中 $n$ 为对象数量），但我们提出了一种新颖算法，仅需 $\mathcal{O}(\log(n))$ 个最相似向量。我们的方法以指数衰减的概率将对象随机分配到不同层级，并为每个层级构建一个向量相似性搜索数据结构。利用从每个层级获取的前 $k$ 个对象，我们提出了一个无偏的和估计量，并证明了其高概率相对误差界。我们在 OpenImages 和 Amazon Reviews 数据集上使用向量相似性搜索实现进行了实验，结果表明，与现有的归约方法相比，我们的方法能够以更少的计算时间实现更低的误差。我们展示了该方法在密度估计、计算 softmax 分母以及统计球内向量数量等应用中的结果。

0

相关内容

相似性

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

专知会员服务

60+阅读 · 2023年4月14日

【CVPR2022】海德堡大学《深度视觉相似性与度量学习》教程，200+页ppt

【CVPR2022】海德堡大学《深度视觉相似性与度量学习》教程，200+页ppt

专知会员服务

44+阅读 · 2022年6月22日

如何理解词嵌入几何结构？【Edinburgh博士论文】对词和关系表示的理论理解，97页pdf

如何理解词嵌入几何结构？【Edinburgh博士论文】对词和关系表示的理论理解，97页pdf

专知会员服务

41+阅读 · 2022年2月6日

【ICML2021】用于对比表示学习的分解互信息估计

专知会员服务

26+阅读 · 2021年9月9日

【ICML2021】互信息分解估计的对比表示学习

专知会员服务

44+阅读 · 2021年7月1日

[ICML2021]基于相似置信度学习的算法

专知会员服务

29+阅读 · 2021年6月7日

【UMASS博士论文】几何表示学习，162页pdf

专知会员服务

65+阅读 · 2021年4月11日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

专知会员服务

98+阅读 · 2019年12月31日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知会员服务

75+阅读 · 2019年10月19日

pytorch中六种常用的向量相似度评估方法

pytorch中六种常用的向量相似度评估方法

极市平台

22+阅读 · 2021年12月9日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

如何找到相似Graph？DeepMind提出超越GNN的图匹配网络

如何找到相似Graph？DeepMind提出超越GNN的图匹配网络

机器之心

24+阅读 · 2019年5月7日

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

AI研习社

27+阅读 · 2019年4月13日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

推荐系统算法合集，满满都是干货（建议收藏）

推荐系统算法合集，满满都是干货（建议收藏）

七月在线实验室

17+阅读 · 2018年7月23日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

基于多关联数据融合的疾病相似度算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

曲率，第二基本形式与几何算子的相似性的研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

Rethinking ANN-based Retrieval: Multifaceted Learnable Index for Large-scale Recommendation System

Arxiv

0+阅读 · 2月18日

Demand Estimation with Text and Image Data

Arxiv

0+阅读 · 2月17日

Filtered Approximate Nearest Neighbor Search in Vector Databases: System Design and Performance Analysis

Arxiv

0+阅读 · 2月11日

Filtered Approximate Nearest Neighbor Search Cost Estimation

Arxiv

0+阅读 · 2月6日

Evaluating the impact of word embeddings on similarity scoring in practical information retrieval

Arxiv

0+阅读 · 2月5日

Approaches to Semantic Textual Similarity in Slovak Language: From Algorithms to Transformers

Arxiv

0+阅读 · 2月4日

Updatable Balanced Index for Stable Streaming Similarity Search over Large-Scale Fresh Vectors

Arxiv

0+阅读 · 1月31日

LEMUR: Learned Multi-Vector Retrieval

Arxiv

0+阅读 · 1月29日

Calibrated Similarity for Reliable Geometric Analysis of Embedding Spaces

Arxiv

0+阅读 · 1月23日

Divergence-Based Similarity Function for Multi-View Contrastive Learning

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

相似性搜索

最新内容

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

0+阅读 · 26分钟前

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

0+阅读 · 38分钟前

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

12+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

7+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

8+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

9+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

6+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

相关VIP内容

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

图表示学习还有什么研究点？北大等最新最全《深度图表示学习》综述论文，85页pdf全面详述图监督图结构等图学习技术进展

专知会员服务

60+阅读 · 2023年4月14日

【CVPR2022】海德堡大学《深度视觉相似性与度量学习》教程，200+页ppt

【CVPR2022】海德堡大学《深度视觉相似性与度量学习》教程，200+页ppt

专知会员服务

44+阅读 · 2022年6月22日

如何理解词嵌入几何结构？【Edinburgh博士论文】对词和关系表示的理论理解，97页pdf

如何理解词嵌入几何结构？【Edinburgh博士论文】对词和关系表示的理论理解，97页pdf

专知会员服务

41+阅读 · 2022年2月6日

【ICML2021】用于对比表示学习的分解互信息估计

专知会员服务

26+阅读 · 2021年9月9日

【ICML2021】互信息分解估计的对比表示学习

专知会员服务

44+阅读 · 2021年7月1日

[ICML2021]基于相似置信度学习的算法

专知会员服务

29+阅读 · 2021年6月7日

【UMASS博士论文】几何表示学习，162页pdf

专知会员服务

65+阅读 · 2021年4月11日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

专知会员服务

98+阅读 · 2019年12月31日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知会员服务

75+阅读 · 2019年10月19日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

锻造未来士兵：外骨骼、基因工程与赛博格

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

深入Project Maven：为何人工智能在战场上依然失灵

相关资讯

pytorch中六种常用的向量相似度评估方法

pytorch中六种常用的向量相似度评估方法

极市平台

22+阅读 · 2021年12月9日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

如何找到相似Graph？DeepMind提出超越GNN的图匹配网络

如何找到相似Graph？DeepMind提出超越GNN的图匹配网络

机器之心

24+阅读 · 2019年5月7日

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

AI研习社

27+阅读 · 2019年4月13日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

推荐系统算法合集，满满都是干货（建议收藏）

推荐系统算法合集，满满都是干货（建议收藏）

七月在线实验室

17+阅读 · 2018年7月23日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Rethinking ANN-based Retrieval: Multifaceted Learnable Index for Large-scale Recommendation System

Arxiv

0+阅读 · 2月18日

Demand Estimation with Text and Image Data

Arxiv

0+阅读 · 2月17日

Filtered Approximate Nearest Neighbor Search in Vector Databases: System Design and Performance Analysis

Arxiv

0+阅读 · 2月11日

Filtered Approximate Nearest Neighbor Search Cost Estimation

Arxiv

0+阅读 · 2月6日

Evaluating the impact of word embeddings on similarity scoring in practical information retrieval

Arxiv

0+阅读 · 2月5日

Approaches to Semantic Textual Similarity in Slovak Language: From Algorithms to Transformers

Arxiv

0+阅读 · 2月4日

Updatable Balanced Index for Stable Streaming Similarity Search over Large-Scale Fresh Vectors

Arxiv

0+阅读 · 1月31日

LEMUR: Learned Multi-Vector Retrieval

Arxiv

0+阅读 · 1月29日

Calibrated Similarity for Reliable Geometric Analysis of Embedding Spaces

Arxiv

0+阅读 · 1月23日

Divergence-Based Similarity Function for Multi-View Contrastive Learning

Arxiv

0+阅读 · 1月14日

相关基金

基于多关联数据融合的疾病相似度算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

曲率，第二基本形式与几何算子的相似性的研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员