Semantic embeddings to represent objects such as image, text and audio are widely used in machine learning and have spurred the development of vector similarity search methods for retrieving semantically related objects. In this work, we study the sibling task of estimating a sum over all objects in a set, such as the kernel density estimate (KDE) and the normalizing constant for softmax distributions. While existing solutions provably reduce the sum estimation task to acquiring $\mathcal{O}(\sqrt{n})$ most similar vectors, where $n$ is the number of objects, we introduce a novel algorithm that only requires $\mathcal{O}(\log(n))$ most similar vectors. Our approach randomly assigns objects to levels with exponentially-decaying probabilities and constructs a vector similarity search data structure for each level. With the top-$k$ objects from each level, we propose an unbiased estimate of the sum and prove a high-probability relative error bound. We run experiments on OpenImages and Amazon Reviews with a vector similar search implementation to show that our method can achieve lower error using less computational time than existing reductions. We show results on applications in estimating densities, computing softmax denominators, and counting the number of vectors within a ball.


翻译:在机器学习中,广泛使用语义嵌入来表示图像、文本和音频等对象,并推动了用于检索语义相关对象的向量相似性搜索方法的发展。在本工作中,我们研究其姊妹任务:估计集合中所有对象的和,例如核密度估计(KDE)和 softmax 分布归一化常数的计算。虽然现有解决方案在理论上将和估计任务简化为获取 $\mathcal{O}(\sqrt{n})$ 个最相似向量(其中 $n$ 为对象数量),但我们提出了一种新颖算法,仅需 $\mathcal{O}(\log(n))$ 个最相似向量。我们的方法以指数衰减的概率将对象随机分配到不同层级,并为每个层级构建一个向量相似性搜索数据结构。利用从每个层级获取的前 $k$ 个对象,我们提出了一个无偏的和估计量,并证明了其高概率相对误差界。我们在 OpenImages 和 Amazon Reviews 数据集上使用向量相似性搜索实现进行了实验,结果表明,与现有的归约方法相比,我们的方法能够以更少的计算时间实现更低的误差。我们展示了该方法在密度估计、计算 softmax 分母以及统计球内向量数量等应用中的结果。

0
下载
关闭预览

相关内容

专知会员服务
26+阅读 · 2021年9月9日
专知会员服务
44+阅读 · 2021年7月1日
专知会员服务
29+阅读 · 2021年6月7日
专知会员服务
65+阅读 · 2021年4月11日
pytorch中六种常用的向量相似度评估方法
极市平台
22+阅读 · 2021年12月9日
推荐系统算法合集,满满都是干货(建议收藏)
七月在线实验室
17+阅读 · 2018年7月23日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2月17日
Arxiv
0+阅读 · 1月29日
VIP会员
相关资讯
pytorch中六种常用的向量相似度评估方法
极市平台
22+阅读 · 2021年12月9日
推荐系统算法合集,满满都是干货(建议收藏)
七月在线实验室
17+阅读 · 2018年7月23日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员