Nearest Neighbor Search (NNS) is a fundamental problem in data structures with wide-ranging applications, such as web search, recommendation systems, and, more recently, retrieval-augmented generations (RAG). In such recent applications, in addition to the relevance (similarity) of the returned neighbors, diversity among the neighbors is a central requirement. In this paper, we develop principled welfare-based formulations in NNS for realizing diversity across attributes. Our formulations are based on welfare functions -- from mathematical economics -- that satisfy central diversity (fairness) and relevance (economic efficiency) axioms. With a particular focus on Nash social welfare, we note that our welfare-based formulations provide objective functions that adaptively balance relevance and diversity in a query-dependent manner. Notably, such a balance was not present in the prior constraint-based approach, which forced a fixed level of diversity and optimized for relevance. In addition, our formulation provides a parametric way to control the trade-off between relevance and diversity, providing practitioners with flexibility to tailor search results to task-specific requirements. We develop efficient nearest neighbor algorithms with provable guarantees for the welfare-based objectives. Notably, our algorithm can be applied on top of any standard ANN method (i.e., use standard ANN method as a subroutine) to efficiently find neighbors that approximately maximize our welfare-based objectives. Experimental results demonstrate that our approach is practical and substantially improves diversity while maintaining high relevance of the retrieved neighbors.


翻译:最近邻搜索(NNS)是数据结构中的一个基础性问题,具有广泛的应用,例如网络搜索、推荐系统,以及近年来兴起的检索增强生成(RAG)。在此类新兴应用中,除了返回近邻的相关性(相似性)之外,近邻之间的多样性也是一项核心要求。本文针对跨属性实现多样性,在NNS中建立了基于福利原则的表述。我们的表述基于福利函数——源自数理经济学——这些函数满足核心的多样性(公平性)和相关性(经济效率)公理。特别聚焦于纳什社会福利,我们指出,基于福利的表述提供了能够以查询依赖的方式自适应地平衡相关性与多样性的目标函数。值得注意的是,这种平衡在先前基于约束的方法中并不存在,该方法强制固定的多样性水平并优化相关性。此外,我们的表述提供了一种参数化的方式来控制相关性与多样性之间的权衡,为实践者提供了根据任务特定需求定制搜索结果的灵活性。我们针对基于福利的目标,开发了具有可证明保证的高效最近邻算法。值得注意的是,我们的算法可以应用于任何标准的近似最近邻(ANN)方法之上(即,将标准ANN方法作为子程序),以高效地找到近似最大化我们基于福利的目标的近邻。实验结果表明,我们的方法是实用的,在保持检索近邻高相关性的同时,显著提升了多样性。

0
下载
关闭预览

相关内容

专知会员服务
62+阅读 · 2021年3月25日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员