Hierarchical Retrieval at Scale: Bridging Transparency and Efficiency - 专知论文

会员服务 ·

0

分层 · 表示 · 粒度 · 透明性 · 系统 ·

Hierarchical Retrieval at Scale: Bridging Transparency and Efficiency

翻译：大规模分层检索：在透明性与效率之间架起桥梁

Shubham Gupta,Zichao Li,Tianyi Chen,Cem Subakan,Siva Reddy,Perouz Taslakian,Valentina Zantedeschi

Information retrieval is a core component of many intelligent systems as it enables conditioning of outputs on new and large-scale datasets. While effective, the standard practice of encoding data into high-dimensional representations for similarity search entails large memory and compute footprints, and also makes it hard to inspect the inner workings of the system. Hierarchical retrieval methods offer an interpretable alternative by organizing data at multiple granular levels, yet do not match the efficiency and performance of flat retrieval approaches. In this paper, we propose Retreever, a tree-based method that makes hierarchical retrieval viable at scale by directly optimizing its structure for retrieval performance while naturally providing transparency through meaningful semantic groupings. Our method offers the flexibility to balance cost and utility by indexing data using representations from any tree level. We show that Retreever delivers strong coarse (intermediate levels) and fine representations (terminal level), while achieving the highest retrieval accuracy at the lowest latency among hierarchical methods. These results demonstrate that this family of techniques is viable in practical applications.

翻译：信息检索作为许多智能系统的核心组件，能够基于新的大规模数据集对输出进行条件化处理。尽管标准做法将数据编码为高维表示以进行相似性搜索是有效的，但这需要大量的内存和计算资源，同时也使得系统内部工作机制难以检视。分层检索方法通过在多粒度级别组织数据，提供了一种可解释的替代方案，但其效率和性能尚未达到扁平检索方法的水平。本文提出Retreever，一种基于树结构的方法，通过直接优化检索性能的结构，使分层检索能够在大规模场景下可行，同时通过有意义的语义分组自然提供透明度。我们的方法通过使用任意树层级的表示来索引数据，提供了平衡成本与效用的灵活性。实验表明，Retreever在提供强大的粗粒度（中间层级）和细粒度（终端层级）表示的同时，在分层检索方法中实现了最高的检索精度和最低的延迟。这些结果证明此类技术在实际应用中是可行的。

0

相关内容

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

专知会员服务

37+阅读 · 2024年4月17日

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

专知会员服务

94+阅读 · 2023年8月16日

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

专知会员服务

42+阅读 · 2022年7月7日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

基于深度学习的跨模态检索综述

专知会员服务

62+阅读 · 2021年3月25日

【WWW2021】大规模层次结构中的元数据感知文本分类

专知会员服务

17+阅读 · 2021年2月17日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

专知会员服务

105+阅读 · 2020年6月13日

【论文推荐】层次知识图谱，Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

【论文推荐】层次知识图谱，Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

专知会员服务

49+阅读 · 2020年5月26日

【显著性目标检测| 2019最新综述】深度学习时代的显著目标检测（Salient Object Detection in the Deep Learning Era: An In-Depth Survey），附PDF

【显著性目标检测| 2019最新综述】深度学习时代的显著目标检测（Salient Object Detection in the Deep Learning Era: An In-Depth Survey），附PDF

专知会员服务

42+阅读 · 2019年11月23日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

83页《目标分类和目标检测综述（2D和3D数据）》论文，来自纽约城市大学

83页《目标分类和目标检测综述（2D和3D数据）》论文，来自纽约城市大学

GAN生成式对抗网络

26+阅读 · 2019年6月1日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

OmniRet: Efficient and High-Fidelity Omni Modality Retrieval

Arxiv

0+阅读 · 3月2日

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Arxiv

0+阅读 · 3月1日

Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval

Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval

Arxiv

0+阅读 · 2月19日

Scaling Reproducibility: An AI-Assisted Workflow for Large-Scale Reanalysis

Arxiv

0+阅读 · 2月17日

Reason to Retrieve: Enhancing Query Understanding through Decomposition and Interpretation

Arxiv

0+阅读 · 2月10日

Learning to Select: Query-Aware Adaptive Dimension Selection for Dense Retrieval

Arxiv

0+阅读 · 2月7日

Towards Efficient Data Structures for Approximate Search with Range Queries

Arxiv

0+阅读 · 2月6日

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Arxiv

0+阅读 · 2月5日

LILaC: Late Interacting in Layered Component Graph for Open-domain Multimodal Multihop Retrieval

Arxiv

0+阅读 · 2月4日

Deep Search with Hierarchical Meta-Cognitive Monitoring Inspired by Cognitive Neuroscience

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

专知会员服务

2+阅读 · 35分钟前

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

专知会员服务

2+阅读 · 41分钟前

人工智能重塑威慑：算法优势的兴起

人工智能重塑威慑：算法优势的兴起

专知会员服务

2+阅读 · 今天14:27

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

10+阅读 · 6月4日

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

14+阅读 · 6月4日

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

9+阅读 · 6月4日

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

《军用物联网：架构、应用、挑战与现代战争中的战略意义》

专知会员服务

8+阅读 · 6月4日

《人工智能的挑战：算法战的想象与现实》

《人工智能的挑战：算法战的想象与现实》

专知会员服务

11+阅读 · 6月4日

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

《自适应智能：融合数字孪生精准性与人工智能预见力，实现实时决策》

专知会员服务

13+阅读 · 6月4日

首场人工智能战争：Maven如何重塑武装冲突

首场人工智能战争：Maven如何重塑武装冲突

专知会员服务

7+阅读 · 6月4日

【博士论文】抽象信息论与安全奖励学习的数学发展

【博士论文】抽象信息论与安全奖励学习的数学发展

专知会员服务

9+阅读 · 6月3日

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

综述 | 机器人操作世界模型：预测、行动接口与学习生命周期

专知会员服务

6+阅读 · 6月3日

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

《推进军事决策支持：运用强化学习驱动仿真的稳健作战计划验证》

专知会员服务

13+阅读 · 6月3日

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

详解人工智能赋能战争的旗舰软件平台：Maven智能系统

专知会员服务

22+阅读 · 6月3日

《发展用于决策支持的化生放核（CBRN）态势理解》

《发展用于决策支持的化生放核（CBRN）态势理解》

专知会员服务

8+阅读 · 6月3日

相关VIP内容

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

【大模型+搜索】AI搜索行业深度：大模型催生搜索行业变革机遇，产品百花齐放效果几何

专知会员服务

37+阅读 · 2024年4月17日

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

专知会员服务

94+阅读 · 2023年8月16日

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

专知会员服务

42+阅读 · 2022年7月7日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

基于深度学习的跨模态检索综述

专知会员服务

62+阅读 · 2021年3月25日

【WWW2021】大规模层次结构中的元数据感知文本分类

专知会员服务

17+阅读 · 2021年2月17日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

【斯坦福大学博士论文】大规模和高维统计学习方法和算法，147页pdf

专知会员服务

105+阅读 · 2020年6月13日

【论文推荐】层次知识图谱，Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

【论文推荐】层次知识图谱，Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

专知会员服务

49+阅读 · 2020年5月26日

【显著性目标检测| 2019最新综述】深度学习时代的显著目标检测（Salient Object Detection in the Deep Learning Era: An In-Depth Survey），附PDF

【显著性目标检测| 2019最新综述】深度学习时代的显著目标检测（Salient Object Detection in the Deep Learning Era: An In-Depth Survey），附PDF

专知会员服务

42+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

人工智能重塑威慑：算法优势的兴起

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

【图神经网络多模态检索】Multi-Modal Retrieval using Graph Neural Networks

专知

12+阅读 · 2020年10月9日

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

【综述】3D数据分类深度学习方法综述，25页论文带你全面了解最新进展

中国人工智能学会

20+阅读 · 2019年7月17日

83页《目标分类和目标检测综述（2D和3D数据）》论文，来自纽约城市大学

83页《目标分类和目标检测综述（2D和3D数据）》论文，来自纽约城市大学

GAN生成式对抗网络

26+阅读 · 2019年6月1日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

相关论文

OmniRet: Efficient and High-Fidelity Omni Modality Retrieval

Arxiv

0+阅读 · 3月2日

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Arxiv

0+阅读 · 3月1日

Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval

Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval

Arxiv

0+阅读 · 2月19日

Scaling Reproducibility: An AI-Assisted Workflow for Large-Scale Reanalysis

Arxiv

0+阅读 · 2月17日

Reason to Retrieve: Enhancing Query Understanding through Decomposition and Interpretation

Arxiv

0+阅读 · 2月10日

Learning to Select: Query-Aware Adaptive Dimension Selection for Dense Retrieval

Arxiv

0+阅读 · 2月7日

Towards Efficient Data Structures for Approximate Search with Range Queries

Arxiv

0+阅读 · 2月6日

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Arxiv

0+阅读 · 2月5日

LILaC: Late Interacting in Layered Component Graph for Open-domain Multimodal Multihop Retrieval

Arxiv

0+阅读 · 2月4日

Deep Search with Hierarchical Meta-Cognitive Monitoring Inspired by Cognitive Neuroscience

Arxiv

0+阅读 · 1月30日

相关基金

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于对象模型与多点空间统计的高分辨率遥感影像分类策略

国家自然科学基金

4+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据跨媒体检索的多模态哈希学习方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员