Neural document retrieval often treats a corpus as a flat cloud of vectors scored at a single granularity, leaving corpus structure underused and explanations opaque. We use Cobweb--a hierarchy-aware framework--to organize sentence embeddings into a prototype tree and rank documents via coarse-to-fine traversal. Internal nodes act as concept prototypes, providing multi-granular relevance signals and a transparent rationale through retrieval paths. We instantiate two inference approaches: a generalized best-first search and a lightweight path-sum ranker. We evaluate our approaches on MS MARCO and QQP with encoder (e.g., BERT/T5) and decoder (GPT-2) representations. Our results show that our retrieval approaches match the dot product search on strong encoder embeddings while remaining robust when kNN degrades: with GPT-2 vectors, dot product performance collapses whereas our approaches still retrieve relevant results. Overall, our experiments suggest that Cobweb provides competitive effectiveness, improved robustness to embedding quality, scalability, and interpretable retrieval via hierarchical prototypes.


翻译:神经文档检索通常将语料库视为一个扁平的向量云,并在单一粒度下进行评分,这导致语料库结构未被充分利用,且检索结果的解释性不足。我们采用Cobweb——一种层级感知框架——将句子嵌入组织成原型树,并通过由粗到细的遍历对文档进行排序。内部节点充当概念原型,提供多粒度相关性信号,并通过检索路径提供透明的推理依据。我们实例化了两种推理方法:一种广义的最佳优先搜索和一种轻量化的路径总和排名器。我们在MS MARCO和QQP数据集上,使用编码器(例如BERT/T5)和解码器(GPT-2)的表示方法评估了我们的方法。结果表明,我们的检索方法在强编码器嵌入上可与点积搜索匹敌,同时在kNN性能下降时仍保持稳健:使用GPT-2向量时,点积检索性能崩溃,而我们的方法仍能检索到相关结果。总体而言,我们的实验表明,Cobweb通过层级原型提供了具有竞争力的有效性、对嵌入质量的改进鲁棒性、可扩展性以及可解释的检索。

0
下载
关闭预览

相关内容

面向语义搜索的自然语言处理
专知会员服务
60+阅读 · 2021年12月18日
【WWW2021】基于图层次相关性匹配信号的Ad-hoc 检索
专知会员服务
14+阅读 · 2021年2月25日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月22日
VIP会员
最新内容
战略前沿人工智能的再思考(中文)
专知会员服务
6+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
5+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
15+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员