We present Geodesic Semantic Search (GSS), a retrieval system that learns node-specific Riemannian metrics on citation graphs to enable geometry-aware semantic search. Unlike standard embedding-based retrieval that relies on fixed Euclidean distances, \gss{} learns a low-rank metric tensor $\mL_i \in \R^{d \times r}$ at each node, inducing a local positive semi-definite metric $\mG_i = \mL_i \mL_i^\top + \eps \mI$. This parameterization guarantees valid metrics while keeping the model tractable. Retrieval proceeds via multi-source Dijkstra on the learned geodesic distances, followed by Maximal Marginal Relevance reranking and path coherence filtering. On citation prediction benchmarks with 169K papers, \gss{} achieves 23\% relative improvement in Recall@20 over SPECTER+FAISS baselines while providing interpretable citation paths. Our hierarchical coarse-to-fine search with k-means pooling reduces computational cost by 4$\times$ compared to flat geodesic search while maintaining 97\% retrieval quality. We provide theoretical analysis of when geodesic distances outperform direct similarity, characterize the approximation quality of low-rank metrics, and validate predictions empirically. Code and trained models are available at https://github.com/YCRG-Labs/geodesic-search.


翻译:本文提出测地语义搜索(Geodesic Semantic Search, GSS),一种通过学习引用图上节点特定的黎曼度量来实现几何感知语义检索的系统。与依赖固定欧氏距离的标准基于嵌入的检索方法不同,GSS 在每个节点学习一个低秩度量张量 $\mL_i \in \R^{d \times r}$,从而导出一个局部半正定度量 $\mG_i = \mL_i \mL_i^\top + \eps \mI$。这种参数化保证了度量的有效性,同时保持了模型的可处理性。检索过程基于学习到的测地距离进行多源 Dijkstra 算法,随后进行最大边际相关性重排序和路径一致性过滤。在包含 16.9 万篇论文的引文预测基准测试中,GSS 在 Recall@20 指标上相比 SPECTER+FAISS 基线实现了 23% 的相对提升,同时提供了可解释的引用路径。我们提出的基于 k-means 池化的分层由粗到精搜索策略,与平坦测地搜索相比,将计算成本降低了 4 倍,同时保持了 97% 的检索质量。我们从理论上分析了测地距离优于直接相似度的条件,刻画了低秩度量的近似质量,并通过实证验证了预测结果。代码和训练好的模型可在 https://github.com/YCRG-Labs/geodesic-search 获取。

0
下载
关闭预览

相关内容

专知会员服务
65+阅读 · 2021年4月11日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
6+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
12+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
2+阅读 · 4月12日
相关VIP内容
专知会员服务
65+阅读 · 2021年4月11日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员