Differentiable Geometric Indexing for End-to-End Generative Retrieval - 专知论文

会员服务 ·

0

生成式检索 · 端到端 · 构建 · 内积 · 各向同性 ·

Differentiable Geometric Indexing for End-to-End Generative Retrieval

翻译：可微分几何索引：面向端到端生成式检索的统一框架

Xujing Wang,Yufeng Chen,Boxuan Zhang,Jie Zhao,Chao Wei,Cai Xu,Ziyu Guan,Wei Zhao,Weiru Zhang,Xiaoyi Zeng

Generative Retrieval (GR) has emerged as a promising paradigm to unify indexing and search within a single probabilistic framework. However, existing approaches suffer from two intrinsic conflicts: (1) an Optimization Blockage, where the non-differentiable nature of discrete indexing creates a gradient blockage, decoupling index construction from the downstream retrieval objective; and (2) a Geometric Conflict, where standard unnormalized inner-product objectives induce norm-inflation instability, causing popular "hub" items to geometrically overshadow relevant long-tail items. To systematically resolve these misalignments, we propose Differentiable Geometric Indexing (DGI). First, to bridge the optimization gap, DGI enforces Operational Unification. It employs Soft Teacher Forcing via Gumbel-Softmax to establish a fully differentiable pathway, combined with Symmetric Weight Sharing to effectively align the quantizer's indexing space with the retriever's decoding space. Second, to restore geometric fidelity, DGI introduces Isotropic Geometric Optimization. We replace inner-product logits with scaled cosine similarity on the unit hypersphere to effectively decouple popularity bias from semantic relevance. Extensive experiments on large-scale industry search datasets and online e-commerce platform demonstrate that DGI outperforms competitive sparse, dense, and generative baselines. Notably, DGI exhibits superior robustness in long-tail scenarios, validating the necessity of harmonizing structural differentiability with geometric isotropy.

翻译：生成式检索作为一种有前景的范式，将索引构建与搜索过程统一于单一概率框架中。然而，现有方法存在两个内在冲突：（1）优化阻塞问题：离散索引的不可微分特性导致梯度阻塞，使索引构建与下游检索目标脱节；（2）几何冲突问题：标准未归一化内积目标引发范数膨胀不稳定性，导致热门"枢纽"项在几何空间上遮蔽相关长尾项。为系统解决这些错位问题，本文提出可微分几何索引方法。首先，为弥合优化鸿沟，DGI实施操作统一机制：通过Gumbel-Softmax实现软教师强制训练以建立全微分路径，并结合对称权重共享技术，使量化器的索引空间与检索器的解码空间有效对齐。其次，为恢复几何保真度，DGI引入各向同性几何优化：将内积对数替换为单位超球面上的缩放余弦相似度，从而有效解耦流行度偏差与语义相关性。在大规模工业搜索数据集和在线电商平台上的实验表明，DGI在稀疏检索、稠密检索和生成式基线方法中均取得优越性能。值得注意的是，DGI在长尾场景中展现出卓越的鲁棒性，验证了结构可微分性与几何各向同性协同优化的必要性。

0

相关内容

生成式检索

生成式检索

生成式检索基础

生成式检索基础

专知会员服务

18+阅读 · 2025年1月28日

何恺明NeurIPS 2024论文《无条件生成的回归：一种自监督表征生成方法》

何恺明NeurIPS 2024论文《无条件生成的回归：一种自监督表征生成方法》

专知会员服务

21+阅读 · 2024年11月4日

小红书搜索：生成式检索的探索与实践

小红书搜索：生成式检索的探索与实践

专知会员服务

34+阅读 · 2024年10月5日

生成式信息检索综述

生成式信息检索综述

专知会员服务

35+阅读 · 2024年6月5日

大模型如何做检索？WWW2024教程《生成式信息检索》附115页ppt

大模型如何做检索？WWW2024教程《生成式信息检索》附115页ppt

专知会员服务

35+阅读 · 2024年5月21日

【SIGIR2024】生成检索作即多向量密集检索

【SIGIR2024】生成检索作即多向量密集检索

专知会员服务

23+阅读 · 2024年4月5日

最新《生成式数据增强的统一框架》综述，85页pdf

最新《生成式数据增强的统一框架》综述，85页pdf

专知会员服务

65+阅读 · 2023年10月8日

【斯坦福博士论文】生成模型中深度概率推理的扩展与应用，262页pdf

【斯坦福博士论文】生成模型中深度概率推理的扩展与应用，262页pdf

专知会员服务

67+阅读 · 2022年11月30日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【CCF优秀博士学位论文奖-2019】面向多种学习任务的深度生成模型，清华大学李崇轩

【CCF优秀博士学位论文奖-2019】面向多种学习任务的深度生成模型，清华大学李崇轩

专知会员服务

52+阅读 · 2019年11月8日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

专知

14+阅读 · 2018年6月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

积分型样条函数逼近新理论、新方法及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶偏微分方程的不变流形

国家自然科学基金

0+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

三维场景中基于空间方向关系的混合索引结构研究

国家自然科学基金

0+阅读 · 2015年12月31日

几何与随机分析及其应用交叉平台

国家自然科学基金

0+阅读 · 2014年12月31日

适定的多元样条逼近方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

Arxiv

0+阅读 · 3月10日

PinRec: Outcome-Conditioned, Multi-Token Generative Retrieval for Industry-Scale Recommendation Systems

Arxiv

0+阅读 · 3月4日

Reasoning by Exploration: A Unified Approach to Retrieval and Generation over Graphs

Arxiv

0+阅读 · 2月27日

Towards Efficient and Generalizable Retrieval: Adaptive Semantic Quantization and Residual Knowledge Transfer

Arxiv

0+阅读 · 2月27日

UniFAR: A Unified Facet-Aware Retrieval Framework for Scientific Documents

Arxiv

0+阅读 · 2月27日

PinRec: Unified Generative Retrieval for Pinterest Recommender Systems

Arxiv

0+阅读 · 2月23日

Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization

Arxiv

1+阅读 · 2月17日

Explore Intrinsic Geometry for Query-based Tiny and Oriented Object Detector with Momentum-based Bipartite Matching

Arxiv

0+阅读 · 2月14日

Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation

Arxiv

0+阅读 · 2月11日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

VIP会员

文章信息

相关主题

生成式检索

最新内容

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

0+阅读 · 5分钟前

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

0+阅读 · 12分钟前

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

10+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

4+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

8+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

6+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

10+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

20+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

12+阅读 · 4月29日

相关VIP内容

生成式检索基础

生成式检索基础

专知会员服务

18+阅读 · 2025年1月28日

何恺明NeurIPS 2024论文《无条件生成的回归：一种自监督表征生成方法》

何恺明NeurIPS 2024论文《无条件生成的回归：一种自监督表征生成方法》

专知会员服务

21+阅读 · 2024年11月4日

小红书搜索：生成式检索的探索与实践

小红书搜索：生成式检索的探索与实践

专知会员服务

34+阅读 · 2024年10月5日

生成式信息检索综述

生成式信息检索综述

专知会员服务

35+阅读 · 2024年6月5日

大模型如何做检索？WWW2024教程《生成式信息检索》附115页ppt

大模型如何做检索？WWW2024教程《生成式信息检索》附115页ppt

专知会员服务

35+阅读 · 2024年5月21日

【SIGIR2024】生成检索作即多向量密集检索

【SIGIR2024】生成检索作即多向量密集检索

专知会员服务

23+阅读 · 2024年4月5日

最新《生成式数据增强的统一框架》综述，85页pdf

最新《生成式数据增强的统一框架》综述，85页pdf

专知会员服务

65+阅读 · 2023年10月8日

【斯坦福博士论文】生成模型中深度概率推理的扩展与应用，262页pdf

【斯坦福博士论文】生成模型中深度概率推理的扩展与应用，262页pdf

专知会员服务

67+阅读 · 2022年11月30日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【CCF优秀博士学位论文奖-2019】面向多种学习任务的深度生成模型，清华大学李崇轩

【CCF优秀博士学位论文奖-2019】面向多种学习任务的深度生成模型，清华大学李崇轩

专知会员服务

52+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

面向具身智能与机器人仿真的三维生成：综述

《人工智能在全球军事与武器工业中的应用、方法论与影响》

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

视频生成的前沿论文，看我们推荐的7篇就够了

视频生成的前沿论文，看我们推荐的7篇就够了

人工智能前沿讲习班

34+阅读 · 2018年12月30日

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

【论文推荐】最新六篇图像检索相关论文—多模态反馈、二值约束深度哈希、绘制草图、对话交互式、多目标图像检索

专知

14+阅读 · 2018年6月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

相关论文

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

Arxiv

0+阅读 · 3月10日

PinRec: Outcome-Conditioned, Multi-Token Generative Retrieval for Industry-Scale Recommendation Systems

Arxiv

0+阅读 · 3月4日

Reasoning by Exploration: A Unified Approach to Retrieval and Generation over Graphs

Arxiv

0+阅读 · 2月27日

Towards Efficient and Generalizable Retrieval: Adaptive Semantic Quantization and Residual Knowledge Transfer

Arxiv

0+阅读 · 2月27日

UniFAR: A Unified Facet-Aware Retrieval Framework for Scientific Documents

Arxiv

0+阅读 · 2月27日

PinRec: Unified Generative Retrieval for Pinterest Recommender Systems

Arxiv

0+阅读 · 2月23日

Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization

Arxiv

1+阅读 · 2月17日

Explore Intrinsic Geometry for Query-based Tiny and Oriented Object Detector with Momentum-based Bipartite Matching

Arxiv

0+阅读 · 2月14日

Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation

Arxiv

0+阅读 · 2月11日

Cross-Modal Retrieval: A Systematic Review of Methods and Future Directions

Arxiv

15+阅读 · 2023年8月28日

相关基金

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

积分型样条函数逼近新理论、新方法及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶偏微分方程的不变流形

国家自然科学基金

0+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

三维场景中基于空间方向关系的混合索引结构研究

国家自然科学基金

0+阅读 · 2015年12月31日

几何与随机分析及其应用交叉平台

国家自然科学基金

0+阅读 · 2014年12月31日

适定的多元样条逼近方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员