Dense retrieval has become the industry standard in large-scale information retrieval systems due to its high efficiency and competitive accuracy. Its core relies on a coarse-to-fine hierarchical architecture that enables rapid candidate selection and precise semantic matching, achieving millisecond-level response over billion-scale corpora. This capability makes it essential not only in traditional search and recommendation scenarios but also in the emerging paradigm of generative recommendation driven by large language models, where semantic IDs-themselves a form of coarse-to-fine representation-play a foundational role. However, the widely adopted dual-tower encoding architecture introduces inherent challenges, primarily representational space misalignment and retrieval index inconsistency, which degrade matching accuracy, retrieval stability, and performance on long-tail queries. These issues are further magnified in semantic ID generation, ultimately limiting the performance ceiling of downstream generative models. To address these challenges, this paper proposes a simple and effective framework named SCI comprising two synergistic modules: a symmetric representation alignment module that employs an innovative input-swapping mechanism to unify the dual-tower representation space without adding parameters, and an consistent indexing with dual-tower synergy module that redesigns retrieval paths using a dual-view indexing strategy to maintain consistency from training to inference. The framework is systematic, lightweight, and engineering-friendly, requiring minimal overhead while fully supporting billion-scale deployment. We provide theoretical guarantees for our approach, with its effectiveness validated by results across public datasets and real-world e-commerce datasets.


翻译:稠密检索凭借其高效率与竞争力强的准确性,已成为大规模信息检索系统的行业标准。其核心依赖于一种由粗到精的层次化架构,能够实现快速候选选择与精确语义匹配,在十亿级语料库上达到毫秒级响应。这一能力使其不仅在传统搜索与推荐场景中不可或缺,也在由大语言模型驱动的新兴生成式推荐范式中发挥关键作用——其中语义ID(其本身即为一种由粗到精的表示形式)扮演着基础性角色。然而,广泛采用的双塔编码架构引入了固有挑战,主要表现为表示空间失配与检索索引不一致,从而降低了匹配精度、检索稳定性以及对长尾查询的性能。这些问题在语义ID生成中被进一步放大,最终限制了下游生成模型的性能上限。为应对这些挑战,本文提出一种名为SCI的简单有效框架,包含两个协同模块:对称表示对齐模块采用创新的输入交换机制,在不增加参数的情况下统一双塔表示空间;以及双塔协同一致性索引模块,通过双视角索引策略重新设计检索路径,以保持从训练到推理的一致性。该框架系统化、轻量化且工程友好,在完全支持十亿级部署的同时仅需极低开销。我们为该方法提供了理论保证,其有效性已在公开数据集和真实世界电商数据集的结果中得到验证。

0
下载
关闭预览

相关内容

专知会员服务
11+阅读 · 2021年10月3日
专知会员服务
27+阅读 · 2021年2月2日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员