We propose a two-stage "Mine and Refine" contrastive training framework for semantic text embeddings to enhance multi-category e-commerce search retrieval. Large scale e-commerce search demands embeddings that generalize to long tail, noisy queries while adhering to scalable supervision compatible with product and policy constraints. A practical challenge is that relevance is often graded: users accept substitutes or complements beyond exact matches, and production systems benefit from clear separation of similarity scores across these relevance strata for stable hybrid blending and thresholding. To obtain scalable policy consistent supervision, we fine-tune a lightweight LLM on human annotations under a three-level relevance guideline and further reduce residual noise via engagement driven auditing. In Stage 1, we train a multilingual Siamese two-tower retriever with a label aware supervised contrastive objective that shapes a robust global semantic space. In Stage 2, we mine hard samples via ANN and re-annotate them with the policy aligned LLM, and introduce a multi-class extension of circle loss that explicitly sharpens similarity boundaries between relevance levels, to further refine and enrich the embedding space. Robustness is additionally improved through additive spelling augmentation and synthetic query generation. Extensive offline evaluations and production A/B tests show that our framework improves retrieval relevance and delivers statistically significant gains in engagement and business impact.


翻译:我们提出了一种用于语义文本嵌入的两阶段"挖掘与精炼"对比训练框架,以增强多类别电商搜索检索。大规模电商搜索需要能够泛化至长尾、噪声查询的嵌入表示,同时遵循与产品和策略约束兼容的可扩展监督。一个实际挑战在于相关性通常是分级的:用户接受精确匹配之外的替代品或互补品,而生产系统则受益于在这些相关性层级间清晰区分的相似度分数,以实现稳定的混合融合与阈值处理。为获得可扩展且策略一致的监督,我们在三级相关性标注准则下对轻量级LLM进行微调,并通过参与度驱动的审核进一步减少残留噪声。在第一阶段,我们采用标签感知的监督对比目标训练一个多语言孪生双塔检索器,以构建稳健的全局语义空间。在第二阶段,我们通过近似最近邻挖掘困难样本,并使用策略对齐的LLM对其重新标注,同时引入圆形损失的多类别扩展,以显式锐化不同相关性层级间的相似度边界,从而进一步精炼和丰富嵌入空间。通过附加的拼写增强与合成查询生成,模型的鲁棒性得到额外提升。大量离线评估与生产环境A/B测试表明,我们的框架提升了检索相关性,并在用户参与度与业务影响方面取得了统计显著的增益。

0
下载
关闭预览

相关内容

【博士论文】电商搜索中的排序学习
专知会员服务
13+阅读 · 2025年11月15日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
【博士论文】电商搜索中的排序学习
专知会员服务
13+阅读 · 2025年11月15日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员