Modern search systems rely on a fast first stage retriever to fetch relevant items from a massive catalog of items. Deployed search systems often use user engagement signals to supervise bi-encoder retriever training at scale, because these signals are continuously logged from real traffic and require no additional annotation effort. However, engagement is an imperfect proxy for semantic relevance. Items may receive interactions due to popularity, promotion, attractive visuals, titles, or price, despite weak query-item relevance. These limitations are further accentuated in Walmart's e-commerce sponsored search. User engagement on ad items is often structurally sparse because the frequency with which an ad is shown depends on factors beyond relevance such as whether the advertiser is currently running that ad, the outcome of the auction for available ad slots, bid competitiveness, and advertiser budget. Thus, even highly relevant query ad pairs can have limited engagement signals simply due to limited impressions. We propose a bi-encoder training framework for Walmart's sponsored search retrieval in e-commerce that uses semantic relevance as the primary supervision signal, with engagement used only as a preference signal among relevant items. Concretely, we construct a context-rich training target by combining 1. graded relevance labels from a cascade of cross-encoder teacher models, 2. a multichannel retrieval prior score derived from the rank positions and cross-channel agreement of retrieval systems running in production, and 3. user engagement applied only to semantically relevant items to refine preferences. Our approach outperforms the current production system in both offline evaluation and online AB tests, yielding consistent gains in average relevance and NDCG.


翻译:现代搜索系统依赖快速的第一阶段检索器从海量商品目录中获取相关商品。部署的搜索系统通常利用用户参与信号来监督双编码器检索器的大规模训练,因为这些信号可从真实流量中持续采集且无需额外标注成本。然而,用户参与是语义相关性的不完美代理指标:商品可能因流行度、促销、视觉吸引力、标题或价格获得交互行为,即使查询-商品相关性较弱。这些局限在沃尔玛电商赞助搜索中尤为突出。广告商品的用户参与信号往往呈现结构性稀疏特征,因为广告展示频率取决于相关性之外的因素,例如广告主是否正在投放该广告、可用广告位的竞价结果、竞价竞争力及广告主预算。因此,即使是高度相关的查询-广告对也可能因展示量有限而缺乏充分的参与信号。我们提出面向电商赞助搜索检索的双编码器训练框架,以语义相关性作为主要监督信号,用户参与仅作为相关商品间的偏好信号。具体而言,我们通过三方面构建具有丰富上下文的训练目标:(1) 来自级联交叉编码器教师模型的分级相关性标签,(2) 基于生产系统中运行的多通道检索器排序位置及跨通道一致性推导的多通道检索先验得分,(3) 仅对语义相关商品施加的用户参与信号以优化偏好排序。该方法在离线评估和在线AB测试中均优于当前生产系统,在平均相关性和NDCG指标上取得一致提升。

0
下载
关闭预览

相关内容

WSDM'22「百度」考虑行为多样性的对比元学习
专知会员服务
24+阅读 · 2022年2月21日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
一文教你构建图书推荐系统【附代码】
机器学习算法与Python学习
10+阅读 · 2018年9月16日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
《通往人工通用智能之路上的均衡策略》
专知会员服务
1+阅读 · 今天14:22
《人工智能与军事整合:现状与未来风险》报告
专知会员服务
2+阅读 · 今天14:12
《Palantir的科技生态系统》
专知会员服务
14+阅读 · 6月2日
《反无人机系统传感器融合》90页报告
专知会员服务
16+阅读 · 6月2日
运用人工智能与卫星通信驱散“战争迷雾”
专知会员服务
8+阅读 · 6月2日
相关VIP内容
WSDM'22「百度」考虑行为多样性的对比元学习
专知会员服务
24+阅读 · 2022年2月21日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
相关资讯
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
一文教你构建图书推荐系统【附代码】
机器学习算法与Python学习
10+阅读 · 2018年9月16日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员