Most large-scale recommender systems follow a multi-stage cascade of retrieval, pre-ranking, ranking, and re-ranking. A key challenge at the pre-ranking stage arises from the heterogeneity of training instances sampled from coarse-grained retrieval results, fine-grained ranking signals, and exposure feedback. Our analysis reveals that prevailing pre-ranking methods, which indiscriminately mix heterogeneous samples, suffer from gradient conflicts: hard samples dominate training while easy ones remain underutilized, leading to suboptimal performance. We further show that the common practice of uniformly scaling model complexity across all samples is inefficient, as it overspends computation on easy cases and slows training without proportional gains. To address these limitations, this paper presents Heterogeneity-Aware Adaptive Pre-ranking (HAP), a unified framework that mitigates gradient conflicts through conflict-sensitive sampling coupled with tailored loss design, while adaptively allocating computational budgets across candidates. Specifically, HAP disentangles easy and hard samples, directing each subset along dedicated optimization paths. Building on this separation, it first applies lightweight models to all candidates for efficient coverage, and further engages stronger models on the hard ones, maintaining accuracy while reducing cost. This approach not only improves pre-ranking effectiveness but also provides a practical perspective on scaling strategies in industrial recommender systems. HAP has been deployed in the Toutiao production system for 9 months, yielding up to 0.4% improvement in user app usage duration and 0.05% in active days, without additional computational cost. We also release a large-scale industrial hybrid-sample dataset to enable the systematic study of source-driven candidate heterogeneity in pre-ranking.


翻译:大多数大规模推荐系统遵循检索、预排序、排序和重排序的多阶段级联流程。预排序阶段的一个关键挑战源于训练实例的异质性,这些实例从粗粒度检索结果、细粒度排序信号和曝光反馈中采样得到。我们的分析表明,当前主流的预排序方法不加区分地混合异构样本,会遭受梯度冲突:困难样本主导训练,而简单样本则未被充分利用,导致次优性能。我们进一步指出,在所有样本上统一缩放模型复杂度的常见做法是低效的,因为它对简单案例过度消耗计算资源,且训练速度减慢却未带来相应增益。为应对这些局限,本文提出异构感知自适应预排序(HAP),这是一个统一框架,通过冲突敏感采样结合定制化损失设计来缓解梯度冲突,同时自适应地在候选对象间分配计算预算。具体而言,HAP 将简单样本与困难样本解耦,引导每个子集沿专用优化路径前进。基于此分离,它首先对所有候选应用轻量级模型以实现高效覆盖,并进一步对困难样本启用更强模型,在保持准确性的同时降低成本。该方法不仅提升了预排序效果,也为工业推荐系统中的扩展策略提供了实用视角。HAP 已在头条生产系统中部署9个月,在未增加计算成本的情况下,用户应用使用时长提升最高达0.4%,活跃天数提升0.05%。我们还发布了一个大规模工业混合样本数据集,以支持对预排序中源驱动的候选异质性进行系统性研究。

0
下载
关闭预览

相关内容

排序是计算机内经常进行的一种操作,其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序。若整个排序过程不需要访问外存便能完成,则称此类排序问题为内部排序。反之,若参加排序的记录数量很大,整个序列的排序过程不可能在内存中完成,则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。
基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
推荐系统融合排序的多目标寻优技术
专知会员服务
18+阅读 · 2024年8月17日
【RecSys22教程】多阶段推荐系统的神经重排序,90页ppt
专知会员服务
27+阅读 · 2022年9月30日
专知会员服务
42+阅读 · 2021年10月4日
专知会员服务
58+阅读 · 2021年8月12日
[SIGIR2021]可复现推荐系统评估的全面和严谨的框架
专知会员服务
22+阅读 · 2021年4月30日
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
推荐系统产品与算法概述 | 深度
AI100
11+阅读 · 2019年6月13日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
推荐系统算法合集,满满都是干货(建议收藏)
七月在线实验室
17+阅读 · 2018年7月23日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月8日
VIP会员
最新内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
8+阅读 · 5月1日
Palantir AIP平台:连接智能体与决策
专知会员服务
15+阅读 · 5月1日
《美海军软件测试战略》90页slides
专知会员服务
11+阅读 · 5月1日
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
11+阅读 · 4月30日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员