Industrial recommender systems typically rely on multi-task learning to estimate diverse user feedback signals and aggregate them for ranking. Recent advances in model scaling have shown promising gains in recommendation. However, naively increasing model capacity imposes prohibitive online inference costs and often yields diminishing returns for sparse tasks with skewed label distributions. This mismatch between uniform parameter scaling and heterogeneous task capacity demands poses a fundamental challenge for scalable multi-task recommendation. In this work, we investigate parameter sparsification as a principled scaling paradigm and identify two critical obstacles when applying sparse Mixture-of-Experts (MoE) to multi-task recommendation: exploded expert activation that undermines instance-level sparsity and expert load skew caused by independent task-wise routing. To address these challenges, we propose SMES, a scalable sparse MoE framework with progressive expert routing. SMES decomposes expert activation into a task-shared expert subset jointly selected across tasks and task-adaptive private experts, explicitly bounding per-instance expert execution while preserving task-specific capacity. In addition, SMES introduces a global multi-gate load-balancing regularizer that stabilizes training by regulating aggregated expert utilization across all tasks. SMES has been deployed in Kuaishou large-scale short-video services, supporting over 400 million daily active users. Extensive online experiments demonstrate stable improvements, with GAUC gain of 0.29% and a 0.31% uplift in user watch time.


翻译:工业推荐系统通常依赖多任务学习来估计多样化的用户反馈信号,并将其聚合用于排序。模型规模扩展的最新进展在推荐领域显示出可观的性能提升。然而,简单地增加模型容量会带来极高的在线推理成本,并且对于标签分布偏斜的稀疏任务往往产生收益递减。均匀参数扩展与异构任务容量需求之间的不匹配,构成了可扩展多任务推荐的根本性挑战。本研究将参数稀疏化作为一种原则性的扩展范式进行探索,并识别出将稀疏混合专家模型应用于多任务推荐时的两个关键障碍:破坏实例级稀疏性的专家激活爆炸,以及由独立任务路由引起的专家负载倾斜。为应对这些挑战,我们提出SMES——一种具有渐进式专家路由的可扩展稀疏混合专家框架。SMES将专家激活分解为跨任务联合选择的任务共享专家子集和任务自适应的私有专家,在保持任务特定容量的同时显式约束每个实例的专家执行数量。此外,SMES引入了一个全局多门控负载均衡正则化器,通过调节所有任务的聚合专家利用率来稳定训练。SMES已在快手大规模短视频服务中部署,支持超过4亿日活跃用户。大量在线实验证明了其稳定的改进效果,GAUC提升0.29%,用户观看时长增加0.31%。

0
下载
关闭预览

相关内容

【博士论文】扩展可扩展会话推荐的边界
专知会员服务
13+阅读 · 2025年8月5日
推荐系统中的扩散模型:综述
专知会员服务
21+阅读 · 2025年1月22日
【AAAI2022】多任务推荐中的跨任务知识提炼
专知会员服务
25+阅读 · 2022年2月22日
LinkedIn《贝叶斯优化推荐系统》,IJCAI报告,142页ppt
专知会员服务
52+阅读 · 2021年1月11日
【CIKM2020】多模态知识图谱推荐系统,Multi-modal KG for RS
专知会员服务
98+阅读 · 2020年8月24日
新书推荐《推荐系统进展:方法与技术》
LibRec智能推荐
13+阅读 · 2019年3月18日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
SCENE-一个可扩展两层级新闻推荐系统
全球人工智能
11+阅读 · 2018年1月7日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员