Recent progress in scaling large models has motivated recommender systems to increase model depth and capacity to better leverage massive behavioral data. However, recommendation inputs are high-dimensional and extremely sparse, and simply scaling dense backbones (e.g., deep MLPs) often yields diminishing returns or even performance degradation. Our analysis of industrial CTR models reveals a phenomenon of implicit connection sparsity: most learned connection weights tend towards zero, while only a small fraction remain prominent. This indicates a structural mismatch between dense connectivity and sparse recommendation data; by compelling the model to process vast low-utility connections instead of valid signals, the dense architecture itself becomes the primary bottleneck to effective pattern modeling. We propose \textbf{SSR} (Explicit \textbf{S}parsity for \textbf{S}calable \textbf{R}ecommendation), a framework that incorporates sparsity explicitly into the architecture. SSR employs a multi-view "filter-then-fuse" mechanism, decomposing inputs into parallel views for dimension-level sparse filtering followed by dense fusion. Specifically, we realize the sparsity via two strategies: a Static Random Filter that achieves efficient structural sparsity via fixed dimension subsets, and Iterative Competitive Sparse (ICS), a differentiable dynamic mechanism that employs bio-inspired competition to adaptively retain high-response dimensions. Experiments on three public datasets and a billion-scale industrial dataset from AliExpress (a global e-commerce platform) show that SSR outperforms state-of-the-art baselines under similar budgets. Crucially, SSR exhibits superior scalability, delivering continuous performance gains where dense models saturate.


翻译:大规模模型的最新进展推动了推荐系统增加模型深度和容量,以更好地利用海量行为数据。然而,推荐输入具有高维度和极度稀疏的特性,单纯扩展稠密骨干网络(例如深度多层感知机)往往导致收益递减甚至性能退化。我们针对工业点击率模型的剖析揭示了一种隐式连接稀疏性现象:大多数学习到的连接权重趋近于零,仅有少量权重保持显著。这表明稠密连接与稀疏推荐数据之间存在结构性失配——稠密架构迫使模型处理大量低效连接而非有效信号,从而成为有效模式建模的主要瓶颈。我们提出 **SSR**(面向可扩展推荐的显式稀疏性),一种显式将稀疏性融入架构的框架。SSR采用多视角“过滤-融合”机制,将输入分解为并行视角,进行维度级稀疏过滤后再进行稠密融合。具体而言,我们通过两种策略实现稀疏性:静态随机过滤器通过固定维度子集实现高效结构性稀疏,以及迭代竞争稀疏机制(ICS)——一种基于生物启发的可微分动态机制,自适应保留高响应维度。在三个公开数据集以及来自全球电商平台速卖通的十亿级工业数据集上的实验表明,SSR在相近预算下优于最先进基线方法。关键在于,SSR展现出卓越的可扩展性,在稠密模型趋于饱和时仍能持续提升性能。

0
下载
关闭预览

相关内容

【博士论文】扩展可扩展会话推荐的边界
专知会员服务
13+阅读 · 2025年8月5日
推荐系统中的扩散模型:综述
专知会员服务
21+阅读 · 2025年1月22日
【干货书】系统与控制的稀疏性方法,214页pdf
专知会员服务
40+阅读 · 2023年5月19日
【MIT博士论文】机器学习中的稀疏性:理论与应用,122页pdf
【斯坦福经典书】统计学稀疏性:Lasso与泛化性,362页pdf
专知会员服务
37+阅读 · 2020年11月15日
稀疏大模型简述:从MoE、Sparse Attention到GLaM
夕小瑶的卖萌屋
14+阅读 · 2022年3月22日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
稀疏大模型简述:从MoE、Sparse Attention到GLaM
夕小瑶的卖萌屋
14+阅读 · 2022年3月22日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
推荐召回算法之深度召回模型串讲
AINLP
22+阅读 · 2019年6月14日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员