Deriving predictable scaling laws that govern the relationship between model performance and computational investment is crucial for designing and allocating resources in massive-scale recommendation systems. While such laws are established for large language models, they remain challenging for recommendation systems, especially those processing both user history and context features. We identify poor scaling efficiency as the main barrier to predictable power-law scaling, stemming from inefficient modules with low Model FLOPs Utilization (MFU) and suboptimal resource allocation. We introduce Kunlun, a scalable architecture that systematically improves model efficiency and resource allocation. Our low-level optimizations include Generalized Dot-Product Attention (GDPA), Hierarchical Seed Pooling (HSP), and Sliding Window Attention. Our high-level innovations feature Computation Skip (CompSkip) and Event-level Personalization. These advances increase MFU from 17% to 37% on NVIDIA B200 GPUs and double scaling efficiency over state-of-the-art methods. Kunlun is now deployed in major Meta Ads models, delivering significant production impact.


翻译:推导可预测的缩放定律(scaling laws)以刻画模型性能与计算投入之间的关系,对于大规模推荐系统的设计与资源分配至关重要。尽管此类定律已在大型语言模型中确立,但在推荐系统中——特别是那些同时处理用户历史与上下文特征的推荐系统——仍面临挑战。我们将低缩放效率(scaling efficiency)识别为阻碍可预测幂律缩放(power-law scaling)的主要障碍,其根源在于低模型算力利用率(Model FLOPs Utilization, MFU)的低效模块与次优资源分配。我们提出Kunlun——一种可扩展架构,系统性地提升模型效率与资源分配。其底层优化包括广义点积注意力(Generalized Dot-Product Attention, GDPA)、层次化种子池化(Hierarchical Seed Pooling, HSP)与滑动窗口注意力(Sliding Window Attention)。高层创新则涵盖计算跳过(Computation Skip, CompSkip)与事件级个性化(Event-level Personalization)。这些进展在NVIDIA B200 GPU上将MFU从17%提升至37%,且缩放效率较当前最优方法翻倍。目前Kunlun已部署于Meta主要广告模型,并带来显著的生产影响。

0
下载
关闭预览

相关内容

神经缩放定律的起源:从随机图到自然语言
专知会员服务
14+阅读 · 1月17日
大规模语言模型增强推荐系统:分类、趋势、应用与未来
专知会员服务
40+阅读 · 2024年12月22日
图嵌入推荐系统技术综述,64页pdf422篇文献
专知会员服务
65+阅读 · 2021年9月22日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
新书推荐《推荐系统进展:方法与技术》
LibRec智能推荐
13+阅读 · 2019年3月18日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
推荐系统概述
Linux爱好者
20+阅读 · 2018年9月6日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月25日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
5+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关VIP内容
神经缩放定律的起源:从随机图到自然语言
专知会员服务
14+阅读 · 1月17日
大规模语言模型增强推荐系统:分类、趋势、应用与未来
专知会员服务
40+阅读 · 2024年12月22日
图嵌入推荐系统技术综述,64页pdf422篇文献
专知会员服务
65+阅读 · 2021年9月22日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员