Deep learning-based recommendation systems (e.g., DLRMs) are widely used AI models to provide high-quality personalized recommendations. Training data used for modern recommendation systems commonly includes categorical features taking on tens-of-millions of possible distinct values. These categorical tokens are typically assigned learned vector representations, that are stored in large embedding tables, on the order of 100s of GB. Storing and accessing these tables represent a substantial burden in commercial deployments. Our work proposes MEM-REC, a novel alternative representation approach for embedding tables. MEM-REC leverages bloom filters and hashing methods to encode categorical features using two cache-friendly embedding tables. The first table (token embedding) contains raw embeddings (i.e. learned vector representation), and the second table (weight embedding), which is much smaller, contains weights to scale these raw embeddings to provide better discriminative capability to each data point. We provide a detailed architecture, design and analysis of MEM-REC addressing trade-offs in accuracy and computation requirements, in comparison with state-of-the-art techniques. We show that MEM-REC can not only maintain the recommendation quality and significantly reduce the memory footprint for commercial scale recommendation models but can also improve the embedding latency. In particular, based on our results, MEM-REC compresses the MLPerf CriteoTB benchmark DLRM model size by 2900x and performs up to 3.4x faster embeddings while achieving the same AUC as that of the full uncompressed model.


翻译:基于深度学习的推荐系统(如DLRM)是广泛用于提供高质量个性化推荐的AI模型。现代推荐系统使用的训练数据通常包含具有数千万种可能取值的分类特征。这些分类标记通常被分配学习到的向量表示,并存储于大型嵌入表中,其规模可达数百GB量级。存储和访问这些表格在商业部署中构成了沉重负担。本文提出MEM-REC,一种新颖的嵌入表替代表示方法。MEM-REC利用布隆过滤器和哈希方法,通过两个缓存友好的嵌入表对分类特征进行编码。第一个表(标记嵌入表)包含原始嵌入(即学习到的向量表示),第二个表(权重嵌入表)规模显著更小,包含用于缩放这些原始嵌入的权重,从而为每个数据点提供更好的区分能力。我们详细阐述了MEM-REC的架构、设计及分析,权衡了精度与计算需求,并与最先进技术进行了比较。实验表明,MEM-REC不仅能保持推荐质量并显著降低商业规模推荐模型的内存占用,还能提升嵌入延迟。具体而言,基于我们的实验结果,MEM-REC将MLPerf CriteoTB基准DLRM模型尺寸压缩了2900倍,在达到与完整未压缩模型相同AUC的同时,嵌入速度提升最高达3.4倍。

0
下载
关闭预览

相关内容

【AAAI2025】TimeDP:通过领域提示学习生成多领域时间序列
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员