Behavioral patterns captured in embeddings learned from interaction data are pivotal across various stages of production recommender systems. However, in the initial retrieval stage, practitioners face an inherent tradeoff between embedding expressiveness and the scalability and latency of serving components, resulting in the need for representations that are both compact and expressive. To address this challenge, we propose a training strategy for learning high-dimensional sparse embedding layers in place of conventional dense ones, balancing efficiency, representational expressiveness, and interpretability. To demonstrate our approach, we modified the production-grade collaborative filtering autoencoder ELSA, achieving up to 10x reduction in embedding size with no loss of recommendation accuracy, and up to 100x reduction with only a 2.5% loss. Moreover, the active embedding dimensions reveal an interpretable inverted-index structure that segments items in a way directly aligned with the model's latent space, thereby enabling integration of segment-level recommendation functionality (e.g., 2D homepage layouts) within the candidate retrieval model itself. Source codes, additional results, as well as a live demo are available at https://github.com/zombak79/compressed_elsa


翻译:从交互数据中学习得到的嵌入所捕获的行为模式,在生产推荐系统的各个阶段都至关重要。然而,在初始检索阶段,从业者面临着嵌入表达能力与服务组件的可扩展性及延迟之间的固有权衡,这导致需要既紧凑又具有表达能力的表示。为应对这一挑战,我们提出了一种训练策略,用于学习高维稀疏嵌入层以替代传统的密集嵌入层,从而在效率、表示能力和可解释性之间取得平衡。为验证我们的方法,我们修改了生产级协同过滤自编码器ELSA,实现了嵌入大小最多减少10倍而推荐精度无损失,以及最多减少100倍而精度仅损失2.5%。此外,活跃的嵌入维度揭示了一种可解释的倒排索引结构,该结构以一种与模型潜在空间直接对齐的方式对物品进行分割,从而使得候选检索模型本身能够集成分段级别的推荐功能(例如,二维主页布局)。源代码、额外结果以及在线演示可在 https://github.com/zombak79/compressed_elsa 获取。

0
下载
关闭预览

相关内容

稀疏点云感知的表示学习
专知会员服务
9+阅读 · 2月9日
表格数据表示学习综述
专知会员服务
18+阅读 · 2025年4月27日
【阿姆斯特丹博士论文】表格表示学习,179页pdf
专知会员服务
36+阅读 · 2024年4月6日
【CMU博士论文】高效且可扩展的表示学习,152页pdf
专知会员服务
39+阅读 · 2023年6月12日
华为分享 异质图表示学习(异质图神经网络)
图与推荐
14+阅读 · 2020年9月10日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
网络表示学习概述
机器学习与推荐算法
20+阅读 · 2020年3月27日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
Representation Learning on Network 网络表示学习
全球人工智能
10+阅读 · 2017年10月19日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
乌军利用美国“黄蜂”无人机摧毁俄军后勤
专知会员服务
1+阅读 · 今天14:53
《支持作战级人机协同智能的交互式OODA流程》
专知会员服务
4+阅读 · 今天14:46
【伯克利博士论文】基于动作分块策略的强化学习
Transformer增强强化学习:通信网络基础与应用综述
ICML 2026 | SARDI:扩散语言模型的自增强检索
专知会员服务
6+阅读 · 6月6日
《国防领域安全采用大语言模型的战略蓝图》
专知会员服务
9+阅读 · 6月6日
ICML 2026 | 演化选择的因果建模
专知会员服务
10+阅读 · 6月5日
综述|学习式3D表征最新进展与趋势
专知会员服务
7+阅读 · 6月5日
相关资讯
华为分享 异质图表示学习(异质图神经网络)
图与推荐
14+阅读 · 2020年9月10日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
网络表示学习概述
机器学习与推荐算法
20+阅读 · 2020年3月27日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
Representation Learning on Network 网络表示学习
全球人工智能
10+阅读 · 2017年10月19日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员