Modern deep recommender models are trained under a continual learning paradigm, relying on massive and continuously growing streaming behavioral logs. In large-scale platforms, retraining models on full historical data for architecture comparison or iteration is prohibitively expensive, severely slowing down model development. This challenge calls for data-efficient approaches that can faithfully approximate full-data training behavior without repeatedly processing the entire evolving data stream. We formulate this problem as \emph{streaming dataset distillation for recommender systems} and propose \textbf{DIET}, a unified framework that maintains a compact distilled dataset which evolves alongside streaming data while preserving training-critical signals. Unlike existing dataset distillation methods that construct a static distilled set, DIET models distilled data as an evolving training memory and updates it in a stage-wise manner to remain aligned with long-term training dynamics. DIET enables effective continual distillation through principled initialization from influential samples and selective updates guided by influence-aware memory addressing within a bi-level optimization framework. Experiments on large-scale recommendation benchmarks demonstrate that DIET compresses training data to as little as \textbf{1-2\%} of the original size while preserving performance trends consistent with full-data training, reducing model iteration cost by up to \textbf{60$\times$}. Moreover, the distilled datasets produced by DIET generalize well across different model architectures, highlighting streaming dataset distillation as a scalable and reusable data foundation for recommender system development.


翻译:现代深度推荐模型在持续学习范式下训练,依赖海量且不断增长的流式行为日志。在大型平台中,基于全部历史数据重新训练模型以进行架构比较或迭代的成本极其高昂,严重拖慢了模型开发速度。这一挑战催生了数据高效方法的需求:能够忠实逼近全数据训练行为,而无需重复处理整个演化的数据流。我们将此问题形式化为“推荐系统的流式数据集蒸馏”,并提出**DIET**——一个统一框架,用于维护一个紧凑的蒸馏数据集,该数据集随流式数据演化,同时保留训练关键信号。与构建静态蒸馏集的现有数据集蒸馏方法不同,DIET将蒸馏数据建模为不断演化的训练记忆,并以阶段式方式更新,使其与长期训练动态保持一致。DIET通过基于影响力样本的原则性初始化,以及在双层优化框架内由影响力感知的存储器寻址引导的选择性更新,实现了有效的持续蒸馏。在大规模推荐基准上的实验表明,DIET可将训练数据压缩至原始规模的**1-2%**,同时保持与全数据训练一致的性能趋势,将模型迭代成本降低高达**60倍**。此外,DIET生成的蒸馏数据集在不同模型架构间具有良好的泛化能力,凸显了流式数据集蒸馏作为推荐系统开发中可扩展且可复用的数据基础的价值。

0
下载
关闭预览

相关内容

持续学习的研究进展与趋势
专知会员服务
46+阅读 · 2024年3月8日
持续学习:研究综述
专知会员服务
83+阅读 · 2023年1月30日
【牛津大学博士论文】持续学习的高效机器学习,213页pdf
专知会员服务
84+阅读 · 2022年10月19日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
南洋理工大学,深度学习推荐系统综述
专知会员服务
177+阅读 · 2019年10月14日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
深度学习在推荐系统上的应用
架构文摘
13+阅读 · 2018年2月22日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
《量子技术的军事任务技术适配与利用》
专知会员服务
0+阅读 · 12分钟前
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员