Content-based recommendation systems (CRSs) utilize content features to predict user-item interactions, serving as essential tools for helping users navigate information-rich web services. However, ensuring the effectiveness of CRSs requires large-scale and even continuous model training to accommodate diverse user preferences, resulting in significant computational costs and resource demands. A promising approach to this challenge is coreset selection, which identifies a small but representative subset of data samples that preserves model quality while reducing training overhead. Yet, the selected coreset is vulnerable to the pervasive noise in user-item interactions, particularly when it is minimally sized. To this end, we propose Noise-aware Coreset Selection (NaCS), a specialized framework for CRSs. NaCS constructs coresets through submodular optimization based on training gradients, while simultaneously correcting noisy labels using a progressively trained model. Meanwhile, we refine the selected coreset by filtering out low-confidence samples through uncertainty quantification, thereby avoid training with unreliable interactions. Through extensive experiments, we show that NaCS produces higher-quality coresets for CRSs while achieving better efficiency than existing coreset selection techniques. Notably, NaCS recovers 93-95\% of full-dataset training performance using merely 1\% of the training data. The source code is available at \href{https://github.com/chenxing1999/nacs}{https://github.com/chenxing1999/nacs}.


翻译:内容推荐系统利用内容特征预测用户与物品的交互,是帮助用户在信息丰富的网络服务中进行导航的重要工具。然而,为确保内容推荐系统的有效性,需要进行大规模甚至持续的模型训练以适应多样化的用户偏好,这导致了显著的计算成本和资源需求。应对这一挑战的一种有效方法是核心集选择,即识别一个规模小但具有代表性的数据样本子集,在保持模型质量的同时降低训练开销。然而,所选核心集容易受到用户-物品交互中普遍存在的噪声影响,尤其是在其规模极小时。为此,我们提出噪声感知核心集选择,这是一个专为内容推荐系统设计的框架。该框架通过基于训练梯度的次模优化构建核心集,同时利用渐进训练的模型校正噪声标签。此外,我们通过不确定性量化过滤掉低置信度样本,从而优化所选核心集,避免使用不可靠的交互进行训练。通过大量实验,我们证明相较于现有核心集选择技术,该框架能为内容推荐系统生成更高质量的核心集,同时实现更优的效率。值得注意的是,仅使用1%的训练数据,该框架即可恢复全数据集训练性能的93-95%。源代码发布于 \href{https://github.com/chenxing1999/nacs}{https://github.com/chenxing1999/nacs}。

0
下载
关闭预览

相关内容

内容推荐,把主语谓语宾语补充完整之后就是“系统把内容推荐给用户”,推荐系统就是要解决“什么样的内容推荐给什么样的用户”的问题以及“如何推”的问题。
生成式推荐综述:数据、模型与任务
专知会员服务
19+阅读 · 2025年11月4日
【WWW2025】释放大型语言模型在去噪推荐中的强大能力
专知会员服务
13+阅读 · 2025年2月18日
扩散模型推荐系统综述
专知会员服务
19+阅读 · 2024年9月11日
对话推荐算法研究综述
专知会员服务
50+阅读 · 2022年2月18日
初学者系列:推荐系统Wide & Deep Learning详解
新书推荐《推荐系统进展:方法与技术》
LibRec智能推荐
13+阅读 · 2019年3月18日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
【推荐系统】详解基于内容的推荐算法
产业智能官
23+阅读 · 2018年1月11日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员