The Unreasonable Effectiveness of Data for Recommender Systems - 专知论文

会员服务 ·

0

系统 · 交互 · 样本 · 数据集 · 推荐系统 ·

The Unreasonable Effectiveness of Data for Recommender Systems

翻译：推荐系统中数据的不合理有效性

from arxiv, 5 pages, 6 figures. Poster paper

In recommender systems, collecting, storing, and processing large-scale interaction data is increasingly costly in terms of time, energy, and computation, yet it remains unclear when additional data stops providing meaningful gains. This paper investigates how offline recommendation performance evolves as the size of the training dataset increases and whether a saturation point can be observed. We implemented a reproducible Python evaluation workflow with two established toolkits, LensKit and RecBole, included 11 large public datasets with at least 7 million interactions, and evaluated 10 tool-algorithm combinations. Using absolute stratified user sampling, we trained models on nine sample sizes from 100,000 to 100,000,000 interactions and measured NDCG@10. Overall, raw NDCG usually increased with sample size, with no observable saturation point. To make result groups comparable, we applied min-max normalization within each group, revealing a clear positive trend in which around 75% of the points at the largest completed sample size also achieved the group's best observed performance. A late-stage slope analysis over the final 10-30% of each group further supported this upward trend: the interquartile range remained entirely non-negative with a median near 1.0. In summary, for traditional recommender systems on typical user-item interaction data, incorporating more training data remains primarily beneficial, while weaker scaling behavior is concentrated in atypical dataset cases and in the algorithmic outlier RecBole BPR under our setup.

翻译：在推荐系统中，收集、存储和处理大规模交互数据在时间、能源和计算方面的成本日益增加，但目前尚不清楚何时额外数据不再产生有意义的增益。本文研究了离线推荐性能如何随训练数据集规模增加而变化，以及是否能观察到饱和点。我们使用两个成熟的工具包LensKit和RecBole，实现了一个可复现的Python评估工作流，涵盖了11个至少包含700万次交互的大型公开数据集，并评估了10种工具-算法组合。通过绝对分层用户采样，我们在从10万到1亿次交互的九个样本量上训练模型，并测量NDCG@10。总体而言，原始NDCG通常随样本量增加而提升，未观察到明显的饱和点。为了使结果组具有可比性，我们在每组内应用最小-最大归一化，显示出明显的正向趋势，其中约75%的最大完成样本量上的点也达到了该组的最佳观测性能。对每组最后10%-30%的后期阶段斜率分析进一步支持了这一上升趋势：四分位距完全非负，中位数接近1.0。总之，对于典型的用户-物品交互数据上的传统推荐系统，纳入更多训练数据仍然主要是有益的，而较弱的扩展行为集中在非典型数据集案例以及我们设置下的算法异常值RecBole BPR中。

0

相关内容

推荐系统中的扩散模型：综述

推荐系统中的扩散模型：综述

专知会员服务

21+阅读 · 2025年1月22日

基于因果推断的推荐系统去偏研究

基于因果推断的推荐系统去偏研究

专知会员服务

21+阅读 · 2024年11月10日

因果学习在可信赖推荐系统中的应用综述

因果学习在可信赖推荐系统中的应用综述

专知会员服务

18+阅读 · 2024年2月15日

因果如何用于推荐？弗吉尼亚大学最新《推荐系统中的因果推理:偏差缓解、解释和泛化策略》综述

因果如何用于推荐？弗吉尼亚大学最新《推荐系统中的因果推理:偏差缓解、解释和泛化策略》综述

专知会员服务

30+阅读 · 2023年1月4日

因果如何用于推荐？清华等最新《推荐系统中的因果推理》综述论文，29页pdf阐述因果推荐方法体系

因果如何用于推荐？清华等最新《推荐系统中的因果推理》综述论文，29页pdf阐述因果推荐方法体系

专知会员服务

48+阅读 · 2022年8月31日

无量深度学习系统在腾讯推荐类业务的应用

无量深度学习系统在腾讯推荐类业务的应用

专知会员服务

21+阅读 · 2022年7月9日

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

专知会员服务

108+阅读 · 2022年4月28日

【RecSys2021】推荐系统中的偏见与解决方案，107页ppt

专知会员服务

42+阅读 · 2021年10月4日

强化学习如何用于推荐？厦大最新《强化学习推荐系统》综述论文，25页pdf156篇文献论述五种典型RL推荐方法

专知会员服务

80+阅读 · 2021年9月23日

对话推荐系统综述论文，35页pdf，A Survey on Conversational Recommender Systems

对话推荐系统综述论文，35页pdf，A Survey on Conversational Recommender Systems

专知会员服务

117+阅读 · 2020年4月3日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

深度学习在推荐系统中的应用及论文小结

深度学习在推荐系统中的应用及论文小结

专知

14+阅读 · 2019年7月8日

推荐系统

炼数成金订阅号

28+阅读 · 2019年1月17日

推荐系统概述

推荐系统概述

Linux爱好者

20+阅读 · 2018年9月6日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

历史最全-16个推荐系统开放公共数据集整理分享

历史最全-16个推荐系统开放公共数据集整理分享

深度学习与NLP

23+阅读 · 2018年7月28日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

深度学习在推荐系统中的应用综述（最全）

深度学习在推荐系统中的应用综述（最全）

七月在线实验室

17+阅读 · 2018年5月5日

【论文推荐】最新七篇推荐系统相关论文—影响兴趣、知识Embeddings、音乐推荐、非结构化、一致性、显式和隐式特征、知识图谱

【论文推荐】最新七篇推荐系统相关论文—影响兴趣、知识Embeddings、音乐推荐、非结构化、一致性、显式和隐式特征、知识图谱

专知

14+阅读 · 2018年3月28日

深度学习在推荐系统上的应用

深度学习在推荐系统上的应用

架构文摘

13+阅读 · 2018年2月22日

推荐系统的信息核挖掘及其应用研究

国家自然科学基金

8+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于文本情感和异质网络分析的社会化推荐研究

国家自然科学基金

1+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

Measuring the stability and plasticity of recommender systems

Arxiv

0+阅读 · 4月28日

Efficient Retrieval Scaling with Hierarchical Indexing for Large Scale Recommendation

Arxiv

0+阅读 · 4月14日

On the Accuracy Limits of Sequential Recommender Systems: An Entropy-Based Approach

Arxiv

0+阅读 · 4月14日

The Unreasonable Effectiveness of Data for Recommender Systems

Arxiv

0+阅读 · 4月7日

Measuring the Predictability of Recommender Systems using Structural Complexity Metrics

Arxiv

0+阅读 · 3月31日

Improving Conversational Recommendation with Contextual Adaptation of External Recommenders and LLM-based Reranking

Arxiv

0+阅读 · 3月30日

On the Accuracy Limits of Sequential Recommender Systems: An Entropy-Based Approach

Arxiv

0+阅读 · 3月30日

Diffusion Recommender Models and the Illusion of Progress: A Concerning Study of Reproducibility and a Conceptual Mismatch

Arxiv

0+阅读 · 3月26日

DIET: Learning to Distill Dataset Continually for Recommender Systems

Arxiv

0+阅读 · 3月26日

A Survey on Large Language Models for Recommendation

Arxiv

12+阅读 · 2023年5月31日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

6+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

3+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

5+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

19+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

推荐系统中的扩散模型：综述

推荐系统中的扩散模型：综述

专知会员服务

21+阅读 · 2025年1月22日

基于因果推断的推荐系统去偏研究

基于因果推断的推荐系统去偏研究

专知会员服务

21+阅读 · 2024年11月10日

因果学习在可信赖推荐系统中的应用综述

因果学习在可信赖推荐系统中的应用综述

专知会员服务

18+阅读 · 2024年2月15日

因果如何用于推荐？弗吉尼亚大学最新《推荐系统中的因果推理:偏差缓解、解释和泛化策略》综述

因果如何用于推荐？弗吉尼亚大学最新《推荐系统中的因果推理:偏差缓解、解释和泛化策略》综述

专知会员服务

30+阅读 · 2023年1月4日

因果如何用于推荐？清华等最新《推荐系统中的因果推理》综述论文，29页pdf阐述因果推荐方法体系

因果如何用于推荐？清华等最新《推荐系统中的因果推理》综述论文，29页pdf阐述因果推荐方法体系

专知会员服务

48+阅读 · 2022年8月31日

无量深度学习系统在腾讯推荐类业务的应用

无量深度学习系统在腾讯推荐类业务的应用

专知会员服务

21+阅读 · 2022年7月9日

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

因果如何用于推荐？中科大最新WWW2022《因果推荐: 进展与未来方向》教程，附123页ppt

专知会员服务

108+阅读 · 2022年4月28日

【RecSys2021】推荐系统中的偏见与解决方案，107页ppt

专知会员服务

42+阅读 · 2021年10月4日

强化学习如何用于推荐？厦大最新《强化学习推荐系统》综述论文，25页pdf156篇文献论述五种典型RL推荐方法

专知会员服务

80+阅读 · 2021年9月23日

对话推荐系统综述论文，35页pdf，A Survey on Conversational Recommender Systems

对话推荐系统综述论文，35页pdf，A Survey on Conversational Recommender Systems

专知会员服务

117+阅读 · 2020年4月3日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

深度学习在推荐系统中的应用及论文小结

深度学习在推荐系统中的应用及论文小结

专知

14+阅读 · 2019年7月8日

推荐系统

炼数成金订阅号

28+阅读 · 2019年1月17日

推荐系统概述

推荐系统概述

Linux爱好者

20+阅读 · 2018年9月6日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

历史最全-16个推荐系统开放公共数据集整理分享

历史最全-16个推荐系统开放公共数据集整理分享

深度学习与NLP

23+阅读 · 2018年7月28日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

深度学习在推荐系统中的应用综述（最全）

深度学习在推荐系统中的应用综述（最全）

七月在线实验室

17+阅读 · 2018年5月5日

【论文推荐】最新七篇推荐系统相关论文—影响兴趣、知识Embeddings、音乐推荐、非结构化、一致性、显式和隐式特征、知识图谱

【论文推荐】最新七篇推荐系统相关论文—影响兴趣、知识Embeddings、音乐推荐、非结构化、一致性、显式和隐式特征、知识图谱

专知

14+阅读 · 2018年3月28日

深度学习在推荐系统上的应用

深度学习在推荐系统上的应用

架构文摘

13+阅读 · 2018年2月22日

相关论文

Measuring the stability and plasticity of recommender systems

Arxiv

0+阅读 · 4月28日

Efficient Retrieval Scaling with Hierarchical Indexing for Large Scale Recommendation

Arxiv

0+阅读 · 4月14日

On the Accuracy Limits of Sequential Recommender Systems: An Entropy-Based Approach

Arxiv

0+阅读 · 4月14日

The Unreasonable Effectiveness of Data for Recommender Systems

Arxiv

0+阅读 · 4月7日

Measuring the Predictability of Recommender Systems using Structural Complexity Metrics

Arxiv

0+阅读 · 3月31日

Improving Conversational Recommendation with Contextual Adaptation of External Recommenders and LLM-based Reranking

Arxiv

0+阅读 · 3月30日

On the Accuracy Limits of Sequential Recommender Systems: An Entropy-Based Approach

Arxiv

0+阅读 · 3月30日

Diffusion Recommender Models and the Illusion of Progress: A Concerning Study of Reproducibility and a Conceptual Mismatch

Arxiv

0+阅读 · 3月26日

DIET: Learning to Distill Dataset Continually for Recommender Systems

Arxiv

0+阅读 · 3月26日

A Survey on Large Language Models for Recommendation

Arxiv

12+阅读 · 2023年5月31日

相关基金

推荐系统的信息核挖掘及其应用研究

国家自然科学基金

8+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于文本情感和异质网络分析的社会化推荐研究

国家自然科学基金

1+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

大数据环境下融合多源信息的推荐系统关键问题研究

国家自然科学基金

6+阅读 · 2014年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员