Recommender Systems (RS) shape the filtering and curation of online content, yet we have limited understanding of how predictable their recommendation outputs are. We propose data-driven metrics that quantify the predictability of recommendation datasets by measuring the structural complexity of the user-item interaction matrix. High complexity indicates intricate interaction patterns that are harder to predict; low complexity indicates simpler, more predictable structures. We operationalize structural complexity via data perturbations, using singular value decomposition (SVD) to assess how stable the latent structure remains under perturbations. Our hypothesis is that random perturbations minimally affect highly organized data, but cause substantial structural disruption in intrinsically complex data. By analyzing prediction errors on perturbed interactions, we derive metrics that quantify this sensitivity at both the dataset and the interaction levels, yielding a principled measure of inherent predictability. Experiments on real-world datasets show that our structural complexity metrics correlate with the performance of state-of-the-art recommendation algorithms. We also demonstrate structure-aware data selection: in low-data settings, models trained on a carefully chosen subset of interactions with low structural perturbation error consistently outperform models trained on the full dataset. Thus, structural complexity serves both as a precise diagnostic of dataset complexity and as a principled foundation for efficient, data-centric training of RS.


翻译:推荐系统塑造了在线内容的过滤与策展,但我们对其推荐输出的可预测性仍认知有限。我们提出基于数据的度量方法,通过衡量用户-物品交互矩阵的结构复杂性来量化推荐数据集的预测难度。高复杂性意味着难以预测的复杂交互模式,而低复杂性则对应更简单、更易预测的结构。我们通过数据扰动实现结构复杂性的可操作化,利用奇异值分解评估潜在结构在扰动下的稳定性。我们的假设是:随机扰动对高度组织化的数据影响极小,但会在内在复杂的数据中引发显著结构破坏。通过分析扰动交互的预测误差,我们推导出在数据集和交互层面量化这种敏感性的度量指标,从而获得对内在可预测性的原理性测量。真实世界数据集上的实验表明,我们的结构复杂性度量与最先进推荐算法的性能相关。我们还展示了结构感知型数据筛选:在低数据场景下,基于精心筛选的低结构扰动误差交互子集训练的模型,其性能始终优于在全数据集上训练的模型。因此,结构复杂性既可作为数据集复杂性的精确诊断工具,也可作为高效、以数据为中心的推荐系统训练的原理性基础。

0
下载
关闭预览

相关内容

推荐系统中的扩散模型:综述
专知会员服务
21+阅读 · 2025年1月22日
基于因果推断的推荐系统去偏研究
专知会员服务
21+阅读 · 2024年11月10日
[SIGIR2021]可复现推荐系统评估的全面和严谨的框架
专知会员服务
22+阅读 · 2021年4月30日
【综述】基于知识图谱的推荐系统综述
AINLP
15+阅读 · 2020年7月7日
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
推荐系统概述
Linux爱好者
20+阅读 · 2018年9月6日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
【综述】基于知识图谱的推荐系统综述
AINLP
15+阅读 · 2020年7月7日
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
推荐系统概述
Linux爱好者
20+阅读 · 2018年9月6日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
深度学习在CTR预估中的应用 | CTR深度模型大盘点
PaperWeekly
15+阅读 · 2018年4月11日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员