The one-epoch overfitting problem has drawn widespread attention, especially in CTR and CVR estimation models in search, advertising, and recommendation domains. These models which rely heavily on large-scale sparse categorical features, often suffer a significant decline in performance when trained for multiple epochs. Although recent studies have proposed heuristic solutions, the fundamental cause of this phenomenon remains unclear. In this work, we present a theoretical explanation grounded in Rademacher complexity, supported by empirical experiments, to explain why overfitting occurs in models with large-scale sparse categorical features. Based on this analysis, we propose a regularization method that constrains the norm budget of embedding layers adaptively. Our approach not only prevents the severe performance degradation observed during multi-epoch training, but also improves model performance within a single epoch. This method has already been deployed in online production systems.


翻译:单周期过拟合问题已引起广泛关注,尤其在搜索、广告和推荐领域的CTR和CVR预估模型中。这些严重依赖大规模稀疏类别特征的模型,在进行多周期训练时经常出现性能显著下降。尽管近期研究提出了启发式解决方案,但该现象的根本原因仍不明确。本文基于Rademacher复杂度理论提出解释,并通过实证实验证明大规模稀疏类别特征模型出现过拟合的原因。基于此分析,我们提出一种正则化方法,能自适应约束嵌入层的范数预算。该方法不仅防止了多周期训练中观察到的严重性能退化,同时提升了单周期内的模型性能。本方法已在在线生产系统中部署实施。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
大规模语言模型在自动规划中的应用综述
专知会员服务
35+阅读 · 2025年2月22日
【ICLR2025】大型语言模型的动态低秩稀疏适应
专知会员服务
14+阅读 · 2025年2月21日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
稀疏大模型简述:从MoE、Sparse Attention到GLaM
夕小瑶的卖萌屋
14+阅读 · 2022年3月22日
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
如何理解模型的过拟合与欠拟合,以及如何解决?
七月在线实验室
12+阅读 · 2019年4月23日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
大规模语言模型在自动规划中的应用综述
专知会员服务
35+阅读 · 2025年2月22日
【ICLR2025】大型语言模型的动态低秩稀疏适应
专知会员服务
14+阅读 · 2025年2月21日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员