Generative pre-training via discrete diffusion provides dense reconstruction supervision across all feature fields simultaneously, mitigating representation collapse from data sparsity in CTR prediction. However, all existing generative CTR methods share a fundamental limitation: the reconstruction objective assigns equal training weight to every feature field, ignoring the profound heterogeneity of reconstruction difficulty across high-cardinality ID fields, sparse categorical attributes, numerical values, and behavioral sequences. This causes easy fields to dominate training gradients while the hardest but most informative fields remain chronically underfit, a problem we term the generative difficulty imbalance.We propose HeteGenCTR, which resolves this imbalance through per-field learnable difficulty parameters jointly trained with the denoising network. This unified signal drives two coordinated components without additional hyperparameters: a self-balancing loss that automatically reallocates gradient budget toward harder fields with a provably stable equilibrium, and a difficulty-guided attention mechanism that suppresses the influence of already-converged easy fields while amplifying cross-field information flow toward hard fields. Both components share the same learned signal and remain mutually consistent throughout training. Experiments on five CTR benchmarks and a seven-day online A/B test demonstrate consistent, statistically significant improvements over state-of-the-art baselines, with disproportionate gains for cold-start and long-tail users.


翻译:通过离散扩散的生成式预训练能同时对所有特征域提供密集的重建监督,从而缓解CTR预测中数据稀疏导致的表示坍缩。然而,所有现有的生成式CTR方法均存在一个根本性局限:重建目标对每个特征域赋予相同的训练权重,忽略了高基数ID域、稀疏类别属性、数值特征及行为序列在重建难度上的深刻异质性。这导致简单域主导训练梯度,而最难但信息量最丰富的域长期处于欠拟合状态——我们将此问题称为生成难度不平衡。我们提出HeteGenCTR,该方法通过每个特征域的可学习难度参数(与去噪网络联合训练)来解决这种不平衡。这一统一信号驱动两个无需额外超参数的协调组件:自平衡损失函数(自动将梯度预算重新分配给更难域,具有可证明的稳定均衡),以及难度引导的注意力机制(抑制已收敛的简单域的影响,同时增强向难域的跨域信息流)。两个组件共享同一学习信号,并在整个训练过程中保持相互一致。在五个CTR基准测试及为期七天的在线A/B测试中,该方法相比最先进的基线取得了一致的、统计显著的改进,对冷启动和长尾用户的提升尤为显著。

0
下载
关闭预览

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
异质信息网络链路预测方法综述
专知会员服务
17+阅读 · 2024年8月8日
基于无标签视频数据的深度预测学习方法综述
专知会员服务
35+阅读 · 2022年5月16日
专知会员服务
58+阅读 · 2021年8月12日
专知会员服务
47+阅读 · 2020年11月13日
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
【学界】基于条件深度卷积生成对抗网络的图像识别方法
GAN生成式对抗网络
16+阅读 · 2018年7月26日
[推荐] 这些年,我用过的点击率(CTR)预估模型!!!
菜鸟的机器学习
28+阅读 · 2017年7月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员