Generative recommendation provides a novel paradigm in which each item is represented by a discrete semantic ID (SID) learned from rich content. Most existing methods treat SIDs as predefined and train recommenders under static indexing. In practice, SIDs are typically optimized only for content reconstruction rather than recommendation accuracy. This leads to an objective mismatch: the system optimizes an indexing loss to learn the SID and a recommendation loss for interaction prediction, but because the tokenizer is trained independently, the recommendation loss cannot update it. A natural approach is to make semantic indexing differentiable so that recommendation gradients can directly influence SID learning, but this often causes codebook collapse, where only a few codes are used. We attribute this issue to early deterministic assignments that limit codebook exploration, resulting in imbalance and unstable optimization. In this paper, we propose DIGER (Differentiable Semantic ID for Generative Recommendation), a first step toward effective differentiable semantic IDs for generative recommendation. DIGER introduces Gumbel noise to explicitly encourage early-stage exploration over codes, mitigating codebook collapse and improving code utilization. To balance exploration and convergence, we further design two uncertainty decay strategies that gradually reduce the Gumbel noise, enabling a smooth transition from early exploration to exploitation of learned SIDs. Extensive experiments on multiple public datasets demonstrate consistent improvements from differentiable semantic IDs. These results confirm the effectiveness of aligning indexing and recommendation objectives through differentiable SIDs and highlight differentiable semantic indexing as a promising research direction.


翻译:生成式推荐提供了一种新颖的范式,其中每个物品由从丰富内容中学习到的离散语义ID(SID)表示。大多数现有方法将SID视为预定义的,并在静态索引下训练推荐器。实际上,SID通常仅针对内容重建而非推荐准确性进行优化。这导致了目标不匹配:系统优化索引损失以学习SID,并优化交互预测的推荐损失,但由于分词器是独立训练的,推荐损失无法更新它。一种自然的方法是使语义索引可微,从而使推荐梯度能够直接影响SID学习,但这通常会导致码本坍塌,即仅使用少数代码。我们将此问题归因于早期的确定性分配限制了码本探索,导致不平衡和不稳定的优化。本文提出DIGER(生成式推荐的可微语义ID),这是迈向生成式推荐有效可微语义ID的第一步。DIGER引入Gumbel噪声以显式鼓励早期对代码的探索,从而缓解码本坍塌并提高代码利用率。为了平衡探索与收敛,我们进一步设计了两种不确定性衰减策略,逐步减少Gumbel噪声,实现从早期探索到已学习SID利用的平滑过渡。在多个公共数据集上的大量实验表明,可微语义ID带来了持续的改进。这些结果证实了通过可微SID对齐索引与推荐目标的有效性,并突显了可微语义索引作为一个有前景的研究方向。

0
下载
关闭预览

相关内容

生成式推荐综述:数据、模型与任务
专知会员服务
19+阅读 · 2025年11月4日
生成式推荐最新进展
专知会员服务
25+阅读 · 2025年1月8日
生成式推荐: 迈向下一代推荐系统新范式
专知会员服务
49+阅读 · 2023年4月15日
LinkedIn《贝叶斯优化推荐系统》,IJCAI报告,142页ppt
专知会员服务
52+阅读 · 2021年1月11日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员