Generative recommendation provides a novel paradigm in which each item is represented by a discrete semantic ID (SID) learned from rich content. Most existing methods treat SIDs as predefined and train recommenders under static indexing. In practice, SIDs are typically optimized only for content reconstruction rather than recommendation accuracy. This leads to an objective mismatch: the system optimizes an indexing loss to learn the SID and a recommendation loss for interaction prediction, but because the tokenizer is trained independently, the recommendation loss cannot update it. A natural approach is to make semantic indexing differentiable so that recommendation gradients can directly influence SID learning, but this often causes codebook collapse, where only a few codes are used. We attribute this issue to early deterministic assignments that limit codebook exploration, resulting in imbalance and unstable optimization. In this paper, we propose DIGER (Differentiable Semantic ID for Generative Recommendation), a first step toward effective differentiable semantic IDs for generative recommendation. DIGER introduces Gumbel noise to explicitly encourage early-stage exploration over codes, mitigating codebook collapse and improving code utilization. To balance exploration and convergence, we further design two uncertainty decay strategies that gradually reduce the Gumbel noise, enabling a smooth transition from early exploration to exploitation of learned SIDs. Extensive experiments on multiple public datasets demonstrate consistent improvements from differentiable semantic IDs. These results confirm the effectiveness of aligning indexing and recommendation objectives through differentiable SIDs and highlight differentiable semantic indexing as a promising research direction. Our code is released under https://github.com/junchen-fu/DIGER.


翻译:生成式推荐提供了一种新颖范式,其中每个项目由从丰富内容中学习到的离散语义ID(SID)表示。现有方法大多将SID视为预定义的,并在静态索引下训练推荐器。在实践中,SID通常仅针对内容重建而非推荐准确性进行优化,这导致目标不匹配:系统通过索引损失学习SID,并通过交互预测的推荐损失进行优化,但由于分词器独立训练,推荐损失无法更新它。一个自然的思路是使语义索引可微分,使推荐梯度能直接影响SID学习,但这常引发码本坍塌问题,即仅少数代码被使用。我们将此归因于早期确定性分配限制了码本探索,导致不平衡与不稳定优化。本文提出了DIGER(可微分语义ID用于生成式推荐),首次实现了面向生成式推荐的有效可微分语义ID。DIGER引入Gumbel噪声显式鼓励代码的早期探索,缓解码本坍塌并提高代码利用率。为平衡探索与收敛,我们进一步设计了两种不确定性衰减策略,逐步减少Gumbel噪声,实现从早期探索到已学习SID利用的平滑过渡。在多个公开数据集上的大量实验表明,可微分语义ID带来了持续改进。这些结果验证了通过可微分SID对齐索引与推荐目标的有效性,并凸显了可微分语义索引作为有前景的研究方向。我们的代码已发布于https://github.com/junchen-fu/DIGER。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
生成式推荐综述:数据、模型与任务
专知会员服务
19+阅读 · 2025年11月4日
生成式推荐最新进展
专知会员服务
25+阅读 · 2025年1月8日
生成式推荐: 迈向下一代推荐系统新范式
专知会员服务
49+阅读 · 2023年4月15日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员