Recent advances in generative recommendation have leveraged pretrained LLMs by formulating sequential recommendation as autoregressive generation over a unified token space comprising language tokens and itemic identifiers, where each item is represented by a compact sequence of discrete tokens, namely Semantic IDs (SIDs). This SID-based formulation enables efficient decoding over large-scale item corpora and provides a natural interface for LLM-based recommenders to leverage rich world knowledge. Meanwhile, breakthroughs in LLM reasoning motivate reasoning-enhanced recommendation, yet effective reasoning over SIDs remains underexplored and challenging. Itemic tokens are not natively meaningful to LLMs; moreover, recommendation-oriented SID reasoning is hard to evaluate, making high-quality supervision scarce. To address these challenges, we propose SIDReasoner, a two-stage framework that elicits reasoning over SIDs by strengthening SID--language alignment to unlock transferable LLM reasoning, rather than relying on large amounts of recommendation-specific reasoning traces. Concretely, SIDReasoner first enhances SID-language alignment via multi-task training on an enriched SID-centered corpus synthesized by a stronger teacher model, grounding itemic tokens in diverse semantic and behavioral contexts. Building on this enhanced alignment, SIDReasoner further improves recommendation reasoning through outcome-driven reinforced optimization, which guides the model toward effective reasoning trajectories without requiring explicit reasoning annotations. Extensive experiments on three real-world datasets demonstrate the effectiveness of our reasoning-augmented SID-based generative recommendation. Beyond accuracy, the results highlight the broader potential of large reasoning models for generative recommendation, including improved interpretability and cross-domain generalization.


翻译:生成式推荐的最新进展借助预训练大语言模型,将序列推荐建模为在一个统一令牌空间上的自回归生成任务,该空间包含语言令牌和物品标识符,其中每个物品由一组紧凑的离散令牌序列表示,即语义标识符(Semantic IDs,SIDs)。这种基于SID的建模方式实现了大规模物品语料库上的高效解码,并为基于大语言模型的推荐系统利用丰富的世界知识提供了自然接口。与此同时,大语言模型推理方面的突破催生了推理增强型推荐,然而,在SID上进行有效推理仍未被充分探索且颇具挑战性。物品令牌对大语言模型而言并非天生具有语义含义;此外,面向推荐的SID推理难以评估,导致高质量监督信号匮乏。为应对这些挑战,我们提出SIDReasoner,一个两阶段框架,通过强化SID与语言的对齐来激发对SID的推理能力,从而解锁大语言模型的可迁移推理能力,而非依赖大量推荐专用的推理轨迹。具体而言,SIDReasoner首先通过在一个由更强教师模型合成的、以SID为中心的增强语料库上进行多任务训练,来增强SID与语言的对齐,从而将物品令牌锚定在多样的语义和行为上下文中。基于这种增强的对齐,SIDReasoner进一步通过结果驱动的强化优化来改进推荐推理,该优化引导模型走向有效的推理路径,而无需显式的推理标注。在三个真实世界数据集上的大量实验证明了我们这种推理增强的、基于SID的生成式推荐的有效性。除准确性外,实验结果还凸显了大推理模型在生成式推荐中的更广泛潜力,包括改进的可解释性与跨域泛化能力。

0
下载
关闭预览

相关内容

生成式推荐最新进展
专知会员服务
25+阅读 · 2025年1月8日
【CMU博士论文】使用结构化推理增强语言模型,320页pdf
专知会员服务
34+阅读 · 2024年6月29日
生成式推荐: 迈向下一代推荐系统新范式
专知会员服务
49+阅读 · 2023年4月15日
【AAAI2021】知识图谱增强的预训练模型的生成式常识推理
【EMNLP2020-清华】基于常识知识图谱的多跳推理语言生成
专知会员服务
74+阅读 · 2020年9月25日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
2+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员