Latent reasoning has emerged as a promising paradigm for sequential recommendation, enabling models to capture complex user intent through multi-step deliberation. Yet existing approaches often rely on deterministic latent chains that accumulate noise and overlook the uncertainty inherent in user intent, and they are typically trained in staged pipelines that hinder joint optimization and exploration. To address these challenges, we propose DiffuReason, a unified "Think-then-Diffuse" framework for sequential recommendation. It integrates multi-step Thinking Tokens for latent reasoning, diffusion-based refinement for denoising intermediate representations, and end-to-end Group Relative Policy Optimization (GRPO) alignment to optimize for ranking performance. In the Think stage, the model generates Thinking Tokens that reason over user history to form an initial intent hypothesis. In the Diffuse stage, rather than treating this hypothesis as the final output, we refine it through a diffusion process that models user intent as a probabilistic distribution, providing iterative denoising against reasoning noise. Finally, GRPO-based reinforcement learning enables the reasoning and refinement modules to co-evolve throughout training, without the constraints of staged optimization. Extensive experiments on four benchmarks demonstrate that DiffuReason consistently improves diverse backbone architectures. Online A/B tests on a large-scale industrial platform further validate its practical effectiveness.


翻译:潜在推理已成为序列推荐领域一种有前景的范式,它使模型能够通过多步推演捕捉复杂的用户意图。然而,现有方法通常依赖于确定性的潜在推理链,这会累积噪声并忽视用户意图固有的不确定性,且通常采用分阶段流水线训练方式,阻碍了联合优化与探索。为应对这些挑战,我们提出DiffuReason——一个统一的"先思考后扩散"序列推荐框架。该框架集成了用于潜在推理的多步思考标记、基于扩散的中间表示去噪精炼机制,以及端到端的组相对策略优化对齐方法以优化排序性能。在"思考"阶段,模型生成思考标记,通过对用户历史进行推理形成初始意图假设。在"扩散"阶段,我们并不将该假设直接作为最终输出,而是通过将用户意图建模为概率分布的扩散过程对其进行精炼,从而对推理噪声进行迭代去噪。最后,基于GRPO的强化学习使推理模块与精炼模块能够在整个训练过程中协同进化,摆脱了分阶段优化的限制。在四个基准数据集上的大量实验表明,DiffuReason能够持续提升多种骨干架构的性能。在大型工业平台上的在线A/B测试进一步验证了其实际有效性。

0
下载
关闭预览

相关内容

在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
《序列推荐》最新综述
专知会员服务
22+阅读 · 2024年12月27日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
VIP会员
相关VIP内容
在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
《序列推荐》最新综述
专知会员服务
22+阅读 · 2024年12月27日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
26+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员