Generative recommendation models in the OneRec family have been widely deployed in many real-world services, such as short-video, live-streaming, advertising, and e-commerce. However, these generative models can only benefit from the scaling advantage, while their reasoning ability is hard to activate, since we cannot construct meaningful Chain-of-Thought (CoT) sequences consisting of itemic tokens only. Inspired by the success of the reasoning-style ``think before answer'' paradigm in the LLM field, we conduct preliminary studies (i.e., OneRec-Think, OpenOneRec) to explore reasoning capability in generative recommendation. Nevertheless, we notice an unexpected phenomenon: the thinking mode does not show advantages over the non-thinking mode. Drawing insights from recent findings on CoT robustness in multi-modal language models, we argue that effective reasoning in recommendation rests on two factors: perception, the ability to ground itemic tokens in their underlying language semantics, and cognition, the ability to reorganize a user's behavior sequence into coherent latent interest points. We therefore propose OneReason, which includes: (1) strong itemic token perception in pre-training, (2) a three-level cognition-enhanced CoT format for recommendation tasks in SFT, and (3) a specialize-then-unify training recipe in RL to enhance the thinking ability.


翻译:OneRec系列中的生成式推荐模型已广泛应用于短视频、直播、广告及电子商务等多种实际服务中。然而,这类生成模型仅能受益于规模优势,其推理能力难以被激活,原因在于我们无法构建仅由物品标记组成的有意义的思维链序列。受大语言模型领域“先思考再回答”推理范式成功经验的启发,我们开展了初步研究(即OneRec-Think、OpenOneRec),以探索生成式推荐中的推理能力。尽管如此,我们观察到一个意外现象:思考模式相较于非思考模式并未展现出优势。借鉴近期关于多模态语言模型中思维链鲁棒性的研究发现,我们论证了推荐系统中的有效推理取决于两个要素:感知能力——将物品标记与其底层语言语义进行关联的能力;认知能力——将用户行为序列重新组织为连贯的潜在兴趣点的能力。为此,我们提出了OneReason,其包含:(1)预训练阶段的强物品标记感知能力,(2)针对推荐任务在监督微调中采用的三级认知增强思维链格式,(3)强化学习阶段采用“先专业化后统一”的训练策略以增强思考能力。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
《大模型一体机应用研究报告(2025年)》,48页pdf
专知会员服务
27+阅读 · 2025年11月2日
最全面《DeepSeek R1》技术文章
专知会员服务
90+阅读 · 2025年1月29日
《OpenAI o1大模型》中英文技术报告,44页pdf
专知会员服务
150+阅读 · 2024年9月15日
OpenAI Sora视频生成模型技术报告中英全文
专知会员服务
115+阅读 · 2024年2月17日
【ChatGPT系列报告】百度文心一言报告,16页pdf
专知会员服务
164+阅读 · 2023年3月17日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月16日
Arxiv
0+阅读 · 6月5日
Arxiv
0+阅读 · 5月28日
Arxiv
0+阅读 · 5月18日
Arxiv
0+阅读 · 5月6日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
1+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
《大模型一体机应用研究报告(2025年)》,48页pdf
专知会员服务
27+阅读 · 2025年11月2日
最全面《DeepSeek R1》技术文章
专知会员服务
90+阅读 · 2025年1月29日
《OpenAI o1大模型》中英文技术报告,44页pdf
专知会员服务
150+阅读 · 2024年9月15日
OpenAI Sora视频生成模型技术报告中英全文
专知会员服务
115+阅读 · 2024年2月17日
【ChatGPT系列报告】百度文心一言报告,16页pdf
专知会员服务
164+阅读 · 2023年3月17日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员