Conversational Recommender Systems (CRSs) leverage natural language interactions for personalized recommendation, yet information-scarce dialogue histories and single-turn recommendation paradigms may severely hinder accurate modeling of complex user preferences. To alleviate this issue, recent studies have introduced LLM-based user simulators, which generate natural language feedback and perform simulated multi-turn interactions to assist recommendation. Nevertheless, since simulators cannot access true user preference labels during inference, their feedback may deviate from actual user interests, causing errors to accumulate over multiple interactions and severely affecting the generalization of the recommender. Inspired by the multi-step reasoning capabilities of LLMs and the effectiveness of reinforcement learning in policy optimization, we propose SMTPO, a user simulator-guided multi-turn preference optimization conversational recommendation framework. To align simulator-generated feedback with true user preferences in the absence of explicit labels, we enhance feedback quality via multi-task supervised fine-tuning (SFT), enabling the simulator to better reflect users' complex and diverse needs. To address the challenge of biased feedback destabilizing multi-turn optimization, we first allow the reasoning LLM-based recommender to learn preference reasoning and recommendation patterns through SFT and then employ reinforcement learning with fine-grained reward design to progressively align with true user preferences, improving recommendation performance. Extensive experiments on public datasets demonstrate the effectiveness and transferability of our method.


翻译:对话式推荐系统(CRS)利用自然语言交互实现个性化推荐,但信息匮乏的对话历史与单轮推荐范式可能严重阻碍对复杂用户偏好的准确建模。为缓解该问题,近期研究引入基于大语言模型的用户模拟器,通过生成自然语言反馈并执行模拟多轮交互来辅助推荐。然而,由于模拟器在推理过程中无法获取真实的用户偏好标签,其反馈可能偏离实际用户兴趣,导致误差在多轮交互中累积,严重影响推荐器的泛化能力。受大语言模型多步推理能力与强化学习在策略优化中有效性的启发,我们提出SMTPO——一种用户模拟器引导的多轮偏好优化对话式推荐框架。为在无显式标签的情况下使模拟器生成的反馈与真实用户偏好对齐,我们通过多任务监督微调(SFT)提升反馈质量,使模拟器能更好反映用户复杂多样的需求。针对有偏反馈破坏多轮优化稳定性的挑战,我们首先让基于推理LLM的推荐器通过SFT学习偏好推理与推荐模式,随后采用具有细粒度奖励设计的强化学习逐步对齐真实用户偏好,提升推荐性能。在公开数据集上的大量实验验证了所提方法的有效性与可迁移性。

0
下载
关闭预览

相关内容

大语言模型在多模态推荐系统中的应用综述
专知会员服务
17+阅读 · 2025年5月17日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
29+阅读 · 2025年2月17日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
【KDD2022】基于知识增强提示学习的统一会话推荐系统
专知会员服务
29+阅读 · 2022年6月26日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
12+阅读 · 2023年5月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
2+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
2+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
3+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
3+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员