Large language model-empowered agentic recommender systems (ARS) reformulate recommendation as a multi-turn interaction between a recommender agent and a user agent, enabling iterative preference elicitation and refinement beyond conventional one-shot prediction. However, existing ARS are mainly optimized in a Reflexion-style paradigm, where past interaction trajectories are stored as textual memory and retrieved as prompt context for later reasoning. Although this design allows agents to recall prior feedback and observations, the accumulated experience remains external to model parameters, leaving agents reliant on generic reasoning rather than progressively acquiring recommendation-specific decision-making ability through learning. Reinforcement learning (RL) therefore provides a natural way to internalize such interaction experience into parameters. Yet existing RL methods for ARS still suffer from two key limitations. First, they fail to capture the interactive nature of ARS, in which the recommender agent and the user agent continuously influence each other and can naturally generate endogenous supervision through interaction feedback. Second, they reduce a rich multi-turn interaction process to final outcomes, overlooking the dense supervision embedded throughout the trajectory. To this end, we propose CoARS, a self-distilled reinforcement learning framework for co-evolving agentic recommender systems. CoARS introduces two complementary learning schemes: interaction reward, which derives coupled task-level supervision for the recommender agent and the user agent from the same interaction trajectory, and self-distilled credit assignment, which converts historical trajectories into token-level credit signals under teacher-student conditioning. Experiments on multiple datasets show that CoARS outperforms representative ARS baselines in recommendation performance and user alignment.


翻译:大型语言模型驱动的自主推荐系统(ARS)将推荐重构为推荐体与用户体之间的多轮交互,实现了超越传统单次预测的迭代式偏好挖掘与优化。然而现有ARS主要采用反思式优化范式,将历史交互轨迹存储为文本记忆,并在后续推理中作为提示上下文进行检索。尽管这种设计使智能体能够回忆先前反馈与观察结果,但积累的经验仍游离于模型参数之外,导致智能体依赖通用推理能力而非通过学习渐进获取推荐领域特定的决策能力。因此,强化学习(RL)为将此类交互经验内化于参数提供了自然途径。然而现有面向ARS的RL方法仍存在两个关键局限:首先,它们未能捕捉ARS的交互本质——推荐体与用户体持续相互影响,且可通过交互反馈自然产生内生监督信号;其次,它们将丰富的多轮交互过程简化为最终结果,忽视了嵌入在轨迹中的密集监督信号。为此,我们提出CoARS——用于共进式自主推荐系统的自蒸馏强化学习框架。CoARS引入两种互补学习机制:交互奖励机制从同一交互轨迹中为推荐体与用户体导出耦合的任务级监督;自蒸馏信用分配机制则在师生条件下将历史轨迹转化为令牌级信用信号。多数据集实验表明,CoARS在推荐性能与用户对齐方面均优于代表性ARS基线方法。

0
下载
关闭预览

相关内容

自监督学习推荐系统综述
专知会员服务
37+阅读 · 2024年4月6日
基于强化学习的推荐研究综述
专知会员服务
84+阅读 · 2021年10月21日
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
深度学习在推荐系统中的应用综述(最全)
七月在线实验室
17+阅读 · 2018年5月5日
深度学习在推荐系统上的应用
架构文摘
13+阅读 · 2018年2月22日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 4月3日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
自监督学习推荐系统综述
专知会员服务
37+阅读 · 2024年4月6日
基于强化学习的推荐研究综述
专知会员服务
84+阅读 · 2021年10月21日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员