Recommender agents built on Large Language Models offer a promising paradigm for recommendation. However, existing recommender agents typically suffer from a disconnect between intermediate reasoning and final ranking feedback, and are unable to capture fine-grained preferences. To address this, we present AgenticRec, a ranking-oriented agentic recommendation framework that optimizes the entire decision-making trajectory (including intermediate reasoning, tool invocation, and final ranking list generation) under sparse implicit feedback. Our approach makes three key contributions. First, we design a suite of recommendation-specific tools integrated into a ReAct loop to support evidence-grounded reasoning. Second, we propose theoretically unbiased List-Wise Group Relative Policy Optimization (list-wise GRPO) to maximize ranking utility, ensuring accurate credit assignment for complex tool-use trajectories. Third, we introduce Progressive Preference Refinement (PPR) to resolve fine-grained preference ambiguities. By mining hard negatives from ranking violations and applying bidirectional preference alignment, PPR minimizes the convex upper bound of pairwise ranking errors. Experiments on benchmarks confirm that AgenticRec significantly outperforms baselines, validating the necessity of unifying reasoning, tool use, and ranking optimization.


翻译:基于大语言模型的推荐智能体为推荐系统提供了极具前景的范式。然而,现有推荐智能体通常存在中间推理与最终排序反馈脱节的问题,且无法捕捉细粒度偏好。为应对这一挑战,我们提出AgenticRec——一种面向排序的智能体推荐框架,可在稀疏隐式反馈下优化从中间推理、工具调用到最终排序列表生成的全决策轨迹。本文做出三项核心贡献:首先,我们设计了一套集成于ReAct循环中的专用推荐工具,以支持基于证据的推理;其次,提出理论上无偏的列表级组相对策略优化(list-wise GRPO),通过最大化排序效用实现复杂工具调用轨迹的精确信用分配;第三,引入渐进式偏好精炼(PPR)机制解决细粒度偏好歧义问题。通过从排序违规中挖掘难负样本并实施双向偏好对齐,PPR最小化了成对排序误差的凸上界。基准实验证实AgenticRec显著优于基线方法,验证了统一推理、工具使用与排序优化的必要性。

0
下载
关闭预览

相关内容

排序是计算机内经常进行的一种操作,其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序。若整个排序过程不需要访问外存便能完成,则称此类排序问题为内部排序。反之,若参加排序的记录数量很大,整个序列的排序过程不可能在内存中完成,则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。
AgentOps综述:智能体系统运维框架
专知会员服务
19+阅读 · 6月4日
伯克利最新《智能体 AI (Agentic AI)》课程
专知会员服务
49+阅读 · 3月1日
智能体工程(Agent Engineering)
专知会员服务
37+阅读 · 2025年12月31日
AgentOps综述:分类、挑战与未来方向
专知会员服务
40+阅读 · 2025年8月6日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
29+阅读 · 2025年2月17日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
AgentOps综述:智能体系统运维框架
专知会员服务
19+阅读 · 6月4日
伯克利最新《智能体 AI (Agentic AI)》课程
专知会员服务
49+阅读 · 3月1日
智能体工程(Agent Engineering)
专知会员服务
37+阅读 · 2025年12月31日
AgentOps综述:分类、挑战与未来方向
专知会员服务
40+阅读 · 2025年8月6日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
29+阅读 · 2025年2月17日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员