User simulators serve as the critical interactive environment for agent post-training, and an ideal user simulator generalizes across domains and proactively engages in negotiation by challenging or bargaining. However, current methods exhibit two issues. They rely on static and context-unaware profiles, necessitating extensive manual redesign for new scenarios, thus limiting generalizability. Moreover, they neglect human strategic thinking, leading to vulnerability to agent manipulation. To address these issues, we propose UserLM-R1, a novel user language model with reasoning capability. Specifically, we first construct comprehensive user profiles with both static roles and dynamic scenario-specific goals for adaptation to diverse scenarios. Then, we propose a goal-driven decision-making policy to generate high-quality rationales before producing responses, and further refine the reasoning and improve strategic capabilities with supervised fine-tuning and multi-reward reinforcement learning. Extensive experimental results demonstrate that UserLM-R1 outperforms competitive baselines, particularly on the more challenging adversarial set.


翻译:用户模拟器是智能体后训练的关键交互环境,理想的用户模拟器应具备跨领域泛化能力,并能主动通过质疑或讨价还价进行协商。然而,现有方法存在两个问题:它们依赖静态且缺乏上下文感知的用户画像,需要针对新场景进行大量人工重新设计,从而限制了泛化能力;此外,它们忽略了人类的策略性思维,导致易受智能体操控。为解决这些问题,我们提出了UserLM-R1——一种具备推理能力的新型用户语言模型。具体而言,我们首先构建包含静态角色和动态场景特定目标的综合性用户画像,以适应多样化场景。随后,我们提出一种目标驱动的决策策略,在生成回复前先产生高质量推理依据,并通过监督微调和多奖励强化学习进一步优化推理过程、提升策略能力。大量实验结果表明,UserLM-R1在多个基准测试中均优于现有基线模型,尤其在更具挑战性的对抗性测试集上表现突出。

0
下载
关闭预览

相关内容

深度强化学习与模仿学习导论
专知会员服务
25+阅读 · 2025年12月10日
《多域人机交互研究》95页
专知会员服务
35+阅读 · 2025年6月2日
面向关系建模的合作多智能体深度强化学习综述
专知会员服务
39+阅读 · 2025年4月18日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员