Tool agents interact with users through multi-turn dialogues to accomplish various tasks. Recent studies have adopted user simulation methods to develop these agents in multi-turn settings. However, existing user simulators tend to be agent-friendly, exhibiting only cooperative behaviors, failing to train and test agents against non-collaborative users in the real world. We propose a novel user simulator architecture that simulates four categories of non-collaborative behaviors: requesting unavailable services, digressing into tangential conversations, expressing impatience, and providing incomplete utterances. Our user simulator can simulate challenging and natural non-collaborative behaviors while reliably delivering all intents and information necessary to accomplish the task. Our experiments on MultiWOZ and τ-bench reveal significant performance degradation in state-of-the-art tool agents when encountering non-collaborative users, as well as agent weaknesses under each non-collaborative condition such as escalated hallucinations and dialogue breakdowns. Our findings point to the need for methods that can improve agent robustness to the wide range of user behaviors encountered in deployment. We release the extensible simulation framework to help the community develop and stress-test tool agents under realistic conditions within their own service domains. Our code is available at https://github.com/holi-lab/NCUser.


翻译:工具代理通过多轮对话与用户交互以完成各类任务。近期研究采用用户模拟方法在多轮对话场景中开发此类代理。然而,现有用户模拟器往往偏向代理友好型,仅呈现协作行为,无法针对现实世界中非协作用户对代理进行训练与测试。本文提出一种新型用户模拟器架构,能够模拟四类非协作行为:请求不可用服务、偏离主题的闲谈、表现不耐烦情绪以及提供不完整话语。我们的用户模拟器在可靠传递完成任务所需全部意图与信息的同时,能够模拟具有挑战性且自然的非协作行为。在MultiWOZ和τ-bench数据集上的实验表明,当前最先进的工具代理在遭遇非协作用户时性能显著下降,且在不同非协作条件下均暴露出代理的弱点,例如幻觉现象加剧与对话崩溃。我们的研究结果表明,需要开发能够提升代理对部署中各类用户行为鲁棒性的方法。我们发布了可扩展的模拟框架,以帮助研究社区在其自身服务领域内基于真实场景开发工具代理并进行压力测试。代码已发布于 https://github.com/holi-lab/NCUser。

0
下载
关闭预览

相关内容

【综述】 基于大语言模型的对话用户模拟综述
Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
32+阅读 · 2025年3月27日
人工智能专题报告:Operator和Manus打开AI Agent时代
专知会员服务
63+阅读 · 2025年3月12日
Agent+Copilot:大模型在智能运维领域的应用
专知会员服务
60+阅读 · 2024年8月11日
AI Agent:基于大模型的自主智能体
专知会员服务
249+阅读 · 2023年9月9日
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
深度文本匹配开源工具(MatchZoo)
机器学习研究会
10+阅读 · 2017年12月5日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
《Palantir的科技生态系统》
专知会员服务
1+阅读 · 今天15:23
《反无人机系统传感器融合》90页报告
专知会员服务
4+阅读 · 今天14:57
运用人工智能与卫星通信驱散“战争迷雾”
专知会员服务
2+阅读 · 今天14:45
ACL 2026 | LLMSurgeon:从生成文本诊断大模型训练数据
【综述】世界模型:架构、方法、推理与应用全景
综述 | OPSD:大语言模型的在线策略自蒸馏
专知会员服务
4+阅读 · 6月1日
帕兰蒂尔Maven:军事人工智能的新纪元
专知会员服务
8+阅读 · 6月1日
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员