Evaluating multi-turn interactive agents is challenging due to the need for human assessment. Evaluation with simulated users has been introduced as an alternative, however existing approaches typically model generic users and overlook the domain-specific principles required to capture realistic behavior. We propose SAGE, a novel user Simulation framework for multi-turn AGent Evaluation that integrates knowledge from business contexts. SAGE incorporates top-down knowledge rooted in business logic, such as ideal customer profiles, grounding user behavior in realistic customer personas. We further integrate bottom-up knowledge taken from business agent infrastructure (e.g., product catalogs, FAQs, and knowledge bases), allowing the simulator to generate interactions that reflect users' information needs and expectations in a company's target market. Through empirical evaluation, we find that this approach produces interactions that are more realistic and diverse, while also identifying up to 33% more agent errors, highlighting its effectiveness as an evaluation tool to support bug-finding and iterative agent improvement.


翻译:评估多轮交互式智能体因需要人工评估而具有挑战性。使用模拟用户进行评估已被引入作为一种替代方案,然而现有方法通常建模通用用户,忽视了捕捉真实行为所需的领域特定原则。我们提出了SAGE,一种用于多轮智能体评估的新型用户模拟框架,该框架整合了来自业务背景的知识。SAGE融入了根植于业务逻辑的自顶向下知识,例如理想客户画像,将用户行为锚定在真实的客户角色中。我们进一步整合了取自业务智能体基础设施(例如产品目录、常见问题解答和知识库)的自底向上知识,使模拟器能够生成反映公司目标市场中用户信息需求和期望的交互。通过实证评估,我们发现该方法产生的交互更加真实和多样,同时还能多识别出高达33%的智能体错误,突显了其作为支持错误发现和智能体迭代改进的有效评估工具。

0
下载
关闭预览

相关内容

通用智能体评估的逻辑架构
专知会员服务
21+阅读 · 2月28日
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
大语言模型智能体的评估与基准:综述
专知会员服务
50+阅读 · 2025年7月31日
Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
AI Agent:基于大模型的自主智能体
专知会员服务
249+阅读 · 2023年9月9日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
103+阅读 · 2019年1月9日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月10日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
最新内容
【综述】 机器人学习中的世界模型:全面综述
伊朗的导弹-无人机行动及其对美国威慑的影响
【综述】 基于大语言模型的对话用户模拟综述
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员