Evaluation remains a critical bottleneck for interactive agent development. Existing evaluation methods often rely on static benchmarks, which fail to capture the dynamic, multi-step nature of agentic behavior and struggle to expose meaningful failure modes. While user-simulation-based evaluation offers a promising alternative, existing simulation frameworks suffer from two major limitations. First, they provide limited mechanisms for evaluating the quality and comprehensiveness of simulated interactions, making it difficult to assess whether a simulator sufficiently explores an agent's capabilities and failure modes. Second, most frameworks are restricted to either UI-only actions or API-only actions, limiting their ability to model the full range of realistic user behaviors. To address these limitations, we propose VISTA, a Versatile Interactive user Simulation Toolkit for Agent evaluation. Our toolkit includes a suite of six metrics for measuring the realism, capability coverage, and interaction effectiveness of simulated interactions. In addition, we develop a hybrid user simulator that integrates both UI-based interactions and API-based interactions, enabling more realistic and comprehensive evaluation across diverse interactive environments. We evaluate VISTA in e-commerce shopping and education customer service settings and demonstrate that it produces more realistic and comprehensive evaluations than existing methods.


翻译:评估仍然是交互式智能体开发的关键瓶颈。现有评估方法通常依赖静态基准测试,难以捕捉智能体行为的动态多步性质,也难以揭示有意义的失败模式。尽管基于用户模拟的评估提供了一种有前景的替代方案,但现有模拟框架存在两大局限。首先,它们缺乏评估模拟交互质量与全面性的机制,难以判断模拟器是否充分探索了智能体的能力及失败模式。其次,大多数框架仅局限于纯界面(UI)操作或纯API操作,限制了其对真实用户行为全谱的建模能力。为应对这些局限,我们提出VISTA——面向智能体评估的通用交互式用户模拟工具包。该工具包包含六项用于衡量模拟交互真实性、能力覆盖率和交互有效性的指标。此外,我们开发了一种混合型用户模拟器,该模拟器融合了基于界面的交互与基于API的交互,从而能够在多样化的交互环境中实现更真实、更全面的评估。我们在电子商务购物和教育客服场景中评估了VISTA,结果表明其能产生比现有方法更真实、更全面的评估结果。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
通用智能体评估的逻辑架构
专知会员服务
22+阅读 · 2月28日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
大语言模型智能体的评估与基准:综述
专知会员服务
50+阅读 · 2025年7月31日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
【智能客服】智能客服2.0,数字时代的人性化交互
产业智能官
13+阅读 · 2017年11月13日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
9+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
11+阅读 · 6月17日
相关VIP内容
相关资讯
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
【智能客服】智能客服2.0,数字时代的人性化交互
产业智能官
13+阅读 · 2017年11月13日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员