VISTA: A Versatile Interactive User Simulation Toolkit for Agent Evaluation - 专知论文

会员服务 ·

0

INTERACT · Agent · 评论员 · MoDELS · 全 ·

VISTA: A Versatile Interactive User Simulation Toolkit for Agent Evaluation

翻译：VISTA：面向智能体评估的通用交互式用户模拟工具包

Yunan Lu,Ryan Shea,Yusen Zhang,Zhou Yu

Evaluation remains a critical bottleneck for interactive agent development. Existing evaluation methods often rely on static benchmarks, which fail to capture the dynamic, multi-step nature of agentic behavior and struggle to expose meaningful failure modes. While user-simulation-based evaluation offers a promising alternative, existing simulation frameworks suffer from two major limitations. First, they provide limited mechanisms for evaluating the quality and comprehensiveness of simulated interactions, making it difficult to assess whether a simulator sufficiently explores an agent's capabilities and failure modes. Second, most frameworks are restricted to either UI-only actions or API-only actions, limiting their ability to model the full range of realistic user behaviors. To address these limitations, we propose VISTA, a Versatile Interactive user Simulation Toolkit for Agent evaluation. Our toolkit includes a suite of six metrics for measuring the realism, capability coverage, and interaction effectiveness of simulated interactions. In addition, we develop a hybrid user simulator that integrates both UI-based interactions and API-based interactions, enabling more realistic and comprehensive evaluation across diverse interactive environments. We evaluate VISTA in e-commerce shopping and education customer service settings and demonstrate that it produces more realistic and comprehensive evaluations than existing methods.

翻译：评估仍然是交互式智能体开发的关键瓶颈。现有评估方法通常依赖静态基准测试，难以捕捉智能体行为的动态多步性质，也难以揭示有意义的失败模式。尽管基于用户模拟的评估提供了一种有前景的替代方案，但现有模拟框架存在两大局限。首先，它们缺乏评估模拟交互质量与全面性的机制，难以判断模拟器是否充分探索了智能体的能力及失败模式。其次，大多数框架仅局限于纯界面（UI）操作或纯API操作，限制了其对真实用户行为全谱的建模能力。为应对这些局限，我们提出VISTA——面向智能体评估的通用交互式用户模拟工具包。该工具包包含六项用于衡量模拟交互真实性、能力覆盖率和交互有效性的指标。此外，我们开发了一种混合型用户模拟器，该模拟器融合了基于界面的交互与基于API的交互，从而能够在多样化的交互环境中实现更真实、更全面的评估。我们在电子商务购物和教育客服场景中评估了VISTA，结果表明其能产生比现有方法更真实、更全面的评估结果。

0

相关内容

INTERACT

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来，这些会议吸引了来自几个国家和文化的研究人员。官网链接：http://interact2019.org/

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

22+阅读 · 2月28日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

36+阅读 · 2025年12月31日

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

专知会员服务

19+阅读 · 2025年11月19日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

50+阅读 · 2025年7月31日

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

专知会员服务

31+阅读 · 2025年3月17日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

专知会员服务

54+阅读 · 2024年2月4日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

203+阅读 · 2024年1月9日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

AI前线

15+阅读 · 2019年9月22日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

无人驾驶仿真软件

无人驾驶仿真软件

智能交通技术

22+阅读 · 2019年5月9日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

【智能客服】智能客服2.0，数字时代的人性化交互

【智能客服】智能客服2.0，数字时代的人性化交互

产业智能官

13+阅读 · 2017年11月13日

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

社交网络中信息主体的行为模式分析及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月14日

Can Agents Read the Room? Benchmarking Visual Social Intelligence in Multimodal Simulation

Arxiv

0+阅读 · 6月13日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月11日

VISTA: Video Interaction Spatio-Temporal Analysis Benchmark

Arxiv

0+阅读 · 6月11日

VISTA: An End-to-End Benchmark for Visual Spec-to-Web-App Coding Agents

Arxiv

0+阅读 · 6月11日

AgentCanary: A Security Evaluation Framework for Autonomous AI Agents in Real Executable Environments

Arxiv

0+阅读 · 6月9日

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

Arxiv

0+阅读 · 6月8日

More than a Judge: An Empirical Study of Agent-Human Interaction in Crowdsourced Testing Assessment

Arxiv

0+阅读 · 6月4日

AndroidDaily: A Verifiable Benchmark for Mobile GUI Agents on Real-World Closed-Source Applications

Arxiv

0+阅读 · 5月26日

Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World

Arxiv

0+阅读 · 5月25日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

6+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

2+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

2+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

13+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

12+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

9+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

22+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

11+阅读 · 6月17日

相关VIP内容

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

22+阅读 · 2月28日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

36+阅读 · 2025年12月31日

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

专知会员服务

19+阅读 · 2025年11月19日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

50+阅读 · 2025年7月31日

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

专知会员服务

31+阅读 · 2025年3月17日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

专知会员服务

54+阅读 · 2024年2月4日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

203+阅读 · 2024年1月9日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

AI前线

15+阅读 · 2019年9月22日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

无人驾驶仿真软件

无人驾驶仿真软件

智能交通技术

22+阅读 · 2019年5月9日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

推荐｜机器学习中的模型评价、模型选择和算法选择！

推荐｜机器学习中的模型评价、模型选择和算法选择！

全球人工智能

10+阅读 · 2018年2月5日

【智能客服】智能客服2.0，数字时代的人性化交互

【智能客服】智能客服2.0，数字时代的人性化交互

产业智能官

13+阅读 · 2017年11月13日

相关论文

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月14日

Can Agents Read the Room? Benchmarking Visual Social Intelligence in Multimodal Simulation

Arxiv

0+阅读 · 6月13日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月11日

VISTA: Video Interaction Spatio-Temporal Analysis Benchmark

Arxiv

0+阅读 · 6月11日

VISTA: An End-to-End Benchmark for Visual Spec-to-Web-App Coding Agents

Arxiv

0+阅读 · 6月11日

AgentCanary: A Security Evaluation Framework for Autonomous AI Agents in Real Executable Environments

Arxiv

0+阅读 · 6月9日

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

Arxiv

0+阅读 · 6月8日

More than a Judge: An Empirical Study of Agent-Human Interaction in Crowdsourced Testing Assessment

Arxiv

0+阅读 · 6月4日

AndroidDaily: A Verifiable Benchmark for Mobile GUI Agents on Real-World Closed-Source Applications

Arxiv

0+阅读 · 5月26日

Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World

Arxiv

0+阅读 · 5月25日

相关基金

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

社交网络中信息主体的行为模式分析及应用研究

国家自然科学基金

2+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员