WorldGUI: An Interactive Benchmark for Desktop GUI Automation from Any Starting Point - 专知论文

会员服务 ·

0

图形用户界面 · 基准 · 交互 · 鲁棒 · 自动化 ·

WorldGUI: An Interactive Benchmark for Desktop GUI Automation from Any Starting Point

翻译：WorldGUI：面向任意起始点的桌面图形用户界面自动化交互基准

Henry Hengyuan Zhao,Kaiming Yang,Wendi Yu,Difei Gao,Mike Zheng Shou

from arxiv, Technique Report

Recent progress in GUI agents has substantially improved visual grounding, yet robust planning remains challenging, particularly when the environment deviates from a canonical initial state. In real applications, users often invoke assistance mid-workflow, where software may be partially configured, steps may have been executed in different orders, or the interface may differ from its default setup. Such task-state variability is pervasive but insufficiently evaluated in existing GUI benchmarks. To address this gap, we introduce WorldGUI, a benchmark covering ten widely used desktop and web applications with tasks instantiated under diverse, systematically constructed initial states. These variations capture realistic human-computer interaction settings and enable diagnostic evaluation of an agent's ability to recover, adapt plans, and handle non-default contexts. We further present WorldGUI-Agent, a simple and model-agnostic framework that organizes planning and execution around three critique stages, improving reliability in dynamic environments. Experiments demonstrate that state-of-the-art GUI agents exhibit substantial performance degradation under non-default initial conditions, revealing limited robustness and fragile planning behaviors. Our benchmark and framework provide a foundation for developing more adaptable and reliable GUI agents. The code and data are available at https://github.com/showlab/WorldGUI.

翻译：近期图形用户界面智能体的研究在视觉定位方面取得显著进展，但鲁棒的任务规划仍面临挑战，尤其在环境偏离规范初始状态时更为突出。在实际应用中，用户常在任务流程中途调用辅助功能，此时软件可能处于部分配置状态、操作步骤可能以不同顺序执行、或界面可能偏离默认设置。此类任务状态变异在现有图形用户界面基准中普遍存在但评估不足。为填补这一空白，我们提出WorldGUI基准，涵盖十款广泛使用的桌面与网络应用程序，其任务实例均构建于多样化、系统化设计的初始状态。这些变异捕捉了真实人机交互场景，支持对智能体状态恢复、计划调整及非默认上下文处理能力的诊断性评估。我们进一步提出WorldGUI-Agent——一个简洁且模型无关的框架，通过三重校验阶段组织规划与执行过程，提升动态环境下的可靠性。实验表明，当前最先进的图形用户界面智能体在非默认初始条件下均出现显著性能衰减，暴露出有限的鲁棒性与脆弱的规划行为。本基准与框架为开发更具适应性与可靠性的图形用户界面智能体奠定了基础。代码与数据公开于https://github.com/showlab/WorldGUI。

0

相关内容

图形用户界面

图形用户界面

图形用户界面（Graphical User Interface，简称 GUI，又称图形用户接口）是指采用图形方式显示的计算机操作用户接口。与早期计算机使用的命令行界面相比，图形界面对于用户来说在视觉上更易于接受。

《图世界模型：概念、分类体系与未来方向》

《图世界模型：概念、分类体系与未来方向》

专知会员服务

21+阅读 · 5月1日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

23+阅读 · 4月28日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

【博士论文】面向开放式世界的鲁棒智能体

【博士论文】面向开放式世界的鲁棒智能体

专知会员服务

25+阅读 · 2025年12月10日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

27+阅读 · 2025年11月17日

走向通用人工智能之路，世界模型为何不可或缺？

走向通用人工智能之路，世界模型为何不可或缺？

专知会员服务

19+阅读 · 2025年7月1日

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

专知会员服务

9+阅读 · 2025年6月3日

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

专知会员服务

39+阅读 · 2023年5月9日

2022迈向智能世界白皮书：数据通信，联接无处不在的算力和智慧生活（附报告）

2022迈向智能世界白皮书：数据通信，联接无处不在的算力和智慧生活（附报告）

专知会员服务

24+阅读 · 2022年11月11日

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

【谷歌出品】272页PPT讲述Tensorflow2.0在图形学方面的应用，SIGGRAPH2019

【谷歌出品】272页PPT讲述Tensorflow2.0在图形学方面的应用，SIGGRAPH2019

专知

13+阅读 · 2019年10月10日

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

无人机

10+阅读 · 2019年7月18日

CenterNet：目标即点（代码已开源）

CenterNet：目标即点（代码已开源）

极市平台

25+阅读 · 2019年5月24日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

中科院牛津华为诺亚提出：CenterNet，One-stage目标检测最强算法！可达47mAP，已开源！

中科院牛津华为诺亚提出：CenterNet，One-stage目标检测最强算法！可达47mAP，已开源！

极市平台

19+阅读 · 2019年4月18日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

全景分割这一年，端到端之路

全景分割这一年，端到端之路

机器之心

14+阅读 · 2018年12月24日

47页PPT，海量信息！用户画像架构、指标、标签、ETL、性能及案例应用一站通！（附PPT下载及视频）

47页PPT，海量信息！用户画像架构、指标、标签、ETL、性能及案例应用一站通！（附PPT下载及视频）

R语言中文社区

10+阅读 · 2018年8月15日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

AdaZoom-GUI: Adaptive Zoom-based GUI Grounding with Instruction Refinement

AdaZoom-GUI: Adaptive Zoom-based GUI Grounding with Instruction Refinement

Arxiv

0+阅读 · 3月18日

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Arxiv

0+阅读 · 3月17日

FingerTip 20K: A Benchmark for Proactive and Personalized Mobile LLM Agents

Arxiv

0+阅读 · 3月16日

CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

Arxiv

0+阅读 · 3月13日

See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

Arxiv

0+阅读 · 3月3日

Computer-Using World Model

Computer-Using World Model

Arxiv

0+阅读 · 2月19日

A Unified, Cross-Platform Framework for Automatic GUI and Plugin Generation in Structural Bioinformatics and Beyond

Arxiv

0+阅读 · 2月17日

DuetUI: A Bidirectional Context Loop for Human-Agent Co-Generation of Task-Oriented Interfaces

Arxiv

0+阅读 · 2月13日

AmbiBench: Benchmarking Mobile GUI Agents Beyond One-Shot Instructions in the Wild

Arxiv

0+阅读 · 2月12日

Code2World: A GUI World Model via Renderable Code Generation

Arxiv

0+阅读 · 2月10日

VIP会员

文章信息

相关主题

图形用户界面

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

5+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

10+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《图世界模型：概念、分类体系与未来方向》

《图世界模型：概念、分类体系与未来方向》

专知会员服务

21+阅读 · 5月1日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

23+阅读 · 4月28日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

【博士论文】面向开放式世界的鲁棒智能体

【博士论文】面向开放式世界的鲁棒智能体

专知会员服务

25+阅读 · 2025年12月10日

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

27+阅读 · 2025年11月17日

走向通用人工智能之路，世界模型为何不可或缺？

走向通用人工智能之路，世界模型为何不可或缺？

专知会员服务

19+阅读 · 2025年7月1日

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

专知会员服务

9+阅读 · 2025年6月3日

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

专知会员服务

39+阅读 · 2023年5月9日

2022迈向智能世界白皮书：数据通信，联接无处不在的算力和智慧生活（附报告）

2022迈向智能世界白皮书：数据通信，联接无处不在的算力和智慧生活（附报告）

专知会员服务

24+阅读 · 2022年11月11日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

【谷歌出品】272页PPT讲述Tensorflow2.0在图形学方面的应用，SIGGRAPH2019

【谷歌出品】272页PPT讲述Tensorflow2.0在图形学方面的应用，SIGGRAPH2019

专知

13+阅读 · 2019年10月10日

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

LinkTrack UWB高精度定位系统首发，一套可以随时搭建的"小卫星"定位系统，集定位|导航|授时|通信于一体

无人机

10+阅读 · 2019年7月18日

CenterNet：目标即点（代码已开源）

CenterNet：目标即点（代码已开源）

极市平台

25+阅读 · 2019年5月24日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

中科院牛津华为诺亚提出：CenterNet，One-stage目标检测最强算法！可达47mAP，已开源！

中科院牛津华为诺亚提出：CenterNet，One-stage目标检测最强算法！可达47mAP，已开源！

极市平台

19+阅读 · 2019年4月18日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

全景分割这一年，端到端之路

全景分割这一年，端到端之路

机器之心

14+阅读 · 2018年12月24日

47页PPT，海量信息！用户画像架构、指标、标签、ETL、性能及案例应用一站通！（附PPT下载及视频）

47页PPT，海量信息！用户画像架构、指标、标签、ETL、性能及案例应用一站通！（附PPT下载及视频）

R语言中文社区

10+阅读 · 2018年8月15日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

相关论文

AdaZoom-GUI: Adaptive Zoom-based GUI Grounding with Instruction Refinement

AdaZoom-GUI: Adaptive Zoom-based GUI Grounding with Instruction Refinement

Arxiv

0+阅读 · 3月18日

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

Arxiv

0+阅读 · 3月17日

FingerTip 20K: A Benchmark for Proactive and Personalized Mobile LLM Agents

Arxiv

0+阅读 · 3月16日

CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

Arxiv

0+阅读 · 3月13日

See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

Arxiv

0+阅读 · 3月3日

Computer-Using World Model

Computer-Using World Model

Arxiv

0+阅读 · 2月19日

A Unified, Cross-Platform Framework for Automatic GUI and Plugin Generation in Structural Bioinformatics and Beyond

Arxiv

0+阅读 · 2月17日

DuetUI: A Bidirectional Context Loop for Human-Agent Co-Generation of Task-Oriented Interfaces

Arxiv

0+阅读 · 2月13日

AmbiBench: Benchmarking Mobile GUI Agents Beyond One-Shot Instructions in the Wild

Arxiv

0+阅读 · 2月12日

Code2World: A GUI World Model via Renderable Code Generation

Arxiv

0+阅读 · 2月10日

相关基金

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员