Recent progress in GUI agents has substantially improved visual grounding, yet robust planning remains challenging, particularly when the environment deviates from a canonical initial state. In real applications, users often invoke assistance mid-workflow, where software may be partially configured, steps may have been executed in different orders, or the interface may differ from its default setup. Such task-state variability is pervasive but insufficiently evaluated in existing GUI benchmarks. To address this gap, we introduce WorldGUI, a benchmark covering ten widely used desktop and web applications with tasks instantiated under diverse, systematically constructed initial states. These variations capture realistic human-computer interaction settings and enable diagnostic evaluation of an agent's ability to recover, adapt plans, and handle non-default contexts. We further present WorldGUI-Agent, a simple and model-agnostic framework that organizes planning and execution around three critique stages, improving reliability in dynamic environments. Experiments demonstrate that state-of-the-art GUI agents exhibit substantial performance degradation under non-default initial conditions, revealing limited robustness and fragile planning behaviors. Our benchmark and framework provide a foundation for developing more adaptable and reliable GUI agents. The code and data are available at https://github.com/showlab/WorldGUI.


翻译:近期图形用户界面智能体的研究在视觉定位方面取得显著进展,但鲁棒的任务规划仍面临挑战,尤其在环境偏离规范初始状态时更为突出。在实际应用中,用户常在任务流程中途调用辅助功能,此时软件可能处于部分配置状态、操作步骤可能以不同顺序执行、或界面可能偏离默认设置。此类任务状态变异在现有图形用户界面基准中普遍存在但评估不足。为填补这一空白,我们提出WorldGUI基准,涵盖十款广泛使用的桌面与网络应用程序,其任务实例均构建于多样化、系统化设计的初始状态。这些变异捕捉了真实人机交互场景,支持对智能体状态恢复、计划调整及非默认上下文处理能力的诊断性评估。我们进一步提出WorldGUI-Agent——一个简洁且模型无关的框架,通过三重校验阶段组织规划与执行过程,提升动态环境下的可靠性。实验表明,当前最先进的图形用户界面智能体在非默认初始条件下均出现显著性能衰减,暴露出有限的鲁棒性与脆弱的规划行为。本基准与框架为开发更具适应性与可靠性的图形用户界面智能体奠定了基础。代码与数据公开于https://github.com/showlab/WorldGUI。

0
下载
关闭预览

相关内容

图形用户界面(Graphical User Interface,简称 GUI,又称图形用户接口)是指采用图形方式显示的计算机操作用户接口。与早期计算机使用的命令行界面相比,图形界面对于用户来说在视觉上更易于接受。
《图世界模型:概念、分类体系与未来方向》
专知会员服务
21+阅读 · 5月1日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
23+阅读 · 4月28日
【博士论文】面向开放式世界的鲁棒智能体
专知会员服务
25+阅读 · 2025年12月10日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
19+阅读 · 2025年7月1日
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
CenterNet:目标即点(代码已开源)
极市平台
25+阅读 · 2019年5月24日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
全景分割这一年,端到端之路
机器之心
14+阅读 · 2018年12月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Computer-Using World Model
Arxiv
0+阅读 · 2月19日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员