Block-based programming environments such as Scratch play a central role in low-code education, yet evaluating the capabilities of AI agents to construct programs through Graphical User Interfaces (GUIs) remains underexplored. We introduce ScratchWorld, a benchmark for evaluating multimodal GUI agents on program-by-construction tasks in Scratch. Grounded in the Use-Modify-Create pedagogical framework, ScratchWorld comprises 83 curated tasks spanning four distinct problem categories: Create, Debug, Extend, and Compute. To rigorously diagnose the source of agent failures, the benchmark employs two complementary interaction modes: primitive mode requires fine-grained drag-and-drop manipulation to directly assess visuomotor control, while composite mode uses high-level semantic APIs to disentangle program reasoning from GUI execution. To ensure reliable assessment, we propose an execution-based evaluation protocol that validates the functional correctness of the constructed Scratch programs through runtime tests within the browser environment. Extensive experiments across state-of-the-art multimodal language models and GUI agents reveal a substantial reasoning--acting gap, highlighting persistent challenges in fine-grained GUI manipulation despite strong planning capabilities.


翻译:诸如Scratch这样的积木式编程环境在低代码教育中扮演着核心角色,然而,评估人工智能智能体通过图形用户界面构建程序的能力仍未得到充分探索。我们提出了ScratchWorld,一个用于评估多模态图形用户界面智能体在Scratch中通过构造完成编程任务的基准。该基准基于“使用-修改-创造”教学框架构建,包含83个精心设计的任务,涵盖四个不同的问题类别:创建、调试、扩展和计算。为了严格诊断智能体失败的根源,该基准采用了两种互补的交互模式:原始模式要求细粒度的拖放操作,以直接评估视觉运动控制能力;而复合模式则使用高层语义API,将程序推理与图形用户界面执行分离开来。为确保评估的可靠性,我们提出了一种基于执行的评估协议,通过在浏览器环境中运行测试来验证所构建的Scratch程序的功能正确性。对多种最先进的多模态语言模型和图形用户界面智能体进行的大量实验揭示了一个显著的推理-行动差距,突显出尽管具备强大的规划能力,但在细粒度图形用户界面操作方面仍存在持续挑战。

0
下载
关闭预览

相关内容

图形用户界面(Graphical User Interface,简称 GUI,又称图形用户接口)是指采用图形方式显示的计算机操作用户接口。与早期计算机使用的命令行界面相比,图形界面对于用户来说在视觉上更易于接受。
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
【WWW2024教程】大型语言模型驱动智能体,附slides
专知会员服务
64+阅读 · 2024年5月14日
多模态预训练模型简述
专知会员服务
114+阅读 · 2021年4月27日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
专家推荐 | 社交媒体多模态表示学习
中国图象图形学报
12+阅读 · 2020年5月14日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员