看、规划、点击：评估Scratch中的多模态图形用户界面智能体 (See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch) - 专知论文

会员服务 ·

0

图形用户界面 · 多模 · 模态 · 构建 · 基准 ·

See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch

翻译：看、规划、点击：评估Scratch中的多模态图形用户界面智能体

Xingyi Zhang,Yulei Ye,Kaifeng Huang,Wenhao Li,Xiangfeng Wang

Block-based programming environments such as Scratch play a central role in low-code education, yet evaluating the capabilities of AI agents to construct programs through Graphical User Interfaces (GUIs) remains underexplored. We introduce ScratchWorld, a benchmark for evaluating multimodal GUI agents on program-by-construction tasks in Scratch. Grounded in the Use-Modify-Create pedagogical framework, ScratchWorld comprises 83 curated tasks spanning four distinct problem categories: Create, Debug, Extend, and Compute. To rigorously diagnose the source of agent failures, the benchmark employs two complementary interaction modes: primitive mode requires fine-grained drag-and-drop manipulation to directly assess visuomotor control, while composite mode uses high-level semantic APIs to disentangle program reasoning from GUI execution. To ensure reliable assessment, we propose an execution-based evaluation protocol that validates the functional correctness of the constructed Scratch programs through runtime tests within the browser environment. Extensive experiments across state-of-the-art multimodal language models and GUI agents reveal a substantial reasoning--acting gap, highlighting persistent challenges in fine-grained GUI manipulation despite strong planning capabilities.

翻译：诸如Scratch这样的积木式编程环境在低代码教育中扮演着核心角色，然而，评估人工智能智能体通过图形用户界面构建程序的能力仍未得到充分探索。我们提出了ScratchWorld，一个用于评估多模态图形用户界面智能体在Scratch中通过构造完成编程任务的基准。该基准基于“使用-修改-创造”教学框架构建，包含83个精心设计的任务，涵盖四个不同的问题类别：创建、调试、扩展和计算。为了严格诊断智能体失败的根源，该基准采用了两种互补的交互模式：原始模式要求细粒度的拖放操作，以直接评估视觉运动控制能力；而复合模式则使用高层语义API，将程序推理与图形用户界面执行分离开来。为确保评估的可靠性，我们提出了一种基于执行的评估协议，通过在浏览器环境中运行测试来验证所构建的Scratch程序的功能正确性。对多种最先进的多模态语言模型和图形用户界面智能体进行的大量实验揭示了一个显著的推理-行动差距，突显出尽管具备强大的规划能力，但在细粒度图形用户界面操作方面仍存在持续挑战。

0

相关内容

图形用户界面

图形用户界面

图形用户界面（Graphical User Interface，简称 GUI，又称图形用户接口）是指采用图形方式显示的计算机操作用户接口。与早期计算机使用的命令行界面相比，图形界面对于用户来说在视觉上更易于接受。

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

0+阅读 · 2月27日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

57+阅读 · 1月6日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

27+阅读 · 2025年12月31日

Agent AI：多模态交互的新地平线

Agent AI：多模态交互的新地平线

专知会员服务

21+阅读 · 2025年5月26日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

【WWW2024教程】大型语言模型驱动智能体，附slides

【WWW2024教程】大型语言模型驱动智能体，附slides

专知会员服务

64+阅读 · 2024年5月14日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

202+阅读 · 2024年1月9日

【Science论文】《通过无模型多智能体强化学习掌握战略游戏（Stratego）》DeepMind重磅成果，58页论文

【Science论文】《通过无模型多智能体强化学习掌握战略游戏（Stratego）》DeepMind重磅成果，58页论文

专知会员服务

51+阅读 · 2023年4月15日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

多模态预训练模型简述

多模态预训练模型简述

专知会员服务

114+阅读 · 2021年4月27日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

专家推荐 | 社交媒体多模态表示学习

专家推荐 | 社交媒体多模态表示学习

中国图象图形学报

12+阅读 · 2020年5月14日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

47页PPT，海量信息！用户画像架构、指标、标签、ETL、性能及案例应用一站通！（附PPT下载及视频）

47页PPT，海量信息！用户画像架构、指标、标签、ETL、性能及案例应用一站通！（附PPT下载及视频）

R语言中文社区

10+阅读 · 2018年8月15日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

支持新产品快速设计的复杂产品系统功能模块化方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

20+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

From Prompt to Product: A Human-Centered Benchmark of Agentic App Generation Systems

Arxiv

0+阅读 · 2月13日

Building Intelligent User Interfaces for Human-AI Alignment

Arxiv

0+阅读 · 2月12日

GameDevBench: Evaluating Agentic Capabilities Through Game Development

Arxiv

0+阅读 · 2月11日

From Off-Policy to On-Policy: Enhancing GUI Agents via Bi-level Expert-to-Policy Assimilation

Arxiv

0+阅读 · 2月10日

Code2World: A GUI World Model via Renderable Code Generation

Arxiv

0+阅读 · 2月10日

OmniCode: A Benchmark for Evaluating Software Engineering Agents

Arxiv

0+阅读 · 2月6日

M$^2$-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining

Arxiv

0+阅读 · 2月5日

Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies

Arxiv

0+阅读 · 1月31日

ScratchEval : A Multimodal Evaluation Framework for LLMs in Block-Based Programming

Arxiv

0+阅读 · 1月31日

Learning with Challenges: Adaptive Difficulty-Aware Data Generation for Mobile GUI Agent Training

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

图形用户界面

相关VIP内容

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

0+阅读 · 2月27日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

57+阅读 · 1月6日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

27+阅读 · 2025年12月31日

Agent AI：多模态交互的新地平线

Agent AI：多模态交互的新地平线

专知会员服务

21+阅读 · 2025年5月26日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

【WWW2024教程】大型语言模型驱动智能体，附slides

【WWW2024教程】大型语言模型驱动智能体，附slides

专知会员服务

64+阅读 · 2024年5月14日

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

多模态智能体AI开启新浪潮！李飞飞等14位斯坦福微软大牛等撰写 80页《AGENT AI: 综述多模态交互的前沿展望》

专知会员服务

202+阅读 · 2024年1月9日

【Science论文】《通过无模型多智能体强化学习掌握战略游戏（Stratego）》DeepMind重磅成果，58页论文

【Science论文】《通过无模型多智能体强化学习掌握战略游戏（Stratego）》DeepMind重磅成果，58页论文

专知会员服务

51+阅读 · 2023年4月15日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

多模态预训练模型简述

多模态预训练模型简述

专知会员服务

114+阅读 · 2021年4月27日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

专家推荐 | 社交媒体多模态表示学习

专家推荐 | 社交媒体多模态表示学习

中国图象图形学报

12+阅读 · 2020年5月14日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

47页PPT，海量信息！用户画像架构、指标、标签、ETL、性能及案例应用一站通！（附PPT下载及视频）

47页PPT，海量信息！用户画像架构、指标、标签、ETL、性能及案例应用一站通！（附PPT下载及视频）

R语言中文社区

10+阅读 · 2018年8月15日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

From Prompt to Product: A Human-Centered Benchmark of Agentic App Generation Systems

Arxiv

0+阅读 · 2月13日

Building Intelligent User Interfaces for Human-AI Alignment

Arxiv

0+阅读 · 2月12日

GameDevBench: Evaluating Agentic Capabilities Through Game Development

Arxiv

0+阅读 · 2月11日

From Off-Policy to On-Policy: Enhancing GUI Agents via Bi-level Expert-to-Policy Assimilation

Arxiv

0+阅读 · 2月10日

Code2World: A GUI World Model via Renderable Code Generation

Arxiv

0+阅读 · 2月10日

OmniCode: A Benchmark for Evaluating Software Engineering Agents

Arxiv

0+阅读 · 2月6日

M$^2$-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining

Arxiv

0+阅读 · 2月5日

Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies

Arxiv

0+阅读 · 1月31日

ScratchEval : A Multimodal Evaluation Framework for LLMs in Block-Based Programming

Arxiv

0+阅读 · 1月31日

Learning with Challenges: Adaptive Difficulty-Aware Data Generation for Mobile GUI Agent Training

Arxiv

0+阅读 · 1月30日

相关基金

支持新产品快速设计的复杂产品系统功能模块化方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

20+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员