MobileDreamer：面向GUI代理的生成式草图世界模型 (MobileDreamer: Generative Sketch World Model for GUI Agent) - 专知论文

会员服务 ·

0

世界模型 · 图形用户界面 · 香港理工大学 · 交互 · 构建 ·

MobileDreamer: Generative Sketch World Model for GUI Agent

翻译：MobileDreamer：面向GUI代理的生成式草图世界模型

Yilin Cao,Yufeng Zhong,Zhixiong Zeng,Liming Zheng,Jing Huang,Haibo Qiu,Peng Shi,Wenji Mao,Wan Guanglu

Mobile GUI agents have shown strong potential in real-world automation and practical applications. However, most existing agents remain reactive, making decisions mainly from current screen, which limits their performance on long-horizon tasks. Building a world model from repeated interactions enables forecasting action outcomes and supports better decision making for mobile GUI agents. This is challenging because the model must predict post-action states with spatial awareness while remaining efficient enough for practical deployment. In this paper, we propose MobileDreamer, an efficient world-model-based lookahead framework to equip the GUI agents based on the future imagination provided by the world model. It consists of textual sketch world model and rollout imagination for GUI agent. Textual sketch world model forecasts post-action states through a learning process to transform digital images into key task-related sketches, and designs a novel order-invariant learning strategy to preserve the spatial information of GUI elements. The rollout imagination strategy for GUI agent optimizes the action-selection process by leveraging the prediction capability of world model. Experiments on Android World show that MobileDreamer achieves state-of-the-art performance and improves task success by 5.25%. World model evaluations further verify that our textual sketch modeling accurately forecasts key GUI elements.

翻译：移动图形用户界面（GUI）代理在现实世界自动化和实际应用中展现出强大潜力。然而，现有代理大多仍处于反应式状态，主要依据当前屏幕信息进行决策，这限制了其在长周期任务上的性能表现。通过重复交互构建世界模型，能够预测行动结果并支持移动GUI代理做出更优决策。这一任务具有挑战性，因为模型必须在保持空间感知能力预测行动后状态的同时，确保足够高效以满足实际部署需求。本文提出MobileDreamer——一种基于世界模型的高效前瞻框架，通过世界模型提供的未来想象能力赋能GUI代理。该框架包含文本草图世界模型与GUI代理的推演想象模块。文本草图世界模型通过学习过程将数字图像转换为关键任务相关草图以预测行动后状态，并设计了一种新颖的顺序无关学习策略以保持GUI元素的空间信息。针对GUI代理的推演想象策略则通过利用世界模型的预测能力优化行动选择过程。在Android World上的实验表明，MobileDreamer实现了最先进的性能，任务成功率提升5.25%。世界模型评估进一步验证了本文文本草图建模方法能够准确预测关键GUI元素。

0

相关内容

世界模型

大模型APP，AI时代第一个爆款

大模型APP，AI时代第一个爆款

专知会员服务

20+阅读 · 2025年10月31日

走向通用人工智能之路，世界模型为何不可或缺？

走向通用人工智能之路，世界模型为何不可或缺？

专知会员服务

17+阅读 · 2025年7月1日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

42+阅读 · 2025年1月22日

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

GPT-4o发布，关注强交互场景落地

GPT-4o发布，关注强交互场景落地

专知会员服务

31+阅读 · 2024年5月15日

【WWW2024教程】大型语言模型驱动智能体，附slides

【WWW2024教程】大型语言模型驱动智能体，附slides

专知会员服务

64+阅读 · 2024年5月14日

64页ppt！AIGC行业：大模型改变开发及交互环境，处于高速迭代创新周期

64页ppt！AIGC行业：大模型改变开发及交互环境，处于高速迭代创新周期

专知会员服务

52+阅读 · 2024年2月9日

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

专知会员服务

35+阅读 · 2024年2月4日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

249+阅读 · 2023年9月9日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

63+阅读 · 2023年2月5日

八个不容错过的 GitHub Copilot 功能！

八个不容错过的 GitHub Copilot 功能！

CSDN

11+阅读 · 2022年9月22日

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

专知

27+阅读 · 2021年3月7日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

AnDOSid - 适用于黑客的Android应用程序

AnDOSid - 适用于黑客的Android应用程序

黑白之道

11+阅读 · 2019年3月14日

Facebook Oculus实验室实习生：手势估计最新综述

Facebook Oculus实验室实习生：手势估计最新综述

专知

10+阅读 · 2019年3月12日

ProxyDroid - 适用于黑客的Android应用程序

ProxyDroid - 适用于黑客的Android应用程序

黑白之道

55+阅读 · 2019年3月9日

React Native 分包哪家强？看这文就够了！

React Native 分包哪家强？看这文就够了！

程序人生

13+阅读 · 2019年1月16日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

【附源码】TensorFlow动态图（Eager模式）的那些神坑

【附源码】TensorFlow动态图（Eager模式）的那些神坑

专知

19+阅读 · 2018年10月12日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

面向移动云环境的委托式数据安全共享关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

云计算环境下顾及用户关系的手机用户时空轨迹模式挖掘方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Learning with Challenges: Adaptive Difficulty-Aware Data Generation for Mobile GUI Agent Training

Arxiv

0+阅读 · 1月30日

MobileBench-OL: A Comprehensive Chinese Benchmark for Evaluating Mobile GUI Agents in Real-World Environment

Arxiv

0+阅读 · 1月28日

GhostUI: Unveiling Hidden Interactions in Mobile UI

Arxiv

0+阅读 · 1月27日

SwipeGen: Bridging the Execution Gap in GUI Agents via Human-like Swipe Synthesis

Arxiv

0+阅读 · 1月26日

GraphPilot: GUI Task Automation with One-Step LLM Reasoning Powered by Knowledge Graph

Arxiv

0+阅读 · 1月24日

ShowUI-Aloha: Human-Taught GUI Agent

Arxiv

0+阅读 · 1月12日

InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training

Arxiv

0+阅读 · 1月8日

InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training

Arxiv

0+阅读 · 1月7日

D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents

Arxiv

0+阅读 · 1月6日

ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

图形用户界面

香港理工大学

相关VIP内容

大模型APP，AI时代第一个爆款

大模型APP，AI时代第一个爆款

专知会员服务

20+阅读 · 2025年10月31日

走向通用人工智能之路，世界模型为何不可或缺？

走向通用人工智能之路，世界模型为何不可或缺？

专知会员服务

17+阅读 · 2025年7月1日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

42+阅读 · 2025年1月22日

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

GPT-4o发布，关注强交互场景落地

GPT-4o发布，关注强交互场景落地

专知会员服务

31+阅读 · 2024年5月15日

【WWW2024教程】大型语言模型驱动智能体，附slides

【WWW2024教程】大型语言模型驱动智能体，附slides

专知会员服务

64+阅读 · 2024年5月14日

64页ppt！AIGC行业：大模型改变开发及交互环境，处于高速迭代创新周期

64页ppt！AIGC行业：大模型改变开发及交互环境，处于高速迭代创新周期

专知会员服务

52+阅读 · 2024年2月9日

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

科研动态| 一句指令帮你操作手机，最新多模态手机助手Mobile-Agent来了！

专知会员服务

35+阅读 · 2024年2月4日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

249+阅读 · 2023年9月9日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

63+阅读 · 2023年2月5日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

八个不容错过的 GitHub Copilot 功能！

八个不容错过的 GitHub Copilot 功能！

CSDN

11+阅读 · 2022年9月22日

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

专知

27+阅读 · 2021年3月7日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

AnDOSid - 适用于黑客的Android应用程序

AnDOSid - 适用于黑客的Android应用程序

黑白之道

11+阅读 · 2019年3月14日

Facebook Oculus实验室实习生：手势估计最新综述

Facebook Oculus实验室实习生：手势估计最新综述

专知

10+阅读 · 2019年3月12日

ProxyDroid - 适用于黑客的Android应用程序

ProxyDroid - 适用于黑客的Android应用程序

黑白之道

55+阅读 · 2019年3月9日

React Native 分包哪家强？看这文就够了！

React Native 分包哪家强？看这文就够了！

程序人生

13+阅读 · 2019年1月16日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

【附源码】TensorFlow动态图（Eager模式）的那些神坑

【附源码】TensorFlow动态图（Eager模式）的那些神坑

专知

19+阅读 · 2018年10月12日

最新人机对话系统简略综述

最新人机对话系统简略综述

专知

26+阅读 · 2018年3月10日

相关论文

Learning with Challenges: Adaptive Difficulty-Aware Data Generation for Mobile GUI Agent Training

Arxiv

0+阅读 · 1月30日

MobileBench-OL: A Comprehensive Chinese Benchmark for Evaluating Mobile GUI Agents in Real-World Environment

Arxiv

0+阅读 · 1月28日

GhostUI: Unveiling Hidden Interactions in Mobile UI

Arxiv

0+阅读 · 1月27日

SwipeGen: Bridging the Execution Gap in GUI Agents via Human-like Swipe Synthesis

Arxiv

0+阅读 · 1月26日

GraphPilot: GUI Task Automation with One-Step LLM Reasoning Powered by Knowledge Graph

Arxiv

0+阅读 · 1月24日

ShowUI-Aloha: Human-Taught GUI Agent

Arxiv

0+阅读 · 1月12日

InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training

Arxiv

0+阅读 · 1月8日

InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training

Arxiv

0+阅读 · 1月7日

D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents

Arxiv

0+阅读 · 1月6日

ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands

Arxiv

0+阅读 · 2025年12月31日

相关基金

面向移动云环境的委托式数据安全共享关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

云计算环境下顾及用户关系的手机用户时空轨迹模式挖掘方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员