Mobile GUI agents have shown strong potential in real-world automation and practical applications. However, most existing agents remain reactive, making decisions mainly from current screen, which limits their performance on long-horizon tasks. Building a world model from repeated interactions enables forecasting action outcomes and supports better decision making for mobile GUI agents. This is challenging because the model must predict post-action states with spatial awareness while remaining efficient enough for practical deployment. In this paper, we propose MobileDreamer, an efficient world-model-based lookahead framework to equip the GUI agents based on the future imagination provided by the world model. It consists of textual sketch world model and rollout imagination for GUI agent. Textual sketch world model forecasts post-action states through a learning process to transform digital images into key task-related sketches, and designs a novel order-invariant learning strategy to preserve the spatial information of GUI elements. The rollout imagination strategy for GUI agent optimizes the action-selection process by leveraging the prediction capability of world model. Experiments on Android World show that MobileDreamer achieves state-of-the-art performance and improves task success by 5.25%. World model evaluations further verify that our textual sketch modeling accurately forecasts key GUI elements.


翻译:移动图形用户界面(GUI)代理在现实世界自动化和实际应用中展现出强大潜力。然而,现有代理大多仍处于反应式状态,主要依据当前屏幕信息进行决策,这限制了其在长周期任务上的性能表现。通过重复交互构建世界模型,能够预测行动结果并支持移动GUI代理做出更优决策。这一任务具有挑战性,因为模型必须在保持空间感知能力预测行动后状态的同时,确保足够高效以满足实际部署需求。本文提出MobileDreamer——一种基于世界模型的高效前瞻框架,通过世界模型提供的未来想象能力赋能GUI代理。该框架包含文本草图世界模型与GUI代理的推演想象模块。文本草图世界模型通过学习过程将数字图像转换为关键任务相关草图以预测行动后状态,并设计了一种新颖的顺序无关学习策略以保持GUI元素的空间信息。针对GUI代理的推演想象策略则通过利用世界模型的预测能力优化行动选择过程。在Android World上的实验表明,MobileDreamer实现了最先进的性能,任务成功率提升5.25%。世界模型评估进一步验证了本文文本草图建模方法能够准确预测关键GUI元素。

0
下载
关闭预览

相关内容

大模型APP,AI时代第一个爆款
专知会员服务
20+阅读 · 2025年10月31日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
17+阅读 · 2025年7月1日
自动驾驶的世界模型综述
专知会员服务
42+阅读 · 2025年1月22日
GPT-4o发布,关注强交互场景落地
专知会员服务
31+阅读 · 2024年5月15日
【WWW2024教程】大型语言模型驱动智能体,附slides
专知会员服务
64+阅读 · 2024年5月14日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
八个不容错过的 GitHub Copilot 功能!
CSDN
11+阅读 · 2022年9月22日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
ProxyDroid - 适用于黑客的Android应用程序
黑白之道
55+阅读 · 2019年3月9日
React Native 分包哪家强?看这文就够了!
程序人生
13+阅读 · 2019年1月16日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月12日
VIP会员
相关VIP内容
大模型APP,AI时代第一个爆款
专知会员服务
20+阅读 · 2025年10月31日
走向通用人工智能之路,世界模型为何不可或缺?
专知会员服务
17+阅读 · 2025年7月1日
自动驾驶的世界模型综述
专知会员服务
42+阅读 · 2025年1月22日
GPT-4o发布,关注强交互场景落地
专知会员服务
31+阅读 · 2024年5月15日
【WWW2024教程】大型语言模型驱动智能体,附slides
专知会员服务
64+阅读 · 2024年5月14日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
相关资讯
八个不容错过的 GitHub Copilot 功能!
CSDN
11+阅读 · 2022年9月22日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
AnDOSid - 适用于黑客的Android应用程序
黑白之道
11+阅读 · 2019年3月14日
ProxyDroid - 适用于黑客的Android应用程序
黑白之道
55+阅读 · 2019年3月9日
React Native 分包哪家强?看这文就够了!
程序人生
13+阅读 · 2019年1月16日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员