Autonomous GUI agents interact with environments by perceiving interfaces and executing actions. As a virtual sandbox, the GUI World model empowers agents with human-like foresight by enabling action-conditioned prediction. However, existing text- and pixel-based approaches struggle to simultaneously achieve high visual fidelity and fine-grained structural controllability. To this end, we propose Code2World, a vision-language coder that simulates the next visual state via renderable code generation. Specifically, to address the data scarcity problem, we construct AndroidCode by translating GUI trajectories into high-fidelity HTML and refining synthesized code through a visual-feedback revision mechanism, yielding a corpus of over 80K high-quality screen-action pairs. To adapt existing VLMs into code prediction, we first perform SFT as a cold start for format layout following, then further apply Render-Aware Reinforcement Learning which uses rendered outcome as the reward signal by enforcing visual semantic fidelity and action consistency. Extensive experiments demonstrate that Code2World-8B achieves the top-performing next UI prediction, rivaling the competitive GPT-5 and Gemini-3-Pro-Image. Notably, Code2World significantly enhances downstream navigation success rates in a flexible manner, boosting Gemini-2.5-Flash by +9.5% on AndroidWorld navigation. The code is available at https://github.com/AMAP-ML/Code2World.


翻译:自主图形用户界面(GUI)代理通过感知界面并执行操作与环境进行交互。作为虚拟沙盒,GUI世界模型通过支持条件动作预测,赋予代理类人的预见能力。然而,现有的基于文本和像素的方法难以同时实现高视觉保真度与细粒度结构可控性。为此,我们提出Code2World——一种通过可渲染代码生成来模拟下一视觉状态的视觉语言编码器。具体而言,为应对数据稀缺问题,我们构建了AndroidCode数据集:将GUI交互轨迹转换为高保真HTML代码,并通过视觉反馈修正机制优化合成代码,最终获得包含超过8万组高质量屏幕-动作对的数据语料。为使现有视觉语言模型适应代码预测任务,我们首先通过监督微调实现格式布局遵循的冷启动,进而应用渲染感知强化学习——该机制以渲染结果为奖励信号,强制保证视觉语义保真度与动作一致性。大量实验表明,Code2World-8B在下一代用户界面预测任务中达到最优性能,可与GPT-5和Gemini-3-Pro-Image等竞争模型相媲美。值得注意的是,Code2World能以灵活方式显著提升下游导航任务成功率,在AndroidWorld导航任务中将Gemini-2.5-Flash的性能提升9.5%。代码已开源:https://github.com/AMAP-ML/Code2World。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
从二维到三维认知:通用世界模型简要综述
专知会员服务
29+阅读 · 2025年6月26日
【MIT博士论文】通过神经物理构建世界模型
专知会员服务
34+阅读 · 2025年4月3日
自动驾驶的世界模型综述
专知会员服务
42+阅读 · 2025年1月22日
八个不容错过的 GitHub Copilot 功能!
CSDN
11+阅读 · 2022年9月22日
I2P - 适用于黑客的Android应用程序
黑白之道
38+阅读 · 2019年3月6日
【干货】深入理解自编码器(附代码实现)
从 Encoder 到 Decoder 实现 Seq2Seq 模型
AI研习社
10+阅读 · 2018年2月10日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月19日
Arxiv
0+阅读 · 2月14日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员