Code2World: A GUI World Model via Renderable Code Generation - 专知论文

会员服务 ·

0

代码 · 图形用户界面 · 代码生成 · 交互 · 世界模型 ·

Code2World: A GUI World Model via Renderable Code Generation

翻译：Code2World：通过可渲染代码生成的图形用户界面世界模型

Yuhao Zheng,Li'an Zhong,Yi Wang,Rui Dai,Kaikui Liu,Xiangxiang Chu,Linyuan Lv,Philip Torr,Kevin Qinghong Lin

from arxiv, github: https://github.com/AMAP-ML/Code2World project page: https://amap-ml.github.io/Code2World/

Autonomous GUI agents interact with environments by perceiving interfaces and executing actions. As a virtual sandbox, the GUI World model empowers agents with human-like foresight by enabling action-conditioned prediction. However, existing text- and pixel-based approaches struggle to simultaneously achieve high visual fidelity and fine-grained structural controllability. To this end, we propose Code2World, a vision-language coder that simulates the next visual state via renderable code generation. Specifically, to address the data scarcity problem, we construct AndroidCode by translating GUI trajectories into high-fidelity HTML and refining synthesized code through a visual-feedback revision mechanism, yielding a corpus of over 80K high-quality screen-action pairs. To adapt existing VLMs into code prediction, we first perform SFT as a cold start for format layout following, then further apply Render-Aware Reinforcement Learning which uses rendered outcome as the reward signal by enforcing visual semantic fidelity and action consistency. Extensive experiments demonstrate that Code2World-8B achieves the top-performing next UI prediction, rivaling the competitive GPT-5 and Gemini-3-Pro-Image. Notably, Code2World significantly enhances downstream navigation success rates in a flexible manner, boosting Gemini-2.5-Flash by +9.5% on AndroidWorld navigation. The code is available at https://github.com/AMAP-ML/Code2World.

翻译：自主图形用户界面（GUI）代理通过感知界面并执行操作与环境进行交互。作为虚拟沙盒，GUI世界模型通过支持条件动作预测，赋予代理类人的预见能力。然而，现有的基于文本和像素的方法难以同时实现高视觉保真度与细粒度结构可控性。为此，我们提出Code2World——一种通过可渲染代码生成来模拟下一视觉状态的视觉语言编码器。具体而言，为应对数据稀缺问题，我们构建了AndroidCode数据集：将GUI交互轨迹转换为高保真HTML代码，并通过视觉反馈修正机制优化合成代码，最终获得包含超过8万组高质量屏幕-动作对的数据语料。为使现有视觉语言模型适应代码预测任务，我们首先通过监督微调实现格式布局遵循的冷启动，进而应用渲染感知强化学习——该机制以渲染结果为奖励信号，强制保证视觉语义保真度与动作一致性。大量实验表明，Code2World-8B在下一代用户界面预测任务中达到最优性能，可与GPT-5和Gemini-3-Pro-Image等竞争模型相媲美。值得注意的是，Code2World能以灵活方式显著提升下游导航任务成功率，在AndroidWorld导航任务中将Gemini-2.5-Flash的性能提升9.5%。代码已开源：https://github.com/AMAP-ML/Code2World。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

30+阅读 · 2025年6月26日

【MIT博士论文】通过神经物理构建世界模型

【MIT博士论文】通过神经物理构建世界模型

专知会员服务

35+阅读 · 2025年4月3日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

44+阅读 · 2025年1月22日

64页ppt！AIGC行业：大模型改变开发及交互环境，处于高速迭代创新周期

64页ppt！AIGC行业：大模型改变开发及交互环境，处于高速迭代创新周期

专知会员服务

52+阅读 · 2024年2月9日

大模型如何代码建模？上交大等最新《语言模型与代码生成》综述，涵盖了50多个模型、30多个评估任务和500个相关工作

大模型如何代码建模？上交大等最新《语言模型与代码生成》综述，涵盖了50多个模型、30多个评估任务和500个相关工作

专知会员服务

55+阅读 · 2023年11月16日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

重磅！大模型模拟人生？斯坦福发布《生成式智能体:人类行为的交互式拟像》

重磅！大模型模拟人生？斯坦福发布《生成式智能体:人类行为的交互式拟像》

专知会员服务

61+阅读 · 2023年4月11日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

64+阅读 · 2023年2月5日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

八个不容错过的 GitHub Copilot 功能！

八个不容错过的 GitHub Copilot 功能！

CSDN

11+阅读 · 2022年9月22日

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

专知

30+阅读 · 2022年4月23日

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

专知

17+阅读 · 2019年12月7日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

I2P - 适用于黑客的Android应用程序

I2P - 适用于黑客的Android应用程序

黑白之道

38+阅读 · 2019年3月6日

谷歌最新语义图像分割模型 DeepLab-v3+ 现已开源 | 软件推介

谷歌最新语义图像分割模型 DeepLab-v3+ 现已开源 | 软件推介

开源中国

16+阅读 · 2018年3月18日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

从 Encoder 到 Decoder 实现 Seq2Seq 模型

从 Encoder 到 Decoder 实现 Seq2Seq 模型

AI研习社

10+阅读 · 2018年2月10日

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

面向图形化互联网的建筑空间组合表达与检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

AdaZoom-GUI: Adaptive Zoom-based GUI Grounding with Instruction Refinement

AdaZoom-GUI: Adaptive Zoom-based GUI Grounding with Instruction Refinement

Arxiv

0+阅读 · 3月18日

WorldGUI: An Interactive Benchmark for Desktop GUI Automation from Any Starting Point

Arxiv

0+阅读 · 2月22日

CoAct-1: Computer-using Multi-Agent System with Coding Actions

Arxiv

0+阅读 · 2月20日

Computer-Using World Model

Computer-Using World Model

Arxiv

0+阅读 · 2月19日

A Unified, Cross-Platform Framework for Automatic GUI and Plugin Generation in Structural Bioinformatics and Beyond

Arxiv

0+阅读 · 2月17日

AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

Arxiv

0+阅读 · 2月15日

GUI-GENESIS: Automated Synthesis of Efficient Environments with Verifiable Rewards for GUI Agent Post-Training

Arxiv

0+阅读 · 2月15日

Debugging code world models

Arxiv

0+阅读 · 2月14日

Code2Worlds: Empowering Coding LLMs for 4D World Generation

Arxiv

0+阅读 · 2月12日

GEBench: Benchmarking Image Generation Models as GUI Environments

Arxiv

0+阅读 · 2月10日

VIP会员

文章信息

相关主题

图形用户界面

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

2+阅读 · 今天15:00

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

2+阅读 · 今天14:54

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

1+阅读 · 今天14:49

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

1+阅读 · 今天14:44

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

2+阅读 · 今天14:03

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

0+阅读 · 今天13:36

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

0+阅读 · 今天13:34

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

6+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

4+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

6+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

4+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

4+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

12+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

13+阅读 · 4月19日

相关VIP内容

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

30+阅读 · 2025年6月26日

【MIT博士论文】通过神经物理构建世界模型

【MIT博士论文】通过神经物理构建世界模型

专知会员服务

35+阅读 · 2025年4月3日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

44+阅读 · 2025年1月22日

64页ppt！AIGC行业：大模型改变开发及交互环境，处于高速迭代创新周期

64页ppt！AIGC行业：大模型改变开发及交互环境，处于高速迭代创新周期

专知会员服务

52+阅读 · 2024年2月9日

大模型如何代码建模？上交大等最新《语言模型与代码生成》综述，涵盖了50多个模型、30多个评估任务和500个相关工作

大模型如何代码建模？上交大等最新《语言模型与代码生成》综述，涵盖了50多个模型、30多个评估任务和500个相关工作

专知会员服务

55+阅读 · 2023年11月16日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

重磅！大模型模拟人生？斯坦福发布《生成式智能体:人类行为的交互式拟像》

重磅！大模型模拟人生？斯坦福发布《生成式智能体:人类行为的交互式拟像》

专知会员服务

61+阅读 · 2023年4月11日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

64+阅读 · 2023年2月5日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

八个不容错过的 GitHub Copilot 功能！

八个不容错过的 GitHub Copilot 功能！

CSDN

11+阅读 · 2022年9月22日

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

专知

30+阅读 · 2022年4月23日

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

专知

17+阅读 · 2019年12月7日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

I2P - 适用于黑客的Android应用程序

I2P - 适用于黑客的Android应用程序

黑白之道

38+阅读 · 2019年3月6日

谷歌最新语义图像分割模型 DeepLab-v3+ 现已开源 | 软件推介

谷歌最新语义图像分割模型 DeepLab-v3+ 现已开源 | 软件推介

开源中国

16+阅读 · 2018年3月18日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

从 Encoder 到 Decoder 实现 Seq2Seq 模型

从 Encoder 到 Decoder 实现 Seq2Seq 模型

AI研习社

10+阅读 · 2018年2月10日

相关论文

AdaZoom-GUI: Adaptive Zoom-based GUI Grounding with Instruction Refinement

AdaZoom-GUI: Adaptive Zoom-based GUI Grounding with Instruction Refinement

Arxiv

0+阅读 · 3月18日

WorldGUI: An Interactive Benchmark for Desktop GUI Automation from Any Starting Point

Arxiv

0+阅读 · 2月22日

CoAct-1: Computer-using Multi-Agent System with Coding Actions

Arxiv

0+阅读 · 2月20日

Computer-Using World Model

Computer-Using World Model

Arxiv

0+阅读 · 2月19日

A Unified, Cross-Platform Framework for Automatic GUI and Plugin Generation in Structural Bioinformatics and Beyond

Arxiv

0+阅读 · 2月17日

AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

Arxiv

0+阅读 · 2月15日

GUI-GENESIS: Automated Synthesis of Efficient Environments with Verifiable Rewards for GUI Agent Post-Training

Arxiv

0+阅读 · 2月15日

Debugging code world models

Arxiv

0+阅读 · 2月14日

Code2Worlds: Empowering Coding LLMs for 4D World Generation

Arxiv

0+阅读 · 2月12日

GEBench: Benchmarking Image Generation Models as GUI Environments

Arxiv

0+阅读 · 2月10日

相关基金

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

面向图形化互联网的建筑空间组合表达与检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员