Computer-Using World Model - 专知论文

会员服务 ·

0

CVPR 2022 · 世界模型 · 软件 · 智能体 · 操作 ·

Computer-Using World Model

翻译：计算机使用世界模型

Yiming Guan,Rui Yu,John Zhang,Lu Wang,Chaoyun Zhang,Liqun Li,Bo Qiao,Si Qin,He Huang,Fangkai Yang,Pu Zhao,Lukas Wutschitz,Samuel Kessler,Huseyin A Inan,Robert Sim,Saravan Rajmohan,Qingwei Lin,Dongmei Zhang

from arxiv, 35 pages, 7 figures

Agents operating in complex software environments benefit from reasoning about the consequences of their actions, as even a single incorrect user interface (UI) operation can derail long, artifact-preserving workflows. This challenge is particularly acute for computer-using scenarios, where real execution does not support counterfactual exploration, making large-scale trial-and-error learning and planning impractical despite the environment being fully digital and deterministic. We introduce the Computer-Using World Model (CUWM), a world model for desktop software that predicts the next UI state given the current state and a candidate action. CUWM adopts a two-stage factorization of UI dynamics: it first predicts a textual description of agent-relevant state changes, and then realizes these changes visually to synthesize the next screenshot. CUWM is trained on offline UI transitions collected from agents interacting with real Microsoft Office applications, and further refined with a lightweight reinforcement learning stage that aligns textual transition predictions with the structural requirements of computer-using environments. We evaluate CUWM via test-time action search, where a frozen agent uses the world model to simulate and compare candidate actions before execution. Across a range of Office tasks, world-model-guided test-time scaling improves decision quality and execution robustness.

翻译：在复杂软件环境中运行的智能体能够从对其行为后果的推理中获益，因为即便是单个错误的用户界面（UI）操作也可能破坏需要长期维护工作产物的流程。这一挑战在计算机使用场景中尤为突出，由于实际执行过程不支持反事实探索，使得大规模试错式学习与规划变得不切实际——尽管该环境完全数字化且具有确定性。我们提出了计算机使用世界模型（CUWM），这是一个针对桌面软件的世界模型，能够根据当前状态及候选动作预测下一UI状态。CUWM采用两阶段因子分解法对UI动态进行建模：首先预测与智能体相关的状态变化的文本描述，随后将这些变化可视化以合成下一屏幕截图。CUWM基于从智能体与真实Microsoft Office应用程序交互过程中收集的离线UI转换数据进行训练，并通过轻量级强化学习阶段进一步优化，使文本转换预测与计算机使用环境的结构要求对齐。我们通过测试时动作搜索对CUWM进行评估：冻结的智能体在执行前使用世界模型模拟并比较候选动作。在一系列Office任务中，基于世界模型的测试时扩展显著提升了决策质量与执行鲁棒性。

0

相关内容

CVPR 2022

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专知会员服务

21+阅读 · 2025年12月31日

走向通用人工智能之路，世界模型为何不可或缺？

走向通用人工智能之路，世界模型为何不可或缺？

专知会员服务

18+阅读 · 2025年7月1日

【ICML2025】通用智能体需要世界模型

【ICML2025】通用智能体需要世界模型

专知会员服务

26+阅读 · 2025年6月4日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

44+阅读 · 2025年1月22日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

大模型用于制造业？东北大学等《大型语言模型智能制造业应用》综述，详述大模型制造业技术路线图

大模型用于制造业？东北大学等《大型语言模型智能制造业应用》综述，详述大模型制造业技术路线图

专知会员服务

102+阅读 · 2023年12月13日

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

专知会员服务

88+阅读 · 2023年3月17日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

64+阅读 · 2023年2月5日

【蒙特利尔大学博士论文】可微世界程序，Differentiable World Programs，161页pdf

【蒙特利尔大学博士论文】可微世界程序，Differentiable World Programs，161页pdf

专知会员服务

30+阅读 · 2022年6月7日

【经典书】计算机科学中的逻辑学:对系统的建模和推理，443页pdf

专知会员服务

40+阅读 · 2021年4月14日

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

产业智能官

15+阅读 · 2019年1月8日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

【学科发展报告】计算机视觉

【学科发展报告】计算机视觉

中国自动化学会

43+阅读 · 2018年10月12日

【综述】计算机视觉简介：历史、现状和发展趋势【可下载】

【综述】计算机视觉简介：历史、现状和发展趋势【可下载】

机器学习算法与Python学习

15+阅读 · 2018年9月21日

计算机视觉简介：历史、现状和发展趋势

计算机视觉简介：历史、现状和发展趋势

北京思腾合力科技有限公司

10+阅读 · 2017年11月22日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

反问题的数学建模、计算及应用

国家自然科学基金

4+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

R-WoM: Retrieval-augmented World Model For Computer-use Agents

Arxiv

0+阅读 · 3月9日

WorldGUI: An Interactive Benchmark for Desktop GUI Automation from Any Starting Point

Arxiv

0+阅读 · 2月22日

CoAct-1: Computer-using Multi-Agent System with Coding Actions

Arxiv

0+阅读 · 2月20日

stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation

stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation

Arxiv

0+阅读 · 2月17日

World-Model-Augmented Web Agents with Action Correction

Arxiv

0+阅读 · 2月17日

Code2Worlds: Empowering Coding LLMs for 4D World Generation

Arxiv

0+阅读 · 2月12日

Code2World: A GUI World Model via Renderable Code Generation

Arxiv

0+阅读 · 2月10日

stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation

Arxiv

0+阅读 · 2月9日

RecoWorld: Building Simulated Environments for Agentic Recommender Systems

Arxiv

0+阅读 · 2月6日

From Perception to Action: Spatial AI Agents and World Models

Arxiv

1+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

8+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

7+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

3+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

7+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

2+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

2+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

3+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

2+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

12+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

12+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

9+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

17+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

8+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

10+阅读 · 4月18日

相关VIP内容

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专业软件开发者不靠“氛围编程”（Vibe Coding），而靠“控制”：2025 年 AI Agent 在编程中的应用研究

专知会员服务

21+阅读 · 2025年12月31日

走向通用人工智能之路，世界模型为何不可或缺？

走向通用人工智能之路，世界模型为何不可或缺？

专知会员服务

18+阅读 · 2025年7月1日

【ICML2025】通用智能体需要世界模型

【ICML2025】通用智能体需要世界模型

专知会员服务

26+阅读 · 2025年6月4日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

44+阅读 · 2025年1月22日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

大模型用于制造业？东北大学等《大型语言模型智能制造业应用》综述，详述大模型制造业技术路线图

大模型用于制造业？东北大学等《大型语言模型智能制造业应用》综述，详述大模型制造业技术路线图

专知会员服务

102+阅读 · 2023年12月13日

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

专知会员服务

88+阅读 · 2023年3月17日

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

【剑桥大学博士论文】面向计算机视觉的神经世界模型，211页pdf

专知会员服务

64+阅读 · 2023年2月5日

【蒙特利尔大学博士论文】可微世界程序，Differentiable World Programs，161页pdf

【蒙特利尔大学博士论文】可微世界程序，Differentiable World Programs，161页pdf

专知会员服务

30+阅读 · 2022年6月7日

【经典书】计算机科学中的逻辑学:对系统的建模和推理，443页pdf

专知会员服务

40+阅读 · 2021年4月14日

热门VIP内容

开通专知VIP会员享更多权益服务

《高超音速武器：一项再度兴起的技术》120页slides

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

美国当前高超音速导弹发展概述

无人机蜂群建模与仿真方法

相关资讯

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

产业智能官

15+阅读 · 2019年1月8日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

【学科发展报告】计算机视觉

【学科发展报告】计算机视觉

中国自动化学会

43+阅读 · 2018年10月12日

【综述】计算机视觉简介：历史、现状和发展趋势【可下载】

【综述】计算机视觉简介：历史、现状和发展趋势【可下载】

机器学习算法与Python学习

15+阅读 · 2018年9月21日

计算机视觉简介：历史、现状和发展趋势

计算机视觉简介：历史、现状和发展趋势

北京思腾合力科技有限公司

10+阅读 · 2017年11月22日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

R-WoM: Retrieval-augmented World Model For Computer-use Agents

Arxiv

0+阅读 · 3月9日

WorldGUI: An Interactive Benchmark for Desktop GUI Automation from Any Starting Point

Arxiv

0+阅读 · 2月22日

CoAct-1: Computer-using Multi-Agent System with Coding Actions

Arxiv

0+阅读 · 2月20日

stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation

stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation

Arxiv

0+阅读 · 2月17日

World-Model-Augmented Web Agents with Action Correction

Arxiv

0+阅读 · 2月17日

Code2Worlds: Empowering Coding LLMs for 4D World Generation

Arxiv

0+阅读 · 2月12日

Code2World: A GUI World Model via Renderable Code Generation

Arxiv

0+阅读 · 2月10日

stable-worldmodel-v1: Reproducible World Modeling Research and Evaluation

Arxiv

0+阅读 · 2月9日

RecoWorld: Building Simulated Environments for Agentic Recommender Systems

Arxiv

0+阅读 · 2月6日

From Perception to Action: Spatial AI Agents and World Models

Arxiv

1+阅读 · 2月2日

相关基金

反问题的数学建模、计算及应用

国家自然科学基金

4+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

生物网络的可计算建模

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员