OpenComputer: Verifiable Software Worlds for Computer-Use Agents - 专知论文

会员服务 ·

0

Agent · 讲稿 · Integration · 层 · 全 ·

OpenComputer: Verifiable Software Worlds for Computer-Use Agents

翻译：开放计算机：面向计算机使用智能体的可验证软件世界

Jinbiao Wei,Qianran Ma,Yilun Zhao,Xiao Zhou,Kangqi Ni,Guo Gan,Arman Cohan

We present OpenComputer, a verifier-grounded framework for constructing verifiable software worlds for computer-use agents. OpenComputer integrates four components: (1) app-specific state verifiers that expose structured inspection endpoints over real applications, (2) a self-evolving verification layer that improves verifier reliability using execution-grounded feedback, (3) a task-generation pipeline that synthesizes realistic and machine-checkable desktop tasks, and (4) an evaluation harness that records full trajectories and computes auditable partial-credit rewards. In its current form, OpenComputer covers 33 desktop applications and 1,000 finalized tasks spanning browsers, office tools, creative software, development environments, file managers, and communication applications. Experiments show that OpenComputer's hard-coded verifiers align more closely with human adjudication than LLM-as-judge evaluation, especially when success depends on fine-grained application state. Frontier agents struggle with end-to-end completion despite partial progress, and open-source models exhibit sharp drops from their OSWorld-Verified scores, exposing a persistent gap in robust computer automation.

翻译：我们提出开放计算机（OpenComputer），一种基于验证器的框架，用于为计算机使用智能体构建可验证的软件世界。开放计算机整合了四个组件：（1）针对特定应用的软件状态验证器，可在真实应用上暴露结构化检查端点；（2）自我演进的验证层，利用执行驱动的反馈提升验证器可靠性；（3）任务生成流水线，可合成真实且机器可检查的桌面任务；（4）评估工具集，可记录完整轨迹并计算可审计的部分学分奖励。当前版本的开放计算机覆盖33款桌面应用及1000个精炼任务，涵盖浏览器、办公工具、创意软件、开发环境、文件管理器和通信应用。实验表明，相比大语言模型作为评判的评估方式，开放计算机的硬编码验证器与人类裁决的吻合度更高——尤其当任务成功取决于细粒度应用状态时。前沿智能体虽能取得部分进展，但端到端完成任务仍显吃力；开源模型在OSWorld验证分数上出现显著下降，揭示了稳健计算机自动化领域的持续差距。

0

相关内容

Agent

软件定义战争：跨越两大软件领域的鸿沟

软件定义战争：跨越两大软件领域的鸿沟

专知会员服务

14+阅读 · 6月30日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

26+阅读 · 3月8日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

38+阅读 · 2025年12月31日

《软件定义网络元素与机器代码的形式化验证》

《软件定义网络元素与机器代码的形式化验证》

专知会员服务

14+阅读 · 2025年11月18日

迈向开放世界检测：综述

迈向开放世界检测：综述

专知会员服务

24+阅读 · 2025年8月25日

开放世界机器学习

开放世界机器学习

专知会员服务

32+阅读 · 2024年3月7日

【2024新书】面向Python开发者的OpenAI GPT:使用GPT-4等构建人工智能应用的艺术和科学，323页pdf

【2024新书】面向Python开发者的OpenAI GPT:使用GPT-4等构建人工智能应用的艺术和科学，323页pdf

专知会员服务

86+阅读 · 2024年2月24日

什么是智能计算？之江实验室等90页pdf《智能计算：进展、挑战与未来》全面阐述智能计算理论基础，智能和计算的技术融合，重要的应用

什么是智能计算？之江实验室等90页pdf《智能计算：进展、挑战与未来》全面阐述智能计算理论基础，智能和计算的技术融合，重要的应用

专知会员服务

168+阅读 · 2022年11月22日

中科大《计算机体系结构》2021课程，附课件

中科大《计算机体系结构》2021课程，附课件

专知会员服务

77+阅读 · 2021年4月4日

【经典书】《学习OpenCV 3》，1018页pdf

【经典书】《学习OpenCV 3》，1018页pdf

专知会员服务

133+阅读 · 2021年2月28日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

线下报名 | 首届清华大学计算机学生课外技术活动开放日专场博论

线下报名 | 首届清华大学计算机学生课外技术活动开放日专场博论

PaperWeekly

10+阅读 · 2019年5月8日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

产业智能官

15+阅读 · 2019年1月8日

下载 | 866页《计算机视觉：原理，算法，应用，学习》第五版

下载 | 866页《计算机视觉：原理，算法，应用，学习》第五版

机器学习算法与Python学习

24+阅读 · 2019年1月1日

【综述】计算机视觉简介：历史、现状和发展趋势【可下载】

【综述】计算机视觉简介：历史、现状和发展趋势【可下载】

机器学习算法与Python学习

15+阅读 · 2018年9月21日

计算机视觉简介：历史、现状和发展趋势

计算机视觉简介：历史、现状和发展趋势

机器学习研究会

22+阅读 · 2017年11月21日

资源 | 清华大学开源OpenKE：知识表示学习平台

资源 | 清华大学开源OpenKE：知识表示学习平台

机器之心

10+阅读 · 2017年11月4日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

软件定义开放光接入网理论模型和控制机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

A Compositional Framework for Open-ended Intelligence

Arxiv

0+阅读 · 6月16日

A Compositional Framework for Open-ended Intelligence

Arxiv

0+阅读 · 6月13日

OpenAgenet / OAN White Paper: Open Infrastructure for Trusted Agent Interconnection

Arxiv

0+阅读 · 6月5日

Advancing Digital Government: Integrating Open Source Software Enablement Indicators in Maturity Indexes

Arxiv

0+阅读 · 6月4日

OpenAgenet/OAN: Technical Architecture for Trust-Governed Agent Identity and Discovery

Arxiv

0+阅读 · 6月3日

OpenAgenet/OAN: Technical Architecture for Trust-Governed Agent Identity and Discovery

Arxiv

0+阅读 · 6月2日

AndroidDaily: A Verifiable Benchmark for Mobile GUI Agents on Real-World Closed-Source Applications

Arxiv

0+阅读 · 5月26日

OpenIIR: An Open Simulation Platform for Information Retrieval Research

Arxiv

0+阅读 · 5月14日

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

Arxiv

0+阅读 · 5月6日

Communicative Agents for Software Development

Arxiv

11+阅读 · 2023年8月28日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

1+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

软件定义战争：跨越两大软件领域的鸿沟

软件定义战争：跨越两大软件领域的鸿沟

专知会员服务

14+阅读 · 6月30日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

26+阅读 · 3月8日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

38+阅读 · 2025年12月31日

《软件定义网络元素与机器代码的形式化验证》

《软件定义网络元素与机器代码的形式化验证》

专知会员服务

14+阅读 · 2025年11月18日

迈向开放世界检测：综述

迈向开放世界检测：综述

专知会员服务

24+阅读 · 2025年8月25日

开放世界机器学习

开放世界机器学习

专知会员服务

32+阅读 · 2024年3月7日

【2024新书】面向Python开发者的OpenAI GPT:使用GPT-4等构建人工智能应用的艺术和科学，323页pdf

【2024新书】面向Python开发者的OpenAI GPT:使用GPT-4等构建人工智能应用的艺术和科学，323页pdf

专知会员服务

86+阅读 · 2024年2月24日

什么是智能计算？之江实验室等90页pdf《智能计算：进展、挑战与未来》全面阐述智能计算理论基础，智能和计算的技术融合，重要的应用

什么是智能计算？之江实验室等90页pdf《智能计算：进展、挑战与未来》全面阐述智能计算理论基础，智能和计算的技术融合，重要的应用

专知会员服务

168+阅读 · 2022年11月22日

中科大《计算机体系结构》2021课程，附课件

中科大《计算机体系结构》2021课程，附课件

专知会员服务

77+阅读 · 2021年4月4日

【经典书】《学习OpenCV 3》，1018页pdf

【经典书】《学习OpenCV 3》，1018页pdf

专知会员服务

133+阅读 · 2021年2月28日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

线下报名 | 首届清华大学计算机学生课外技术活动开放日专场博论

线下报名 | 首届清华大学计算机学生课外技术活动开放日专场博论

PaperWeekly

10+阅读 · 2019年5月8日

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

【边缘计算】支撑边缘智能计算的软件体系：语言、工具与信息框架

产业智能官

16+阅读 · 2019年4月22日

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

【人工智能】智能计算概述、神经网络计算、机器学习计算、遗传算法、模糊计算、群智能计算

产业智能官

15+阅读 · 2019年1月8日

下载 | 866页《计算机视觉：原理，算法，应用，学习》第五版

下载 | 866页《计算机视觉：原理，算法，应用，学习》第五版

机器学习算法与Python学习

24+阅读 · 2019年1月1日

【综述】计算机视觉简介：历史、现状和发展趋势【可下载】

【综述】计算机视觉简介：历史、现状和发展趋势【可下载】

机器学习算法与Python学习

15+阅读 · 2018年9月21日

计算机视觉简介：历史、现状和发展趋势

计算机视觉简介：历史、现状和发展趋势

机器学习研究会

22+阅读 · 2017年11月21日

资源 | 清华大学开源OpenKE：知识表示学习平台

资源 | 清华大学开源OpenKE：知识表示学习平台

机器之心

10+阅读 · 2017年11月4日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

相关论文

A Compositional Framework for Open-ended Intelligence

Arxiv

0+阅读 · 6月16日

A Compositional Framework for Open-ended Intelligence

Arxiv

0+阅读 · 6月13日

OpenAgenet / OAN White Paper: Open Infrastructure for Trusted Agent Interconnection

Arxiv

0+阅读 · 6月5日

Advancing Digital Government: Integrating Open Source Software Enablement Indicators in Maturity Indexes

Arxiv

0+阅读 · 6月4日

OpenAgenet/OAN: Technical Architecture for Trust-Governed Agent Identity and Discovery

Arxiv

0+阅读 · 6月3日

OpenAgenet/OAN: Technical Architecture for Trust-Governed Agent Identity and Discovery

Arxiv

0+阅读 · 6月2日

AndroidDaily: A Verifiable Benchmark for Mobile GUI Agents on Real-World Closed-Source Applications

Arxiv

0+阅读 · 5月26日

OpenIIR: An Open Simulation Platform for Information Retrieval Research

Arxiv

0+阅读 · 5月14日

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

Arxiv

0+阅读 · 5月6日

Communicative Agents for Software Development

Arxiv

11+阅读 · 2023年8月28日

相关基金

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

软件定义开放光接入网理论模型和控制机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员