We present OpenComputer, a verifier-grounded framework for constructing verifiable software worlds for computer-use agents. OpenComputer integrates four components: (1) app-specific state verifiers that expose structured inspection endpoints over real applications, (2) a self-evolving verification layer that improves verifier reliability using execution-grounded feedback, (3) a task-generation pipeline that synthesizes realistic and machine-checkable desktop tasks, and (4) an evaluation harness that records full trajectories and computes auditable partial-credit rewards. In its current form, OpenComputer covers 33 desktop applications and 1,000 finalized tasks spanning browsers, office tools, creative software, development environments, file managers, and communication applications. Experiments show that OpenComputer's hard-coded verifiers align more closely with human adjudication than LLM-as-judge evaluation, especially when success depends on fine-grained application state. Frontier agents struggle with end-to-end completion despite partial progress, and open-source models exhibit sharp drops from their OSWorld-Verified scores, exposing a persistent gap in robust computer automation.


翻译:我们提出开放计算机(OpenComputer),一种基于验证器的框架,用于为计算机使用智能体构建可验证的软件世界。开放计算机整合了四个组件:(1)针对特定应用的软件状态验证器,可在真实应用上暴露结构化检查端点;(2)自我演进的验证层,利用执行驱动的反馈提升验证器可靠性;(3)任务生成流水线,可合成真实且机器可检查的桌面任务;(4)评估工具集,可记录完整轨迹并计算可审计的部分学分奖励。当前版本的开放计算机覆盖33款桌面应用及1000个精炼任务,涵盖浏览器、办公工具、创意软件、开发环境、文件管理器和通信应用。实验表明,相比大语言模型作为评判的评估方式,开放计算机的硬编码验证器与人类裁决的吻合度更高——尤其当任务成功取决于细粒度应用状态时。前沿智能体虽能取得部分进展,但端到端完成任务仍显吃力;开源模型在OSWorld验证分数上出现显著下降,揭示了稳健计算机自动化领域的持续差距。

0
下载
关闭预览

相关内容

OpenAI更新促进应用生态繁荣,应用端产品落地进程加速
专知会员服务
35+阅读 · 2023年11月9日
【经典书】《学习OpenCV 3》,1018页pdf
专知会员服务
133+阅读 · 2021年2月28日
【精通OpenCV 4】Mastering OpenCV 4 - Third Edition 随书代码
专知会员服务
40+阅读 · 2019年11月13日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
20+阅读 · 2019年10月9日
国内外优秀的计算机视觉团队汇总|最新版
计算机视觉life
12+阅读 · 2020年7月20日
OpenNRE 2.0:可一键运行的开源关系抽取工具包
PaperWeekly
22+阅读 · 2019年10月30日
下载 | 866页《计算机视觉:原理,算法,应用,学习》第五版
机器学习算法与Python学习
24+阅读 · 2019年1月1日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
第8弹:从零开始深度学习(Software篇) | 2017 CS231n
AI研习社
41+阅读 · 2017年12月28日
荐书丨OpenCV算法精解:基于Python与C++
程序人生
18+阅读 · 2017年11月18日
资源 | 清华大学开源OpenKE:知识表示学习平台
机器之心
10+阅读 · 2017年11月4日
OpenCV计算机视觉产品实战
炼数成金订阅号
13+阅读 · 2017年9月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
37+阅读 · 2019年11月7日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关资讯
国内外优秀的计算机视觉团队汇总|最新版
计算机视觉life
12+阅读 · 2020年7月20日
OpenNRE 2.0:可一键运行的开源关系抽取工具包
PaperWeekly
22+阅读 · 2019年10月30日
下载 | 866页《计算机视觉:原理,算法,应用,学习》第五版
机器学习算法与Python学习
24+阅读 · 2019年1月1日
机器人开发库软件大列表
专知
10+阅读 · 2018年3月18日
第8弹:从零开始深度学习(Software篇) | 2017 CS231n
AI研习社
41+阅读 · 2017年12月28日
荐书丨OpenCV算法精解:基于Python与C++
程序人生
18+阅读 · 2017年11月18日
资源 | 清华大学开源OpenKE:知识表示学习平台
机器之心
10+阅读 · 2017年11月4日
OpenCV计算机视觉产品实战
炼数成金订阅号
13+阅读 · 2017年9月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员