Computer-use agents hold the promise of assisting in a wide range of digital economic activities. However, current research has largely focused on short-horizon tasks over a limited set of software with limited economic value, such as basic e-commerce and OS-configuration tasks. A key reason is that creating environments for complex software requires significant time and human effort, and therefore does not scale. To address this, we introduce Gym-Anything, a framework for converting any software into an interactive computer-use environment. We frame environment creation itself as a multi-agent task: a coding agent writes setup scripts, downloads real-world data, and configures the software, while producing evidence of correct setup. An independent audit agent then verifies evidence for the environment setup against a quality checklist. Using a taxonomy of economically valuable occupations grounded in U.S. GDP data, we apply this pipeline to 200 software applications with broad occupational coverage. The result is CUA-World, a collection of over 10K long-horizon tasks spanning domains from medical science and astronomy to engineering and enterprise systems, each configured with realistic data along with train and test splits. CUA-World also includes CUA-World-Long, a challenging long-horizon benchmark with tasks often requiring over 500 steps, far exceeding existing benchmarks. Distilling successful trajectories from the training split into a 2B vision-language model outperforms models 2$\times$ its size. We also apply the same auditing principle at test time: a separate VLM reviews completed trajectories and provides feedback on what remains, improving Gemini-3-Flash on CUA-World-Long from 11.5% to 14.0%. We release all code, infrastructure, and benchmark data to facilitate future research in realistic computer-use agents.


翻译:计算机使用智能体有望在广泛的数字经济活动提供辅助。然而,现有研究主要聚焦于有限软件集合中的短周期任务,且这些任务的经济价值有限,例如基础电子商务和操作系统配置任务。究其原因,为复杂软件创建环境需要大量时间和人力投入,因而难以规模化。为解决此问题,我们提出Gym-Anything,一个将任意软件转化为可交互计算机使用环境的框架。我们将环境创建本身构建为多智能体任务:一个编程智能体编写配置脚本、下载真实世界数据并配置软件,同时生成正确配置的证据。随后,一个独立的审计智能体根据质量检查清单验证环境配置的证据。基于美国GDP数据中具有经济价值的职业分类体系,我们将此流程应用于覆盖广泛职业的200个软件应用。最终成果是CUA-World,一个包含超过1万个长周期任务的集合,覆盖从医学科学、天文学到工程与企业系统等多个领域,每个任务均配置有真实数据及训练/测试拆分。CUA-World还包含CUA-World-Long,一个极具挑战性的长周期基准,其任务常需超过500步才能完成,远超现有基准。从训练拆分中蒸馏成功轨迹并注入2B视觉-语言模型后,该模型性能超越了参数规模为其2倍的模型。我们还在测试时应用相同的审计原则:独立的视觉语言模型审查已完成轨迹并提供待完成项的反馈,使Gemini-3-Flash在CUA-World-Long上的性能从11.5%提升至14.0%。为促进未来对真实计算机使用智能体的研究,我们开源了所有代码、基础设施及基准数据。

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
伯克利最新《智能体 AI (Agentic AI)》课程
专知会员服务
48+阅读 · 3月1日
智能体工程(Agent Engineering)
专知会员服务
33+阅读 · 2025年12月31日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
走向通用虚拟智能体
专知会员服务
76+阅读 · 2023年11月26日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 4月8日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
人工智能如何变革军事C5ISR作战
专知会员服务
12+阅读 · 5月8日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员