Autonomous agents that operate computers via Graphical User Interfaces (GUIs) often struggle with efficiency and reliability on complex, long-horizon tasks. While augmenting these agents with planners can improve task decomposition, they remain constrained by the inherent limitations of performing all actions through GUI manipulation, leading to brittleness and inefficiency. In this work, we introduce a more robust and flexible paradigm: enabling agents to use coding as a enhanced action. We present CoAct-1, a novel multi-agent system that synergistically combines GUI-based control with direct programmatic execution. CoAct-1 features an Orchestrator that dynamically delegates subtasks to either a conventional GUI Operator or a specialized Programmer agent, which can write and execute Python or Bash scripts. This hybrid approach allows the agent to bypass inefficient GUI action sequences for tasks like file management and data processing, while still leveraging visual interaction when necessary. We evaluate our system on the challenging OSWorld benchmark, where CoAct-1 achieves a new state-of-the-art success rate of 60.76%, significantly outperforming prior methods. Furthermore, our approach dramatically improves efficiency, reducing the average number of steps required to complete a task to just 10.15, compared to 15 for leading GUI agents. Our results demonstrate that integrating coding as a core action provides a more powerful, efficient, and scalable path toward generalized computer automation.


翻译:通过图形用户界面(GUI)操作计算机的自主智能体在处理复杂、长周期的任务时,往往在效率和可靠性方面存在不足。虽然通过规划器增强这些智能体可以改进任务分解,但它们仍然受限于所有操作均需通过GUI交互完成的固有局限,导致系统脆弱且效率低下。在本工作中,我们引入了一种更鲁棒、更灵活的范式:使智能体能够将编码作为一种增强型动作。我们提出了CoAct-1,一种新颖的多智能体系统,它协同结合了基于GUI的控制与直接的程序化执行。CoAct-1包含一个编排器,能够动态地将子任务分配给传统的GUI操作员或一个专门的程序员智能体,后者可以编写并执行Python或Bash脚本。这种混合方法使智能体能够绕过低效的GUI操作序列来处理诸如文件管理和数据处理等任务,同时在必要时仍可利用视觉交互。我们在具有挑战性的OSWorld基准测试上评估了我们的系统,CoAct-1实现了60.76%的最新最优成功率,显著超越了先前的方法。此外,我们的方法大幅提升了效率,将完成任务所需的平均步骤数降至仅10.15步,而领先的GUI智能体则需要15步。我们的结果表明,将编码作为核心动作进行整合,为通用计算机自动化提供了一条更强大、更高效且更具可扩展性的路径。

0
下载
关闭预览

相关内容

多智能体协作机制
专知会员服务
21+阅读 · 4月25日
智能体工程(Agent Engineering)
专知会员服务
33+阅读 · 2025年12月31日
《多智能体系统中的异质性》221页
专知会员服务
35+阅读 · 2025年2月14日
多智能体自主系统《群体自主系统的实时路径规划》248页
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
CCCF专栏文章:人机共融智能
中国计算机学会
15+阅读 · 2017年12月21日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
VIP会员
最新内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
1+阅读 · 5月1日
Palantir AIP平台:连接智能体与决策
专知会员服务
8+阅读 · 5月1日
《美海军软件测试战略》90页slides
专知会员服务
8+阅读 · 5月1日
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
8+阅读 · 4月30日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员