Computer-use agents operate over long horizons under noisy perception, multi-window contexts, evolving environment states. Existing approaches, from RL-based planners to trajectory retrieval, often drift from user intent and repeatedly solve routine subproblems, leading to error accumulation and inefficiency. We present IntentCUA, a multi-agent computer-use framework designed to stabilize long-horizon execution through intent-aligned plan memory. A Planner, Plan-Optimizer, and Critic coordinate over shared memory that abstracts raw interaction traces into multi-view intent representations and reusable skills. At runtime, intent prototypes retrieve subgroup-aligned skills and inject them into partial plans, reducing redundant re-planning and mitigating error propagation across desktop applications. In end-to-end evaluations, IntentCUA achieved a 74.83% task success rate with a Step Efficiency Ratio of 0.91, outperforming RL-based and trajectory-centric baselines. Ablations show that multi-view intent abstraction and shared plan memory jointly improve execution stability, with the cooperative multi-agent loop providing the largest gains on long-horizon tasks. These results highlight that system-level intent abstraction and memory-grounded coordination are key to reliable and efficient desktop automation in large, dynamic environments.


翻译:计算机使用智能体需在长时程、感知噪声、多窗口上下文及动态环境状态下运行。现有方法——从基于强化学习的规划器到轨迹检索——常偏离用户意图,并反复求解常规子问题,导致误差累积与效率低下。本文提出IntentCUA,一种基于意图对齐规划记忆的多智能体计算机使用框架,旨在稳定长时程任务执行。该框架通过规划器、规划优化器与评估器在共享记忆上协同工作,将原始交互轨迹抽象为多视角意图表示与可复用技能。在运行时,意图原型检索子目标对齐的技能并将其注入局部规划,从而减少冗余重规划,并抑制跨桌面应用的误差传播。端到端评估表明,IntentCUA实现了74.83%的任务成功率与0.91的步骤效率比,优于基于强化学习及以轨迹为核心的基线方法。消融实验显示,多视角意图抽象与共享规划记忆共同提升了执行稳定性,其中协作式多智能体循环在长时程任务上贡献了最大性能增益。这些结果表明,系统级意图抽象与基于记忆的协同机制是实现大规模动态环境下可靠高效桌面自动化的关键。

0
下载
关闭预览

相关内容

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议,会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
《基于二元优化与图学习的多智能体行动方案自动生成》
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
19+阅读 · 2025年5月8日
基于学习机制的多智能体强化学习综述
专知会员服务
61+阅读 · 2024年4月16日
专知会员服务
170+阅读 · 2021年8月3日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
【DeepMind】多智能体学习231页PPT总结
深度强化学习实验室
16+阅读 · 2020年6月23日
专家推荐 | 社交媒体多模态表示学习
中国图象图形学报
12+阅读 · 2020年5月14日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关资讯
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
【DeepMind】多智能体学习231页PPT总结
深度强化学习实验室
16+阅读 · 2020年6月23日
专家推荐 | 社交媒体多模态表示学习
中国图象图形学报
12+阅读 · 2020年5月14日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员