Effectively scaling GUI automation is essential for computer-use agents (CUAs); however, existing work primarily focuses on scaling GUI grounding rather than the more crucial GUI planning, which requires more sophisticated data collection. In reality, the exploration process of a CUA across apps/desktops/web pages typically follows a tree structure, with earlier functional entry points often being explored more frequently. Thus, organizing large-scale trajectories into tree structures can reduce data cost and streamline the data scaling of GUI planning. In this work, we propose TreeCUA to efficiently scale GUI automation with tree-structured verifiable evolution. We propose a multi-agent collaborative framework to explore the environment, verify actions, summarize trajectories, and evaluate quality to generate high-quality and scalable GUI trajectories. To improve efficiency, we devise a novel tree-based topology to store and replay duplicate exploration nodes, and design an adaptive exploration algorithm to balance the depth (\emph{i.e.}, trajectory difficulty) and breadth (\emph{i.e.}, trajectory diversity). Moreover, we develop world knowledge guidance and global memory backtracking to avoid low-quality generation. Finally, we naturally extend and propose the TreeCUA-DPO method from abundant tree node information, improving GUI planning capability by referring to the branch information of adjacent trajectories. Experimental results show that TreeCUA and TreeCUA-DPO offer significant improvements, and out-of-domain (OOD) studies further demonstrate strong generalization. All trajectory node information and code will be available at https://github.com/UITron-hub/TreeCUA.


翻译:有效扩展图形用户界面(GUI)自动化对于计算机使用代理(CUAs)至关重要;然而,现有工作主要集中于扩展GUI基础任务,而非更为关键的GUI规划,后者需要更复杂的数据收集。实际上,CUA在应用程序/桌面/网页间的探索过程通常遵循树形结构,较早的功能入口点往往被更频繁地探索。因此,将大规模轨迹组织成树形结构能够降低数据成本,并简化GUI规划的数据扩展。本文提出TreeCUA,通过树形可验证演化高效扩展GUI自动化。我们设计了一个多智能体协作框架,用于探索环境、验证动作、总结轨迹和评估质量,以生成高质量且可扩展的GUI轨迹。为提高效率,我们设计了一种新颖的基于树的拓扑结构来存储和回放重复的探索节点,并开发了一种自适应探索算法以平衡深度(即轨迹难度)与广度(即轨迹多样性)。此外,我们引入了世界知识引导和全局记忆回溯机制以避免低质量生成。最后,我们基于丰富的树节点信息自然扩展并提出了TreeCUA-DPO方法,通过参考相邻轨迹的分支信息提升GUI规划能力。实验结果表明,TreeCUA与TreeCUA-DPO均带来显著性能提升,域外(OOD)研究进一步证明了其强大的泛化能力。所有轨迹节点信息与代码将在https://github.com/UITron-hub/TreeCUA公开。

0
下载
关闭预览

相关内容

机器或装置在无人干预的情况下按规定的程序或指令自动进行操作或控制的过程, 是一门涉及学科较多、应用广泛的综合性科学技术。
【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
66+阅读 · 2022年3月17日
八个不容错过的 GitHub Copilot 功能!
CSDN
11+阅读 · 2022年9月22日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员