ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents - 专知论文

会员服务 ·

0

基线 · 编程 · 接口 · 操作 · 软件 ·

ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents

翻译：ClawGUI：训练、评估与部署GUI代理的统一框架

Fei Tang,Zhiqiong Lu,Boxuan Zhang,Weiming Lu,Jun Xiao,Yueting Zhuang,Yongliang Shen

GUI agents drive applications through their visual interfaces instead of programmatic APIs, interacting with arbitrary software via taps, swipes, and keystrokes, reaching a long tail of applications that CLI-based agents cannot. Yet progress in this area is bottlenecked less by modeling capacity than by the absence of a coherent full-stack infrastructure: online RL training suffers from environment instability and closed pipelines, evaluation protocols drift silently across works, and trained agents rarely reach real users on real devices. We present \textbf{ClawGUI}, an open-source framework addressing these three gaps within a single harness. \textbf{ClawGUI-RL} provides the first open-source GUI agent RL infrastructure with validated support for both parallel virtual environments and real physical devices, integrating GiGPO with a Process Reward Model for dense step-level supervision. \textbf{ClawGUI-Eval} enforces a fully standardized evaluation pipeline across 6 benchmarks and 11+ models, achieving 95.8\% reproduction against official baselines. \textbf{ClawGUI-Agent} brings trained agents to Android, HarmonyOS, and iOS through 12+ chat platforms with hybrid CLI-GUI control and persistent personalized memory. Trained end to end within this pipeline, \textbf{ClawGUI-2B} achieves 17.1\% Success Rate on MobileWorld GUI-Only, outperforming the same-scale MAI-UI-2B baseline by 6.0\%.

翻译：GUI代理通过视觉界面而非编程接口驱动应用程序，通过点击、滑动和按键操作与任意软件交互，从而覆盖了基于CLI的代理无法触及的大量长尾应用。然而，该领域的进展瓶颈并非建模能力不足，而是缺乏一个连贯的全栈基础设施：在线RL训练面临环境不稳定性和封闭流程，评估协议在不同研究中间接漂移，而训练后的代理极少能到达真实用户手中的真实设备。我们提出**ClawGUI**，一个开源框架，在单一框架内解决上述三个空白。**ClawGUI-RL**提供了首个开源的GUI代理RL基础设施，经验证支持并行虚拟环境和真实物理设备，将GiGPO与过程奖励模型结合以实现密集的步级监督。**ClawGUI-Eval**在6个基准测试和11+模型上强制执行完全标准化的评估流程，与官方基线相比达到了95.8%的可复现率。**ClawGUI-Agent**通过12+个聊天平台将训练后的代理部署到Android、HarmonyOS和iOS，支持混合CLI-GUI控制和持久化个性化记忆。在此流程中端到端训练的**ClawGUI-2B**在MobileWorld GUI-Only上实现了17.1%的成功率，比同尺度的MAI-UI-2B基线高出6.0%。

0

相关内容

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

19+阅读 · 6月4日

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

17+阅读 · 5月20日

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

《ClaudeCode源码深度研究报告（增强完整版）》，下载链接

《ClaudeCode源码深度研究报告（增强完整版）》，下载链接

专知会员服务

40+阅读 · 4月1日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

《一种分层混合人工智能方法：在战斗模拟中整合深度强化学习与脚本代理》

《一种分层混合人工智能方法：在战斗模拟中整合深度强化学习与脚本代理》

专知会员服务

27+阅读 · 2025年12月6日

CLIP通用提示学习的简要概述

CLIP通用提示学习的简要概述

专知会员服务

17+阅读 · 2025年3月13日

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

专知会员服务

38+阅读 · 2024年2月6日

【硬核书】基础架构作为代码、模式和实践:附带Python和terrform中的示例，402页pdf

【硬核书】基础架构作为代码、模式和实践:附带Python和terrform中的示例，402页pdf

专知会员服务

34+阅读 · 2022年8月24日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

47页PPT，海量信息！用户画像架构、指标、标签、ETL、性能及案例应用一站通！（附PPT下载及视频）

47页PPT，海量信息！用户画像架构、指标、标签、ETL、性能及案例应用一站通！（附PPT下载及视频）

R语言中文社区

10+阅读 · 2018年8月15日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Augmenting Interface Usability Heuristics for Reliable Computer-Use Agents

Augmenting Interface Usability Heuristics for Reliable Computer-Use Agents

Arxiv

0+阅读 · 5月4日

VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

Arxiv

0+阅读 · 4月24日

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

Arxiv

0+阅读 · 4月16日

See, Point, Refine: Multi-Turn Approach to GUI Grounding with Visual Feedback

Arxiv

0+阅读 · 4月14日

ClawGuard: A Runtime Security Framework for Tool-Augmented LLM Agents Against Indirect Prompt Injection

Arxiv

0+阅读 · 4月13日

Same Outcomes, Different Journeys: A Trace-Level Framework for Comparing Human and GUI-Agent Behavior in Production Search Systems

Arxiv

0+阅读 · 4月9日

UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

Arxiv

0+阅读 · 4月8日

EchoTrail-GUI: Building Actionable Memory for GUI Agents via Critic-Guided Self-Exploration

Arxiv

0+阅读 · 4月7日

GUIrilla: A Scalable Framework for Automated Desktop UI Exploration

Arxiv

0+阅读 · 3月24日

AgentRAE: Remote Action Execution through Notification-based Visual Backdoors against Screenshots-based Mobile GUI Agents

Arxiv

0+阅读 · 3月24日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

19+阅读 · 6月4日

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

17+阅读 · 5月20日

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

《ClaudeCode源码深度研究报告（增强完整版）》，下载链接

《ClaudeCode源码深度研究报告（增强完整版）》，下载链接

专知会员服务

40+阅读 · 4月1日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

《一种分层混合人工智能方法：在战斗模拟中整合深度强化学习与脚本代理》

《一种分层混合人工智能方法：在战斗模拟中整合深度强化学习与脚本代理》

专知会员服务

27+阅读 · 2025年12月6日

CLIP通用提示学习的简要概述

CLIP通用提示学习的简要概述

专知会员服务

17+阅读 · 2025年3月13日

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

工具调用效果比肩GPT-4: 本地可微调的多模型协作工具学习agent框架

专知会员服务

38+阅读 · 2024年2月6日

【硬核书】基础架构作为代码、模式和实践:附带Python和terrform中的示例，402页pdf

【硬核书】基础架构作为代码、模式和实践:附带Python和terrform中的示例，402页pdf

专知会员服务

34+阅读 · 2022年8月24日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

一个牛逼的 Python 调试工具

一个牛逼的 Python 调试工具

机器学习算法与Python学习

15+阅读 · 2019年4月30日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

47页PPT，海量信息！用户画像架构、指标、标签、ETL、性能及案例应用一站通！（附PPT下载及视频）

47页PPT，海量信息！用户画像架构、指标、标签、ETL、性能及案例应用一站通！（附PPT下载及视频）

R语言中文社区

10+阅读 · 2018年8月15日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

Augmenting Interface Usability Heuristics for Reliable Computer-Use Agents

Augmenting Interface Usability Heuristics for Reliable Computer-Use Agents

Arxiv

0+阅读 · 5月4日

VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

Arxiv

0+阅读 · 4月24日

OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis

Arxiv

0+阅读 · 4月16日

See, Point, Refine: Multi-Turn Approach to GUI Grounding with Visual Feedback

Arxiv

0+阅读 · 4月14日

ClawGuard: A Runtime Security Framework for Tool-Augmented LLM Agents Against Indirect Prompt Injection

Arxiv

0+阅读 · 4月13日

Same Outcomes, Different Journeys: A Trace-Level Framework for Comparing Human and GUI-Agent Behavior in Production Search Systems

Arxiv

0+阅读 · 4月9日

UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

Arxiv

0+阅读 · 4月8日

EchoTrail-GUI: Building Actionable Memory for GUI Agents via Critic-Guided Self-Exploration

Arxiv

0+阅读 · 4月7日

GUIrilla: A Scalable Framework for Automated Desktop UI Exploration

Arxiv

0+阅读 · 3月24日

AgentRAE: Remote Action Execution through Notification-based Visual Backdoors against Screenshots-based Mobile GUI Agents

Arxiv

0+阅读 · 3月24日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员