持续图形用户界面智能体 (Continual GUI Agents) - 专知论文

会员服务 ·

0

图形用户界面 · 智能体 · 交互 · 持续学习 · 微调 ·

Continual GUI Agents

翻译：持续图形用户界面智能体

Ziwei Liu,Borui Kang,Hangjie Yuan,Zixiang Zhao,Wei Li,Yifan Zhu,Tao Feng

As digital environments (data distribution) are in flux, with new GUI data arriving over time-introducing new domains or resolutions-agents trained on static environments deteriorate in performance. In this work, we introduce Continual GUI Agents, a new task that requires GUI agents to perform continual learning under shifted domains and resolutions. We find existing methods fail to maintain stable grounding as GUI distributions shift over time, due to the diversity of UI interaction points and regions in fluxing scenarios. To address this, we introduce GUI-Anchoring in Flux (GUI-AiF), a new reinforcement fine-tuning framework that stabilizes continual learning through two novel rewards: Anchoring Point Reward in Flux (APR-iF) and Anchoring Region Reward in Flux (ARR-iF). These rewards guide the agents to align with shifting interaction points and regions, mitigating the tendency of existing reward strategies to over-adapt to static grounding cues (e.g., fixed coordinates or element scales). Extensive experiments show GUI-AiF surpasses state-of-the-art baselines. Our work establishes the first continual learning framework for GUI agents, revealing the untapped potential of reinforcement fine-tuning for continual GUI Agents.

翻译：随着数字环境（数据分布）不断变化，新的图形用户界面数据随时间不断涌现——引入新的领域或分辨率——在静态环境中训练的智能体性能会逐渐下降。在本研究中，我们提出了持续图形用户界面智能体这一新任务，要求图形用户界面智能体在变化的领域和分辨率下进行持续学习。我们发现，由于用户界面交互点和区域在动态场景中的多样性，现有方法无法在图形用户界面分布随时间变化时保持稳定的基础定位。为解决这一问题，我们提出了动态锚定图形用户界面框架，这是一种新的强化微调框架，通过两种新颖的奖励机制来稳定持续学习：动态锚定点奖励和动态锚定区域奖励。这些奖励引导智能体与变化的交互点和区域对齐，缓解了现有奖励策略过度适应静态基础定位线索（例如固定坐标或元素比例）的倾向。大量实验表明，动态锚定图形用户界面框架超越了现有最先进的基线方法。我们的研究建立了首个针对图形用户界面智能体的持续学习框架，揭示了强化微调在持续图形用户界面智能体领域尚未开发的潜力。

0

相关内容

图形用户界面

图形用户界面

图形用户界面（Graphical User Interface，简称 GUI，又称图形用户接口）是指采用图形方式显示的计算机操作用户接口。与早期计算机使用的命令行界面相比，图形界面对于用户来说在视觉上更易于接受。

《Hello-Agents》项目正式发布，一起从零学习智能体！

《Hello-Agents》项目正式发布，一起从零学习智能体！

专知会员服务

31+阅读 · 1月2日

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

专知会员服务

26+阅读 · 1月2日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

27+阅读 · 2025年12月31日

大规模语言模型智能体的终身学习：发展路线图

大规模语言模型智能体的终身学习：发展路线图

专知会员服务

44+阅读 · 2025年1月16日

多模态移动智能体的基础与最新趋势：综述

多模态移动智能体的基础与最新趋势：综述

专知会员服务

37+阅读 · 2024年11月6日

【WWW2024教程】大型语言模型驱动智能体，附slides

【WWW2024教程】大型语言模型驱动智能体，附slides

专知会员服务

64+阅读 · 2024年5月14日

《图持续学习》综述

《图持续学习》综述

专知会员服务

44+阅读 · 2024年2月13日

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

专知会员服务

38+阅读 · 2023年5月9日

图上持续学习怎么做？悉尼大学等最新《持续图学习:挑战、解决方案和机会》综述，附Slides

图上持续学习怎么做？悉尼大学等最新《持续图学习:挑战、解决方案和机会》综述，附Slides

专知会员服务

59+阅读 · 2023年5月5日

【WWW2023教程】持续图学习教程，106页pdf

【WWW2023教程】持续图学习教程，106页pdf

专知会员服务

58+阅读 · 2023年5月4日

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

专知

27+阅读 · 2021年3月7日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【南洋理工Xavier】图深度学习最新进展，35页ppt，Deep Learning on Graphs

【南洋理工Xavier】图深度学习最新进展，35页ppt，Deep Learning on Graphs

专知

66+阅读 · 2019年11月27日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

技术动态 | 人工智能开源软件发展现状连载——知识图谱开源软件

技术动态 | 人工智能开源软件发展现状连载——知识图谱开源软件

开放知识图谱

10+阅读 · 2018年9月5日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

支持PDE存储的安全增强型Android系统

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

Proactive Agents, Long-term User Context, VLM Annotation, Privacy Protection, Human-Computer Interaction

Arxiv

0+阅读 · 2月4日

MobileBench-OL: A Comprehensive Chinese Benchmark for Evaluating Mobile GUI Agents in Real-World Environment

Arxiv

0+阅读 · 1月28日

SwipeGen: Bridging the Execution Gap in GUI Agents via Human-like Swipe Synthesis

Arxiv

0+阅读 · 1月26日

ShowUI-Aloha: Human-Taught GUI Agent

Arxiv

0+阅读 · 1月12日

From Off-Policy to On-Policy: Enhancing GUI Agents via Bi-level Expert-to-Policy Assimilation

Arxiv

0+阅读 · 1月9日

InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training

Arxiv

0+阅读 · 1月8日

Agent+P: Guiding UI Agents via Symbolic Planning

Arxiv

0+阅读 · 1月7日

InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training

Arxiv

0+阅读 · 1月7日

MobileDreamer: Generative Sketch World Model for GUI Agent

Arxiv

0+阅读 · 1月7日

D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

图形用户界面

相关VIP内容

《Hello-Agents》项目正式发布，一起从零学习智能体！

《Hello-Agents》项目正式发布，一起从零学习智能体！

专知会员服务

31+阅读 · 1月2日

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

专知会员服务

26+阅读 · 1月2日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

27+阅读 · 2025年12月31日

大规模语言模型智能体的终身学习：发展路线图

大规模语言模型智能体的终身学习：发展路线图

专知会员服务

44+阅读 · 2025年1月16日

多模态移动智能体的基础与最新趋势：综述

多模态移动智能体的基础与最新趋势：综述

专知会员服务

37+阅读 · 2024年11月6日

【WWW2024教程】大型语言模型驱动智能体，附slides

【WWW2024教程】大型语言模型驱动智能体，附slides

专知会员服务

64+阅读 · 2024年5月14日

《图持续学习》综述

《图持续学习》综述

专知会员服务

44+阅读 · 2024年2月13日

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

专知会员服务

38+阅读 · 2023年5月9日

图上持续学习怎么做？悉尼大学等最新《持续图学习:挑战、解决方案和机会》综述，附Slides

图上持续学习怎么做？悉尼大学等最新《持续图学习:挑战、解决方案和机会》综述，附Slides

专知会员服务

59+阅读 · 2023年5月5日

【WWW2023教程】持续图学习教程，106页pdf

【WWW2023教程】持续图学习教程，106页pdf

专知会员服务

58+阅读 · 2023年5月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

最新《可解释机器学习》报告，164页ppt建模阐述XAI进展

专知

10+阅读 · 2022年8月25日

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

【UCLA】动态图表示学习，40页ppt，Dynamic Graph Representation Learning

专知

27+阅读 · 2021年3月7日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

用户画像基础

用户画像基础

DataFunTalk

12+阅读 · 2020年8月1日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【南洋理工Xavier】图深度学习最新进展，35页ppt，Deep Learning on Graphs

【南洋理工Xavier】图深度学习最新进展，35页ppt，Deep Learning on Graphs

专知

66+阅读 · 2019年11月27日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

技术动态 | 人工智能开源软件发展现状连载——知识图谱开源软件

技术动态 | 人工智能开源软件发展现状连载——知识图谱开源软件

开放知识图谱

10+阅读 · 2018年9月5日

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

图像分类、目标检测、图像分割……一文「计算机视觉」全分析

炼数成金订阅号

11+阅读 · 2017年9月20日

相关论文

Proactive Agents, Long-term User Context, VLM Annotation, Privacy Protection, Human-Computer Interaction

Arxiv

0+阅读 · 2月4日

MobileBench-OL: A Comprehensive Chinese Benchmark for Evaluating Mobile GUI Agents in Real-World Environment

Arxiv

0+阅读 · 1月28日

SwipeGen: Bridging the Execution Gap in GUI Agents via Human-like Swipe Synthesis

Arxiv

0+阅读 · 1月26日

ShowUI-Aloha: Human-Taught GUI Agent

Arxiv

0+阅读 · 1月12日

From Off-Policy to On-Policy: Enhancing GUI Agents via Bi-level Expert-to-Policy Assimilation

Arxiv

0+阅读 · 1月9日

InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training

Arxiv

0+阅读 · 1月8日

Agent+P: Guiding UI Agents via Symbolic Planning

Arxiv

0+阅读 · 1月7日

InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training

Arxiv

0+阅读 · 1月7日

MobileDreamer: Generative Sketch World Model for GUI Agent

Arxiv

0+阅读 · 1月7日

D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents

Arxiv

0+阅读 · 1月6日

相关基金

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向多用户行为的无线识别关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于日常移动平台的用户状态感知与软件协同技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

支持PDE存储的安全增强型Android系统

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员