As digital environments (data distribution) are in flux, with new GUI data arriving over time-introducing new domains or resolutions-agents trained on static environments deteriorate in performance. In this work, we introduce Continual GUI Agents, a new task that requires GUI agents to perform continual learning under shifted domains and resolutions. We find existing methods fail to maintain stable grounding as GUI distributions shift over time, due to the diversity of UI interaction points and regions in fluxing scenarios. To address this, we introduce GUI-Anchoring in Flux (GUI-AiF), a new reinforcement fine-tuning framework that stabilizes continual learning through two novel rewards: Anchoring Point Reward in Flux (APR-iF) and Anchoring Region Reward in Flux (ARR-iF). These rewards guide the agents to align with shifting interaction points and regions, mitigating the tendency of existing reward strategies to over-adapt to static grounding cues (e.g., fixed coordinates or element scales). Extensive experiments show GUI-AiF surpasses state-of-the-art baselines. Our work establishes the first continual learning framework for GUI agents, revealing the untapped potential of reinforcement fine-tuning for continual GUI Agents.


翻译:随着数字环境(数据分布)不断变化,新的图形用户界面数据随时间不断涌现——引入新的领域或分辨率——在静态环境中训练的智能体性能会逐渐下降。在本研究中,我们提出了持续图形用户界面智能体这一新任务,要求图形用户界面智能体在变化的领域和分辨率下进行持续学习。我们发现,由于用户界面交互点和区域在动态场景中的多样性,现有方法无法在图形用户界面分布随时间变化时保持稳定的基础定位。为解决这一问题,我们提出了动态锚定图形用户界面框架,这是一种新的强化微调框架,通过两种新颖的奖励机制来稳定持续学习:动态锚定点奖励和动态锚定区域奖励。这些奖励引导智能体与变化的交互点和区域对齐,缓解了现有奖励策略过度适应静态基础定位线索(例如固定坐标或元素比例)的倾向。大量实验表明,动态锚定图形用户界面框架超越了现有最先进的基线方法。我们的研究建立了首个针对图形用户界面智能体的持续学习框架,揭示了强化微调在持续图形用户界面智能体领域尚未开发的潜力。

0
下载
关闭预览

相关内容

图形用户界面(Graphical User Interface,简称 GUI,又称图形用户接口)是指采用图形方式显示的计算机操作用户接口。与早期计算机使用的命令行界面相比,图形界面对于用户来说在视觉上更易于接受。
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
大规模语言模型智能体的终身学习:发展路线图
专知会员服务
44+阅读 · 2025年1月16日
多模态移动智能体的基础与最新趋势:综述
专知会员服务
37+阅读 · 2024年11月6日
【WWW2024教程】大型语言模型驱动智能体,附slides
专知会员服务
64+阅读 · 2024年5月14日
《图持续学习》综述
专知会员服务
44+阅读 · 2024年2月13日
【WWW2023教程】持续图学习教程,106页pdf
专知会员服务
58+阅读 · 2023年5月4日
用户画像基础
DataFunTalk
12+阅读 · 2020年8月1日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月12日
VIP会员
相关VIP内容
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
大规模语言模型智能体的终身学习:发展路线图
专知会员服务
44+阅读 · 2025年1月16日
多模态移动智能体的基础与最新趋势:综述
专知会员服务
37+阅读 · 2024年11月6日
【WWW2024教程】大型语言模型驱动智能体,附slides
专知会员服务
64+阅读 · 2024年5月14日
《图持续学习》综述
专知会员服务
44+阅读 · 2024年2月13日
【WWW2023教程】持续图学习教程,106页pdf
专知会员服务
58+阅读 · 2023年5月4日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员