Online Reinforcement Learning (RL) offers a promising paradigm for enhancing GUI agents through direct environment interaction. However, its effectiveness is severely hindered by inefficient credit assignment in long-horizon tasks and repetitive errors across tasks due to the lack of experience transfer. To address these challenges, we propose UI-Mem, a novel framework that enhances GUI online RL with a Hierarchical Experience Memory. Unlike traditional replay buffers, our memory accumulates structured knowledge, including high-level workflows, subtask skills, and failure patterns. These experiences are stored as parameterized templates that enable cross-task and cross-application transfer. To effectively integrate memory guidance into online RL, we introduce Stratified Group Sampling, which injects varying levels of guidance across trajectories within each rollout group to maintain outcome diversity, driving the unguided policy toward internalizing guided behaviors. Furthermore, a Self-Evolving Loop continuously abstracts novel strategies and errors to keep the memory aligned with the agent's evolving policy. Experiments on online GUI benchmarks demonstrate that UI-Mem significantly outperforms traditional RL baselines and static reuse strategies, with strong generalization to unseen applications. Project page: https://ui-mem.github.io


翻译:在线强化学习(Online Reinforcement Learning, RL)通过直接与环境交互,为增强GUI智能体提供了一种前景广阔的范式。然而,其在长视野任务中低效的信用分配,以及由于缺乏经验迁移而导致的跨任务重复错误,严重制约了其效能。为应对这些挑战,我们提出了UI-Mem,一个通过分层经验记忆增强GUI在线强化学习的新型框架。与传统经验回放缓冲区不同,我们的记忆积累结构化的知识,包括高层工作流、子任务技能和失败模式。这些经验以参数化模板的形式存储,支持跨任务和跨应用的迁移。为了将记忆指导有效地整合到在线强化学习中,我们引入了分层组采样(Stratified Group Sampling)。该方法在每个训练批次组内的轨迹中注入不同层级的指导,以保持结果多样性,从而驱动无指导策略内化受指导的行为。此外,一个自演进循环持续抽象出新的策略和错误,使记忆与智能体不断演进的策略保持一致。在在线GUI基准测试上的实验表明,UI-Mem显著优于传统的强化学习基线方法和静态重用策略,并对未见过的应用展现出强大的泛化能力。项目页面:https://ui-mem.github.io

0
下载
关闭预览

相关内容

【CMU博士论文】以人为中心的强化学习
专知会员服务
22+阅读 · 2025年8月16日
面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
73+阅读 · 2023年2月23日
基于通信的多智能体强化学习进展综述
专知会员服务
112+阅读 · 2022年11月12日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
专知会员服务
106+阅读 · 2022年9月19日
【CMU博士论文】通过记忆的元强化学习,118页pdf
专知会员服务
49+阅读 · 2022年6月23日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
57+阅读 · 2021年10月16日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
关于强化学习(附代码,练习和解答)
深度学习
37+阅读 · 2018年1月30日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关VIP内容
【CMU博士论文】以人为中心的强化学习
专知会员服务
22+阅读 · 2025年8月16日
面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
【CMU博士论文】强化学习泛化性与效率研究,206页pdf
专知会员服务
73+阅读 · 2023年2月23日
基于通信的多智能体强化学习进展综述
专知会员服务
112+阅读 · 2022年11月12日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
专知会员服务
106+阅读 · 2022年9月19日
【CMU博士论文】通过记忆的元强化学习,118页pdf
专知会员服务
49+阅读 · 2022年6月23日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
57+阅读 · 2021年10月16日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员