Continual Reinforcement Learning (CRL) for Vision-Language-Action (VLA) models is a promising direction toward self-improving embodied agents that can adapt in openended, evolving environments. However, conventional wisdom from continual learning suggests that naive Sequential Fine-Tuning (Seq. FT) leads to catastrophic forgetting, necessitating complex CRL strategies. In this work, we take a step back and conduct a systematic study of CRL for large pretrained VLAs across three models and five challenging lifelong RL benchmarks. We find that, contrary to established belief, simple Seq. FT with low-rank adaptation (LoRA) is remarkably strong: it achieves high plasticity, exhibits little to no forgetting, and retains strong zero-shot generalization, frequently outperforming more sophisticated CRL methods. Through detailed analysis, we show that this robustness arises from a synergy between the large pretrained model, parameter-efficient adaptation, and on-policy RL. Together, these components reshape the stability-plasticity trade-off, making continual adaptation both stable and scalable. Our results position Sequential Fine-Tuning as a powerful method for continual RL with VLAs and provide new insights into lifelong learning in the large model era. Code is available at github.com/UT-Austin-RobIn/continual-vla-rl.


翻译:视觉-语言-动作模型的持续强化学习是迈向自我改进具身智能体的重要方向,使其能够在开放、动态的环境中持续适应。然而,持续学习领域的传统观点认为,简单的顺序微调会导致灾难性遗忘,因此需要复杂的持续强化学习策略。本研究回归基础,对大规模预训练视觉-语言-动作模型在三种模型架构和五个具有挑战性的终身强化学习基准上进行了系统性研究。我们发现,与既有认知相反,采用低秩自适应的简单顺序微调表现出惊人的优势:它具有高可塑性、几乎不发生遗忘,且保持强大的零样本泛化能力,其表现经常超越更复杂的持续强化学习方法。通过深入分析,我们证明这种鲁棒性源于大规模预训练模型、参数高效自适应和在线强化学习三者之间的协同效应。这些组件共同重塑了稳定性与可塑性之间的权衡关系,使得持续适应既稳定又可扩展。我们的研究确立了顺序微调作为视觉-语言-动作模型持续强化学习的有效方法,并为大模型时代的终身学习机制提供了新的见解。代码已发布于 github.com/UT-Austin-RobIn/continual-vla-rl。

0
下载
关闭预览

相关内容

大语言模型持续学习:方法、挑战与机遇
专知会员服务
3+阅读 · 3月16日
深度强化学习与模仿学习导论
专知会员服务
25+阅读 · 2025年12月10日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
面向视觉的强化学习综述
专知会员服务
21+阅读 · 2025年8月12日
Nature:大脑中的多时间尺度强化学习
专知会员服务
17+阅读 · 2025年6月8日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月15日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员