Vision-Language-Action models have recently emerged as a powerful paradigm for general-purpose robot learning, enabling agents to map visual observations and natural-language instructions into executable robotic actions. Though popular, they are primarily trained via supervised fine-tuning or training-time reinforcement learning, requiring explicit fine-tuning phases, human interventions, or controlled data collection. Consequently, existing methods remain unsuitable for challenging simulated- or physical-world deployments, where robots must respond autonomously and flexibly to evolving environments. To address this limitation, we introduce a Test-Time Reinforcement Learning for VLAs (TT-VLA), a framework that enables on-the-fly policy adaptation during inference. TT-VLA formulates a dense reward mechanism that leverages step-by-step task-progress signals to refine action policies during test time while preserving the SFT/RL-trained priors, making it an effective supplement to current VLA models. Empirical results show that our approach enhances overall adaptability, stability, and task success in dynamic, previously unseen scenarios under simulated and real-world settings. We believe TT-VLA offers a principled step toward self-improving, deployment-ready VLAs.


翻译:视觉-语言-动作模型最近已成为通用机器人学习的一种强大范式,能够将视觉观测和自然语言指令映射为可执行的机器人动作。尽管这类模型应用广泛,但它们主要通过监督微调或训练时强化学习进行训练,需要显式的微调阶段、人工干预或受控的数据收集过程。因此,现有方法仍难以应对具有挑战性的仿真或物理世界部署场景,因为在这些场景中机器人必须对环境变化做出自主且灵活的响应。为解决这一局限,我们提出了面向视觉-语言-动作模型的测试时强化学习方法,该框架能够在推理过程中实现策略的在线自适应。该方法构建了一种密集奖励机制,利用逐步任务进度信号在测试时优化动作策略,同时保留通过监督微调或强化学习训练得到的先验知识,从而成为当前视觉-语言-动作模型的有效补充。实验结果表明,在仿真和真实世界的动态、未见场景中,我们的方法显著提升了模型的整体适应性、稳定性和任务成功率。我们相信该方法为实现可自我改进、具备部署能力的视觉-语言-动作模型提供了理论依据。

0
下载
关闭预览

相关内容

视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
【ICML2024】理解视觉语言模型的检索增强任务自适应
专知会员服务
23+阅读 · 2024年5月8日
【ICML2024】理解视觉-语言模型的检索增强任务适应
专知会员服务
20+阅读 · 2024年5月3日
面向机器学习模型安全的测试与修复
专知会员服务
54+阅读 · 2023年2月5日
关于强化学习(附代码,练习和解答)
深度学习
37+阅读 · 2018年1月30日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员