Although pre-trained Vision-Language-Action (VLA) models exhibit impressive generalization in robotic manipulation, post-training remains crucial to ensure reliable performance during deployment. However, standard offline Supervised Fine-Tuning (SFT) suffers from distribution shifts and catastrophic forgetting of pre-trained capabilities, while online Reinforcement Learning (RL) struggles with sparse rewards and poor sample efficiency. In this paper, we propose On-Policy VLA Distillation (VLA-OPD), a framework bridging the efficiency of SFT with the robustness of RL. Instead of relying on sparse environmental rewards, VLA-OPD leverages an expert teacher to provide dense, token-level supervision on the student's self-generated trajectories. This enables active error correction on policy-induced states while preserving pre-trained general capabilities through gentle alignment. Crucially, we formulate VLA-OPD via a Reverse-KL objective. Unlike standard Forward-KL that induces mode-covering entropy explosion, or Hard-CE that causes premature entropy collapse, our bounded mode-seeking objective ensures stable policy learning by filtering out the teacher's epistemic uncertainty while maintaining action diversity. Experiments on LIBERO and RoboTwin2.0 benchmarks demonstrate that VLA-OPD significantly improves sample efficiency over RL and robustness over SFT, while effectively mitigating catastrophic forgetting during post-training.


翻译:尽管预训练的视觉-语言-动作(VLA)模型在机器人操作任务中展现出令人印象深刻的泛化能力,但在部署阶段仍需通过后训练确保其可靠性能。然而,标准的离线监督微调(SFT)存在分布偏移和预训练能力灾难性遗忘的问题,而在线强化学习(RL)则面临稀疏奖励和样本效率低下的困境。本文提出在线策略VLA蒸馏(VLA-OPD)框架,该框架融合了SFT的高效性与RL的鲁棒性。VLA-OPD不依赖稀疏的环境奖励,而是利用专家教师模型对学生模型自生成的轨迹提供密集的逐token级监督。这种方法能在教师策略生成的状态上实现主动纠错,同时通过温和对齐保留预训练的通用能力。关键之处在于,我们通过反向KL散度目标函数构建VLA-OPD。与标准前向KL散度导致模式覆盖性熵爆炸、或硬交叉熵(Hard-CE)导致过早熵坍缩不同,我们提出的有界模式追求目标函数通过过滤教师模型的认知不确定性,同时保持动作多样性,从而实现稳定的策略学习。在LIBERO和RoboTwin2.0基准上的实验表明,VLA-OPD相较于RL显著提升了样本效率,相较于SFT增强了鲁棒性,并有效缓解了后训练过程中的灾难性遗忘问题。

0
下载
关闭预览

相关内容

视觉-语言-动作(VLA)模型的前世今生
专知会员服务
21+阅读 · 2025年8月29日
SFT 记忆,RL 泛化:基础模型后训练的比较研究
专知会员服务
24+阅读 · 2025年2月3日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
用Attention玩转CV,一文总览自注意力语义分割进展
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关主题
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员