Flow-based vision-language-action (VLA) models excel in embodied control but suffer from intractable likelihoods during multi-step sampling, hindering online reinforcement learning. We propose \textbf{\textit{$\boldsymbolπ$-StepNFT}} (Step-wise Negative-aware Fine-Tuning), a critic-and-likelihood-free framework that requires only a single forward pass per optimization step and eliminates auxiliary value networks. We identify that wider exploration spaces necessitate finer-grained, step-wise guidance for alignment. Empirically, $π$-StepNFT unlocks latent potential on LIBERO with competitive few-shot robustness. Moreover, it achieves superior generalization on ManiSkill, outperforming value-based baselines in OOD scenarios by preventing overfitting to multimodal features. This property offers a scalable solution promising for complex real-world applications.


翻译:基于流的视觉语言动作(VLA)模型在具身控制任务中表现优异,但在多步采样过程中存在难以处理的似然计算问题,阻碍了在线强化学习的应用。本文提出\textbf{\textit{$\boldsymbolπ$-StepNFT}}(步进式负感知微调框架),该框架无需价值网络辅助,且每个优化步骤仅需单次前向传播,实现了免评论家与免似然估计的优化。我们发现,更广阔的探索空间需要更细粒度的步进式指导以实现策略对齐。实验表明,π-StepNFT在LIBERO基准上展现出具有竞争力的少样本鲁棒性,释放了模型的潜在性能。此外,该方法在ManiSkill任务中实现了卓越的泛化能力,通过避免对多模态特征的过拟合,在分布外场景中超越了基于价值函数的基线方法。这一特性为复杂现实世界应用提供了可扩展的解决方案。

0
下载
关闭预览

相关内容

面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
最新内容
(译文)认知战:以士兵为目标,塑造战略
专知会员服务
0+阅读 · 今天3:12
(中文)认知战的本体论基础(2026报告)
专知会员服务
7+阅读 · 今天1:45
美空军条令(2026):外国对内防御
专知会员服务
2+阅读 · 今天1:32
美国与以色列如何在攻击伊朗中使用人工智能
专知会员服务
7+阅读 · 4月16日
《自动化战略情报管控》
专知会员服务
3+阅读 · 4月16日
得失评估:审视对伊朗战争的轨迹(简报)
专知会员服务
3+阅读 · 4月16日
【CMU博士论文】迈向可解释机器学习的理论基础
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员