The pursuit of out-of-distribution generalization in Vision-Language-Action (VLA) models is often hindered by catastrophic forgetting of the Vision-Language Model (VLM) backbone during fine-tuning. While co-training with external reasoning data helps, it requires experienced tuning and data-related overhead. Beyond such external dependencies, we identify an intrinsic cause within VLA datasets: modality imbalance, where language diversity is much lower than visual and action diversity. This imbalance biases the model toward visual shortcuts and language forgetting. To address this, we introduce BayesVLA, a Bayesian factorization that decomposes the policy into a visual-action prior, supporting seeing-to-act, and a language-conditioned likelihood, enabling prompt-to-specify. This inherently preserves generalization and promotes instruction following. We further incorporate pre- and post-contact phases to better leverage pre-trained foundation models. Information-theoretic analysis formally validates our effectiveness in mitigating shortcut learning. Extensive experiments show superior generalization to unseen instructions, objects, and environments compared to existing methods. Project page is available at: https://xukechun.github.io/papers/BayesVLA.


翻译:视觉-语言-动作(VLA)模型在追求分布外泛化能力时,常因微调过程中视觉-语言模型(VLM)骨干网络发生灾难性遗忘而受阻。尽管通过外部推理数据进行协同训练有所帮助,但这需要经验丰富的调参技巧并带来数据相关的开销。除了此类外部依赖,我们在VLA数据集中识别出一个内在原因:模态不平衡,即语言多样性远低于视觉和动作多样性。这种不平衡使模型偏向于视觉捷径和语言遗忘。为解决此问题,我们提出了BayesVLA,一种贝叶斯因子分解方法,将策略分解为视觉-动作先验(支持“视而能动”)和语言条件似然(实现“提示以明”)。该方法本质上保留了泛化能力并促进了指令跟随。我们进一步整合了接触前与接触后阶段,以更好地利用预训练的基础模型。信息论分析正式验证了我们在缓解捷径学习方面的有效性。大量实验表明,相较于现有方法,该方法在未见过的指令、物体和环境上展现出更优的泛化性能。项目页面位于:https://xukechun.github.io/papers/BayesVLA。

0
下载
关闭预览

相关内容

专知会员服务
65+阅读 · 2021年4月11日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员