Vision-Language-Action (VLA) models show promise in embodied reasoning, yet remain far from true generalists-they often require task-specific fine-tuning, incur high compute costs, and generalize poorly to unseen tasks. We propose MetaVLA, a unified, backbone-agnostic post-training framework for efficient and scalable alignment. MetaVLA introduces Context-Aware Meta Co-Training, which consolidates diverse target tasks into a single fine-tuning stage while leveraging structurally diverse auxiliary tasks to improve in-domain generalization. Unlike naive multi-task SFT, MetaVLA integrates a lightweight meta-learning mechanism-derived from Attentive Neural Processes-to enable rapid adaptation from diverse contexts with minimal architectural change or inference overhead. On the LIBERO benchmark, MetaVLA with six auxiliary tasks outperforms OpenVLA by up to 8.0% on long-horizon tasks, reduces training steps from 240K to 75K, and cuts GPU time by ~76%. These results show that scalable, low-resource post-training is achievable-paving the way toward general-purpose embodied agents. Code will be available.


翻译:视觉-语言-动作(VLA)模型在具身推理任务中展现出潜力,但距离真正的通用智能体仍有差距——它们通常需要针对特定任务进行微调,计算成本高昂,且在未见任务上泛化能力不足。本文提出MetaVLA,一个统一、主干网络无关的后训练框架,旨在实现高效且可扩展的模型对齐。MetaVLA引入了上下文感知元协同训练机制,该机制将多样化的目标任务整合到单一微调阶段,同时利用结构各异的辅助任务提升领域内泛化能力。与简单的多任务监督微调不同,MetaVLA集成了源自注意力神经过程的轻量级元学习机制,使其能够以最小的架构改动或推理开销,从多样化上下文中快速适应。在LIBERO基准测试中,配备六项辅助任务的MetaVLA在长视野任务上性能超越OpenVLA达8.0%,训练步数从240K减少至75K,GPU时间降低约76%。这些结果表明,可扩展、低资源的后训练是可行的——为通向通用具身智能体铺平了道路。代码即将公开。

0
下载
关闭预览

相关内容

面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
Meta-Transformer:多模态学习的统一框架
专知会员服务
59+阅读 · 2023年7月21日
元学习—Meta Learning的兴起
专知
44+阅读 · 2019年10月19日
元学习(Meta Learning)最全论文、视频、书籍资源整理
深度学习与NLP
22+阅读 · 2019年6月20日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
元学习(Meta-Learning) 综述及五篇顶会论文推荐
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关资讯
元学习—Meta Learning的兴起
专知
44+阅读 · 2019年10月19日
元学习(Meta Learning)最全论文、视频、书籍资源整理
深度学习与NLP
22+阅读 · 2019年6月20日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
元学习(Meta-Learning) 综述及五篇顶会论文推荐
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员