We present VLA Foundry, an open-source framework that unifies LLM, VLM, and VLA training in a single codebase. Most open-source VLA efforts specialize on the action training stage, often stitching together incompatible pretraining pipelines. VLA Foundry instead provides a shared training stack with end-to-end control, from language pretraining to action-expert fine-tuning. VLA Foundry supports both from-scratch training and pretrained backbones from Hugging Face. To demonstrate the utility of our framework, we train and release two types of models: the first trained fully from scratch through our LLM-->VLM-->VLA pipeline and the second built on the pretrained Qwen3-VL backbone. We evaluate closed-loop policy performance of both models on LBM Eval, an open-data, open-source simulator. We also contribute usability improvements to the simulator and the STEP analysis tools for easier public use. In the nominal evaluation setting, our fully-open from-scratch model is on par with our prior closed-source work and substituting in the Qwen3-VL backbone leads to a strong multi-task table top manipulation policy outperforming our baseline by a wide margin. The VLA Foundry codebase is available at https://github.com/TRI-ML/vla_foundry and all multi-task model weights are released on https://huggingface.co/collections/TRI-ML/vla-foundry. Additional qualitative videos are available on the project website https://tri-ml.github.io/vla_foundry.


翻译:我们提出VLA Foundry,一个在单一代码库中统一LLM、VLM与VLA训练的开源框架。当前多数开源VLA工作专注于动作训练阶段,通常拼接互不兼容的预训练流程。而VLA Foundry提供从语言预训练到动作专家微调的端到端控制的共享训练栈。该框架同时支持从头开始训练和从Hugging Face加载预训练主干网络。为展示框架实用性,我们训练并发布两类模型:第一类通过完整的LLM→VLM→VLA流水线从头训练;第二类基于预训练的Qwen3-VL主干网络构建。我们在开放数据、开源的LBM Eval仿真平台上评估了两类模型的闭环策略性能。此外,我们还对仿真器进行了可用性改进,并贡献了STEP分析工具以便公众使用。在标准评估设置下,我们完全开源的从零训练模型性能与先前闭源工作相当,而替换为Qwen3-VL主干网络后,所获强多任务桌面操作策略在性能上大幅超越基线模型。VLA Foundry代码库已开源至https://github.com/TRI-ML/vla_foundry,所有多任务模型权重发布于https://huggingface.co/collections/TRI-ML/vla-foundry。更多定性演示视频可访问项目官网https://tri-ml.github.io/vla_foundry。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
《Palantir平台:FOUNDRY与AIP服务定义文档》
专知会员服务
9+阅读 · 今天7:45
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
26+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
哈工大讯飞联合实验室发布中文XLNet预训练模型
哈工大SCIR
13+阅读 · 2019年8月20日
美团:基于跨平台框架Flutter的动态化平台建设
前端之巅
14+阅读 · 2019年6月17日
读扩散?写扩散?推拉架构一文搞定!
架构师之路
17+阅读 · 2019年2月1日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
Nature三连发AI自主科学发现论文
专知会员服务
0+阅读 · 今天14:19
安杜里尔与人工智能驱动防务的崛起
专知会员服务
10+阅读 · 今天8:08
《Palantir平台:FOUNDRY与AIP服务定义文档》
专知会员服务
9+阅读 · 今天7:45
2025年科学计算行业发展研究报告
专知会员服务
7+阅读 · 5月20日
《特种部队山地作战:一项战略要务》230页报告
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员