Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic manipulation, leveraging large-scale pre-training to achieve strong performance. The field has rapidly evolved with additional spatial priors and diverse architectural innovations. However, these advancements are often accompanied by varying training recipes and implementation details, which can make it challenging to disentangle the precise source of empirical gains. In this work, we introduce SimVLA, a streamlined baseline designed to establish a transparent reference point for VLA research. By strictly decoupling perception from control, using a standard vision-language backbone and a lightweight action head, and standardizing critical training dynamics, we demonstrate that a minimal design can achieve state-of-the-art performance. Despite having only 0.5B parameters, SimVLA outperforms multi-billion-parameter models on standard simulation benchmarks without robot pretraining. SimVLA also reaches on-par real-robot performance compared to pi0.5. Our results establish SimVLA as a robust, reproducible baseline that enables clear attribution of empirical gains to future architectural innovations. Website: https://frontierrobo.github.io/SimVLA


翻译:视觉-语言-动作(VLA)模型已成为通用机器人操作领域一种有前景的范式,其通过大规模预训练实现了强大的性能。该领域发展迅速,引入了额外的空间先验和多样化的架构创新。然而,这些进展往往伴随着不同的训练方案和实现细节,这使得准确厘清经验性性能提升的具体来源变得颇具挑战。在本工作中,我们提出了SimVLA,一个旨在为VLA研究建立透明参考基准的简化基线模型。通过严格地将感知与控制解耦、采用标准的视觉-语言主干网络和轻量级动作头,并对关键训练动态进行标准化,我们证明了一个极简的设计能够达到最先进的性能。尽管仅拥有5亿参数,SimVLA在标准仿真基准测试中超越了数十亿参数规模的模型,且无需机器人预训练。与pi0.5相比,SimVLA在真实机器人上也达到了相当的性能。我们的研究结果确立了SimVLA作为一个稳健、可复现的基线,能够将未来架构创新带来的经验性增益进行清晰归因。项目网站:https://frontierrobo.github.io/SimVLA

0
下载
关闭预览

相关内容

视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
基础模型驱动的机器人技术:全面综述
专知会员服务
30+阅读 · 2025年7月15日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
《基础模型在现实世界机器人应用》综述
专知会员服务
56+阅读 · 2024年2月11日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关VIP内容
视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
基础模型驱动的机器人技术:全面综述
专知会员服务
30+阅读 · 2025年7月15日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
《基础模型在现实世界机器人应用》综述
专知会员服务
56+阅读 · 2024年2月11日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员