Vision-Language-Action models (VLAs) mark a major shift in robot learning. They replace specialized architectures and task-tailored components of expert policies with large-scale data collection and setup-specific fine-tuning. In this machine learning-focused workflow that is centered around models and scalable training, traditional robotics software frameworks become a bottleneck, while robot simulations offer only limited support for transitioning from and to real-world experiments. In this work, we close this gap by introducing Robot Control Stack (RCS), a lean ecosystem designed from the ground up to support research in robot learning with large-scale generalist policies. At its core, RCS features a modular and easily extensible layered architecture with a unified interface for simulated and physical robots, facilitating sim-to-real transfer. Despite its minimal footprint and dependencies, it offers a complete feature set, enabling both real-world experiments and large-scale training in simulation. Our contribution is twofold: First, we introduce the architecture of RCS and explain its design principles. Second, we evaluate its usability and performance along the development cycle of VLA and RL policies. Our experiments also provide an extensive evaluation of Octo, OpenVLA, and Pi Zero on multiple robots and shed light on how simulation data can improve real-world policy performance. Our code, datasets, weights, and videos are available at: https://robotcontrolstack.github.io/


翻译:视觉-语言-动作模型(VLA)标志着机器人学习领域的重大范式转变。该模型通过大规模数据采集与场景定制化微调,取代了专家策略中传统专用架构与任务定制化组件。在这种以模型与可扩展训练为核心的机器学习工作流中,传统机器人软件框架已成为瓶颈,而机器人仿真系统对虚实实验迁移的支持亦存在局限。本研究通过提出机器人控制栈(RCS)填补了这一空白——这是一个从头设计的轻量级生态系统,专为支持基于大规模通用策略的机器人学习研究而构建。RCS的核心采用模块化、易扩展的分层架构,为仿真与实体机器人提供统一接口,有效促进仿真到现实的迁移。尽管具有极小的资源占用与依赖项,该系统仍提供完整的功能集,可同时支持实体实验与仿真环境中的大规模训练。本研究的贡献包含两方面:首先,我们阐述了RCS的架构体系并解析其设计原则;其次,我们通过VLA与强化学习策略的开发全周期评估了其可用性与性能。实验部分还对Octo、OpenVLA及Pi Zero模型在多种机器人平台进行了系统性评估,并揭示了仿真数据提升现实世界策略性能的内在机制。相关代码、数据集、权重及演示视频已发布于:https://robotcontrolstack.github.io/

0
下载
关闭预览

相关内容

【综述】 机器人学习中的世界模型:全面综述
专知会员服务
20+阅读 · 5月4日
视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
26+阅读 · 2025年10月22日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
基于神经网络的机器人学习与控制:回顾与展望
专知会员服务
33+阅读 · 2023年9月10日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
0+阅读 · 58分钟前
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
0+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
1+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
1+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员