HoloBrain-0 技术报告 (HoloBrain-0 Technical Report) - 专知论文

会员服务 ·

0

系统 · 操作 · 预训练 · 后训练 · 机器人 ·

HoloBrain-0 Technical Report

翻译：HoloBrain-0 技术报告

Xuewu Lin,Tianwei Lin,Yun Du,Hongyu Xie,Yiwei Jin,Jiawei Li,Shijie Wu,Qingze Wang,Mengdi Li,Mengao Zhao,Ziang Li,Chaodong Huang,Hongzhe Bi,Lichao Huang,Zhizhong Su

from arxiv, 32 pages

In this work, we introduce HoloBrain-0, a comprehensive Vision-Language-Action (VLA) framework that bridges the gap between foundation model research and reliable real-world robot deployment. The core of our system is a novel VLA architecture that explicitly incorporates robot embodiment priors, including multi-view camera parameters and kinematic descriptions (URDF), to enhance 3D spatial reasoning and support diverse embodiments. We validate this design through a scalable ``pre-train then post-train" paradigm, achieving state-of-the-art results on simulation benchmarks such as RoboTwin 2.0, LIBERO, and GenieSim, as well as strong results on challenging long-horizon real-world manipulation tasks. Notably, our efficient 0.2B-parameter variant rivals significantly larger baselines, enabling low-latency on-device deployment. To further accelerate research and practical adoption, we fully open-source the entire HoloBrain ecosystem, which includes: (1) powerful pre-trained VLA foundations; (2) post-trained checkpoints for multiple simulation suites and real-world tasks; and (3) RoboOrchard, a full-stack VLA infrastructure for data curation, model training and deployment. Together with standardized data collection protocols, this release provides the community with a complete, reproducible path toward high-performance robotic manipulation.

翻译：本工作介绍了 HoloBrain-0，一个全面的视觉-语言-动作框架，旨在弥合基础模型研究与可靠的真实世界机器人部署之间的鸿沟。我们系统的核心是一种新颖的 VLA 架构，它显式地融合了机器人具身先验知识，包括多视角相机参数和运动学描述，以增强三维空间推理能力并支持多样化的具身形态。我们通过一个可扩展的“预训练后后训练”范式验证了该设计，在 RoboTwin 2.0、LIBERO 和 GenieSim 等仿真基准测试中取得了最先进的结果，同时在具有挑战性的长时程真实世界操作任务上也表现出色。值得注意的是，我们高效的 0.2B 参数变体可与规模大得多的基线模型相媲美，实现了低延迟的设备端部署。为了进一步加速研究和实际应用，我们完全开源了整个 HoloBrain 生态系统，其中包括：强大的预训练 VLA 基础模型；适用于多个仿真套件和真实世界任务的后训练检查点；以及 RoboOrchard，一个用于数据整理、模型训练和部署的全栈 VLA 基础设施。结合标准化的数据收集协议，此次发布为研究社区提供了一条通往高性能机器人操作的完整、可复现的路径。

0

相关内容

《美陆军航空医学研究实验室虚拟现实运动系统》96页报告

《美陆军航空医学研究实验室虚拟现实运动系统》96页报告

专知会员服务

12+阅读 · 2025年11月5日

《美军"僚机"联合能力技术演示项目：有人-无人火炮作战》41页报告

《美军"僚机"联合能力技术演示项目：有人-无人火炮作战》41页报告

专知会员服务

25+阅读 · 2025年7月11日

《基于机器人操作系统（ROS）2 Humble的自主作战机器人开发》最新103页报告（含核心代码）

《基于机器人操作系统（ROS）2 Humble的自主作战机器人开发》最新103页报告（含核心代码）

专知会员服务

24+阅读 · 2025年5月28日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

《无人战术自主控制与协作（UTACC）人机通信和态势感知》92页

《无人战术自主控制与协作（UTACC）人机通信和态势感知》92页

专知会员服务

49+阅读 · 2024年11月30日

51页《基于Transformer的多模态与自监督学习》最新报告，Google Xiaohua Zhai

51页《基于Transformer的多模态与自监督学习》最新报告，Google Xiaohua Zhai

专知会员服务

68+阅读 · 2023年2月24日

推荐！《自主交互蜂群变换基础》美海军研究实验室58页技术报告

推荐！《自主交互蜂群变换基础》美海军研究实验室58页技术报告

专知会员服务

56+阅读 · 2022年12月20日

《简化美国陆军无人平台 (UAV) 软件 MAVericks 的开发流程》美国陆军研究实验室2022最新26页报告

《简化美国陆军无人平台 (UAV) 软件 MAVericks 的开发流程》美国陆军研究实验室2022最新26页报告

专知会员服务

70+阅读 · 2022年11月10日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

北约114页技术总结报告《无人地面系统和C2内互操作性的能力概念演示》

北约114页技术总结报告《无人地面系统和C2内互操作性的能力概念演示》

专知会员服务

107+阅读 · 2022年7月19日

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

专知

23+阅读 · 2022年10月24日

推荐！【美国国防分析顶点报告】《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

推荐！【美国国防分析顶点报告】《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

专知

37+阅读 · 2022年9月12日

推荐！《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

推荐！《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

专知

55+阅读 · 2022年9月11日

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

专知

49+阅读 · 2022年8月11日

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

专知

64+阅读 · 2022年7月15日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人大讲堂

18+阅读 · 2019年7月5日

Yan LeCun 109页最新报告：图嵌入, 内容理解，自监督学习（附PPT下载）

Yan LeCun 109页最新报告：图嵌入, 内容理解，自监督学习（附PPT下载）

专知

19+阅读 · 2018年11月13日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

机器之心

22+阅读 · 2018年2月27日

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

共融机器人战略规划研究和学术交流

国家自然科学基金

13+阅读 · 2016年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

负虚系统网络一致性算法及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

微型线阵式数字太阳敏感器技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

LuxMT Technical Report

Arxiv

0+阅读 · 2月17日

FlowHOI: Flow-based Semantics-Grounded Generation of Hand-Object Interactions for Dexterous Robot Manipulation

Arxiv

0+阅读 · 2月13日

CRAFT: Adapting VLA Models to Contact-rich Manipulation via Force-aware Curriculum Fine-tuning

Arxiv

0+阅读 · 2月13日

Kelix Technique Report

Arxiv

0+阅读 · 2月10日

Singpath-VL Technical Report

Arxiv

0+阅读 · 2月10日

OpenOneRec Technical Report

Arxiv

0+阅读 · 2月4日

HunyuanImage 3.0 Technical Report

Arxiv

0+阅读 · 2月2日

Uni-Parser Technical Report

Arxiv

0+阅读 · 1月29日

Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

Arxiv

0+阅读 · 1月19日

STEP3-VL-10B Technical Report

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

相关VIP内容

《美陆军航空医学研究实验室虚拟现实运动系统》96页报告

《美陆军航空医学研究实验室虚拟现实运动系统》96页报告

专知会员服务

12+阅读 · 2025年11月5日

《美军"僚机"联合能力技术演示项目：有人-无人火炮作战》41页报告

《美军"僚机"联合能力技术演示项目：有人-无人火炮作战》41页报告

专知会员服务

25+阅读 · 2025年7月11日

《基于机器人操作系统（ROS）2 Humble的自主作战机器人开发》最新103页报告（含核心代码）

《基于机器人操作系统（ROS）2 Humble的自主作战机器人开发》最新103页报告（含核心代码）

专知会员服务

24+阅读 · 2025年5月28日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

《无人战术自主控制与协作（UTACC）人机通信和态势感知》92页

《无人战术自主控制与协作（UTACC）人机通信和态势感知》92页

专知会员服务

49+阅读 · 2024年11月30日

51页《基于Transformer的多模态与自监督学习》最新报告，Google Xiaohua Zhai

51页《基于Transformer的多模态与自监督学习》最新报告，Google Xiaohua Zhai

专知会员服务

68+阅读 · 2023年2月24日

推荐！《自主交互蜂群变换基础》美海军研究实验室58页技术报告

推荐！《自主交互蜂群变换基础》美海军研究实验室58页技术报告

专知会员服务

56+阅读 · 2022年12月20日

《简化美国陆军无人平台 (UAV) 软件 MAVericks 的开发流程》美国陆军研究实验室2022最新26页报告

《简化美国陆军无人平台 (UAV) 软件 MAVericks 的开发流程》美国陆军研究实验室2022最新26页报告

专知会员服务

70+阅读 · 2022年11月10日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

北约114页技术总结报告《无人地面系统和C2内互操作性的能力概念演示》

北约114页技术总结报告《无人地面系统和C2内互操作性的能力概念演示》

专知会员服务

107+阅读 · 2022年7月19日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

专知

23+阅读 · 2022年10月24日

推荐！【美国国防分析顶点报告】《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

推荐！【美国国防分析顶点报告】《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

专知

37+阅读 · 2022年9月12日

推荐！《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

推荐！《机器人和自主系统：有人/无人组队(RAS-MUM-T)》107页报告

专知

55+阅读 · 2022年9月11日

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

专知

49+阅读 · 2022年8月11日

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

美国陆军研究实验室《支持C2互操作性和传感器融合的全球信息网络架构评估》2022年技术总结报告

专知

64+阅读 · 2022年7月15日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人4.0白皮书（附下载）：云-边-端融合的机器人系统和架构

机器人大讲堂

18+阅读 · 2019年7月5日

Yan LeCun 109页最新报告：图嵌入, 内容理解，自监督学习（附PPT下载）

Yan LeCun 109页最新报告：图嵌入, 内容理解，自监督学习（附PPT下载）

专知

19+阅读 · 2018年11月13日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

资源 | DeepPavlov：一个训练对话系统和聊天机器人的开源库

机器之心

22+阅读 · 2018年2月27日

相关论文

LuxMT Technical Report

Arxiv

0+阅读 · 2月17日

FlowHOI: Flow-based Semantics-Grounded Generation of Hand-Object Interactions for Dexterous Robot Manipulation

Arxiv

0+阅读 · 2月13日

CRAFT: Adapting VLA Models to Contact-rich Manipulation via Force-aware Curriculum Fine-tuning

Arxiv

0+阅读 · 2月13日

Kelix Technique Report

Arxiv

0+阅读 · 2月10日

Singpath-VL Technical Report

Arxiv

0+阅读 · 2月10日

OpenOneRec Technical Report

Arxiv

0+阅读 · 2月4日

HunyuanImage 3.0 Technical Report

Arxiv

0+阅读 · 2月2日

Uni-Parser Technical Report

Arxiv

0+阅读 · 1月29日

Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

Arxiv

0+阅读 · 1月19日

STEP3-VL-10B Technical Report

Arxiv

0+阅读 · 1月14日

相关基金

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

共融机器人战略规划研究和学术交流

国家自然科学基金

13+阅读 · 2016年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

负虚系统网络一致性算法及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

微型线阵式数字太阳敏感器技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员