RoboBrain 2.5：深度感知，时序建模 (RoboBrain 2.5: Depth in Sight, Time in Mind) - 专知论文

会员服务 ·

0

时序 · 深度感知 · 约束 · 操作 · 空间推理 ·

RoboBrain 2.5: Depth in Sight, Time in Mind

翻译：RoboBrain 2.5：深度感知，时序建模

Huajie Tan,Enshen Zhou,Zhiyu Li,Yijie Xu,Yuheng Ji,Xiansheng Chen,Cheng Chi,Pengwei Wang,Huizhu Jia,Yulong Ao,Mingyu Cao,Sixiang Chen,Zhe Li,Mengzhen Liu,Zixiao Wang,Shanyu Rong,Yaoxu Lyu,Zhongxia Zhao,Peterson Co,Yibo Li,Yi Han,Shaoxuan Xie,Guocai Yao,Songjing Wang,Leiduo Zhang,Xi Yang,Yance Jiao,Donghai Shi,Kunchang Xie,Shaokai Nie,Chunlei Men,Yonghua Lin,Zhongyuan Wang,Tiejun Huang,Shanghang Zhang

from arxiv, 37 pages, 13 figures, Technical Report

We introduce RoboBrain 2.5, a next-generation embodied AI foundation model that advances general perception, spatial reasoning, and temporal modeling through extensive training on high-quality spatiotemporal supervision. Building upon its predecessor, RoboBrain 2.5 introduces two major capability upgrades. Specifically, it unlocks Precise 3D Spatial Reasoning by shifting from 2D pixel-relative grounding to depth-aware coordinate prediction and absolute metric constraint comprehension, generating complete 3D manipulation traces as ordered keypoint sequences under physical constraints. Complementing this spatial precision, the model establishes Dense Temporal Value Estimation that provides dense, step-aware progress prediction and execution state understanding across varying viewpoints, producing stable feedback signals for downstream learning. Together, these upgrades extend the framework toward more physically grounded and execution-aware embodied intelligence for complex, fine-grained manipulation. The code and checkpoints are available at project website: https://superrobobrain.github.io

翻译：我们介绍了 RoboBrain 2.5，这是一个新一代具身人工智能基础模型，它通过在大规模高质量时空监督数据上进行训练，显著提升了通用感知、空间推理和时序建模能力。在上一代模型的基础上，RoboBrain 2.5 引入了两大核心能力升级。具体而言，它通过从 2D 像素相对定位转向深度感知的坐标预测和绝对度量约束理解，实现了精确的三维空间推理，能够在物理约束下生成完整的、以有序关键点序列表示的三维操作轨迹。与此空间精度相辅相成，该模型建立了稠密时序价值估计，能够提供密集的、步骤感知的进度预测和跨不同视角的执行状态理解，从而为下游学习生成稳定的反馈信号。这些升级共同将该框架推向更具物理基础和执行感知能力的具身智能，以应对复杂、细粒度的操作任务。代码与模型检查点可在项目网站获取：https://superrobobrain.github.io

0

相关内容

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

专知会员服务

79+阅读 · 2025年2月14日

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

23+阅读 · 2024年12月27日

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

专知会员服务

26+阅读 · 2024年10月17日

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

Gemini 1.5突然发布，最新技术报告！总体上性能暴增，最惊艳的是支持100万Token窗口！58页pdf

Gemini 1.5突然发布，最新技术报告！总体上性能暴增，最惊艳的是支持100万Token窗口！58页pdf

专知会员服务

50+阅读 · 2024年2月18日

大模型时代: 知识图谱过时了吗？Griffith大学等最新《统一大型语言模型和知识图谱:路线图》，29页pdf详述最全指南

大模型时代: 知识图谱过时了吗？Griffith大学等最新《统一大型语言模型和知识图谱:路线图》，29页pdf详述最全指南

专知会员服务

193+阅读 · 2023年6月19日

国防科大最新《时空图神经网络》综述，24页pdf详述其在城市计算预测学习应用进展

国防科大最新《时空图神经网络》综述，24页pdf详述其在城市计算预测学习应用进展

专知会员服务

72+阅读 · 2023年4月3日

GNN如何建模时空？伦敦玛丽女王大学《时空图神经网络》综述，简明阐述时空图神经网络方法

GNN如何建模时空？伦敦玛丽女王大学《时空图神经网络》综述，简明阐述时空图神经网络方法

专知会员服务

74+阅读 · 2023年2月1日

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

专知会员服务

92+阅读 · 2022年6月13日

【Google-BryanLim等】可解释深度学习时序预测

【Google-BryanLim等】可解释深度学习时序预测

专知会员服务

64+阅读 · 2021年12月19日

【Manning新书】 Python中时间序列预测，222页pdf手把手教你实战时序建模

【Manning新书】 Python中时间序列预测，222页pdf手把手教你实战时序建模

专知

28+阅读 · 2022年3月29日

【论文笔记】用于深度时空图建模的Geaph WaveNet

【论文笔记】用于深度时空图建模的Geaph WaveNet

专知

109+阅读 · 2019年11月4日

DeepMind开源最牛无监督学习BigBiGAN预训练模型

DeepMind开源最牛无监督学习BigBiGAN预训练模型

新智元

10+阅读 · 2019年10月10日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

新智元

13+阅读 · 2019年7月9日

6000星人气深度学习资源！架构模型技巧全都有，图灵奖得主LeCun推荐

6000星人气深度学习资源！架构模型技巧全都有，图灵奖得主LeCun推荐

量子位

13+阅读 · 2019年6月18日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混沌时间序列Volterra建模及其在语音信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

无线认知传感器网络中时空相关频谱感知算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

稳健随机均值模型在时空数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

BrainSymphony: A parameter-efficient multimodal foundation model for brain dynamics with limited data

Arxiv

0+阅读 · 2月12日

RoboSubtaskNet: Temporal Sub-task Segmentation for Human-to-Robot Skill Transfer in Real-World Environments

Arxiv

0+阅读 · 2月11日

Robo3R: Enhancing Robotic Manipulation with Accurate Feed-Forward 3D Reconstruction

Arxiv

0+阅读 · 2月10日

RoboSubtaskNet: Temporal Sub-task Segmentation for Human-to-Robot Skill Transfer in Real-World Environments

Arxiv

0+阅读 · 2月10日

Time Series Reasoning via Process-Verifiable Thinking Data Synthesis and Scheduling for Tailored LLM Reasoning

Arxiv

0+阅读 · 2月8日

RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Interactive Environmental Learning in Physical Embodied Systems

Arxiv

0+阅读 · 2月4日

DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO

Arxiv

0+阅读 · 2月4日

Quest2ROS2: A ROS 2 Framework for Bi-manual VR Teleoperation

Arxiv

0+阅读 · 1月26日

Dual-Prototype Disentanglement: A Context-Aware Enhancement Framework for Time Series Forecasting

Arxiv

0+阅读 · 1月23日

RONOM: Reduced-Order Neural Operator Modeling

Arxiv

0+阅读 · 1月23日

VIP会员

文章信息

相关主题

相关VIP内容

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

DeepSeek专题研究：“低成本、高性能、强推理”三位一体，DeepSeek驱动高质量模型平价化

专知会员服务

79+阅读 · 2025年2月14日

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

23+阅读 · 2024年12月27日

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

专知会员服务

26+阅读 · 2024年10月17日

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

专知会员服务

36+阅读 · 2024年8月11日

Gemini 1.5突然发布，最新技术报告！总体上性能暴增，最惊艳的是支持100万Token窗口！58页pdf

Gemini 1.5突然发布，最新技术报告！总体上性能暴增，最惊艳的是支持100万Token窗口！58页pdf

专知会员服务

50+阅读 · 2024年2月18日

大模型时代: 知识图谱过时了吗？Griffith大学等最新《统一大型语言模型和知识图谱:路线图》，29页pdf详述最全指南

大模型时代: 知识图谱过时了吗？Griffith大学等最新《统一大型语言模型和知识图谱:路线图》，29页pdf详述最全指南

专知会员服务

193+阅读 · 2023年6月19日

国防科大最新《时空图神经网络》综述，24页pdf详述其在城市计算预测学习应用进展

国防科大最新《时空图神经网络》综述，24页pdf详述其在城市计算预测学习应用进展

专知会员服务

72+阅读 · 2023年4月3日

GNN如何建模时空？伦敦玛丽女王大学《时空图神经网络》综述，简明阐述时空图神经网络方法

GNN如何建模时空？伦敦玛丽女王大学《时空图神经网络》综述，简明阐述时空图神经网络方法

专知会员服务

74+阅读 · 2023年2月1日

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

专知会员服务

92+阅读 · 2022年6月13日

【Google-BryanLim等】可解释深度学习时序预测

【Google-BryanLim等】可解释深度学习时序预测

专知会员服务

64+阅读 · 2021年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

【Manning新书】 Python中时间序列预测，222页pdf手把手教你实战时序建模

【Manning新书】 Python中时间序列预测，222页pdf手把手教你实战时序建模

专知

28+阅读 · 2022年3月29日

【论文笔记】用于深度时空图建模的Geaph WaveNet

【论文笔记】用于深度时空图建模的Geaph WaveNet

专知

109+阅读 · 2019年11月4日

DeepMind开源最牛无监督学习BigBiGAN预训练模型

DeepMind开源最牛无监督学习BigBiGAN预训练模型

新智元

10+阅读 · 2019年10月10日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

新智元

13+阅读 · 2019年7月9日

6000星人气深度学习资源！架构模型技巧全都有，图灵奖得主LeCun推荐

6000星人气深度学习资源！架构模型技巧全都有，图灵奖得主LeCun推荐

量子位

13+阅读 · 2019年6月18日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

谷歌发表的史上最强NLP模型BERT的官方代码和预训练模型可以下载了

AINLP

12+阅读 · 2018年11月1日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

相关论文

BrainSymphony: A parameter-efficient multimodal foundation model for brain dynamics with limited data

Arxiv

0+阅读 · 2月12日

RoboSubtaskNet: Temporal Sub-task Segmentation for Human-to-Robot Skill Transfer in Real-World Environments

Arxiv

0+阅读 · 2月11日

Robo3R: Enhancing Robotic Manipulation with Accurate Feed-Forward 3D Reconstruction

Arxiv

0+阅读 · 2月10日

RoboSubtaskNet: Temporal Sub-task Segmentation for Human-to-Robot Skill Transfer in Real-World Environments

Arxiv

0+阅读 · 2月10日

Time Series Reasoning via Process-Verifiable Thinking Data Synthesis and Scheduling for Tailored LLM Reasoning

Arxiv

0+阅读 · 2月8日

RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Interactive Environmental Learning in Physical Embodied Systems

Arxiv

0+阅读 · 2月4日

DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO

Arxiv

0+阅读 · 2月4日

Quest2ROS2: A ROS 2 Framework for Bi-manual VR Teleoperation

Arxiv

0+阅读 · 1月26日

Dual-Prototype Disentanglement: A Context-Aware Enhancement Framework for Time Series Forecasting

Arxiv

0+阅读 · 1月23日

RONOM: Reduced-Order Neural Operator Modeling

Arxiv

0+阅读 · 1月23日

相关基金

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混沌时间序列Volterra建模及其在语音信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

无线认知传感器网络中时空相关频谱感知算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

稳健随机均值模型在时空数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员