Spatial tracing, as a fundamental embodied interaction ability for robots, is inherently challenging as it requires multi-step metric-grounded reasoning compounded with complex spatial referring and real-world metric measurement. However, existing methods struggle with this compositional task. To this end, we propose RoboTracer, a 3D-aware VLM that first achieves both 3D spatial referring and measuring via a universal spatial encoder and a regression-supervised decoder to enhance scale awareness during supervised fine-tuning (SFT). Moreover, RoboTracer advances multi-step metric-grounded reasoning via reinforcement fine-tuning (RFT) with metric-sensitive process rewards, supervising key intermediate perceptual cues to accurately generate spatial traces. To support SFT and RFT training, we introduce TraceSpatial, a large-scale dataset of 30M QA pairs, spanning outdoor/indoor/tabletop scenes and supporting complex reasoning processes (up to 9 steps). We further present TraceSpatial-Bench, a challenging benchmark filling the gap to evaluate spatial tracing. Experimental results show that RoboTracer surpasses baselines in spatial understanding, measuring, and referring, with an average success rate of 79.1%, and also achieves SOTA performance on TraceSpatial-Bench by a large margin, exceeding Gemini-2.5-Pro by 36% accuracy. Notably, RoboTracer can be integrated with various control policies to execute long-horizon, dynamic tasks across diverse robots (UR5, G1 humanoid) in cluttered real-world scenes. See the project page at https://zhoues.github.io/RoboTracer.


翻译:空间轨迹追踪作为机器人的一项基本具身交互能力,其本质具有挑战性,因为它需要结合复杂空间指代和真实世界度量测量的多步度量基础推理。然而,现有方法在这一组合任务上表现不佳。为此,我们提出了RoboTracer,一种具有三维感知能力的视觉语言模型(VLM),它首次通过一个通用的空间编码器和一个回归监督的解码器,在监督微调(SFT)阶段增强尺度感知,从而同时实现了三维空间指代与度量。此外,RoboTracer通过采用对度量敏感的过程奖励进行强化微调(RFT),监督关键的中间感知线索以准确生成空间轨迹,从而推进了多步度量基础推理。为了支持SFT和RFT训练,我们引入了TraceSpatial,一个包含3000万个问答对的大规模数据集,涵盖室外/室内/桌面场景,并支持复杂的推理过程(最多9步)。我们进一步提出了TraceSpatial-Bench,一个填补评估空间轨迹追踪能力空白的挑战性基准。实验结果表明,RoboTracer在空间理解、度量和指代方面均超越了基线方法,平均成功率达到79.1%,并且在TraceSpatial-Bench基准上以显著优势取得了最先进的性能,准确率超过Gemini-2.5-Pro达36%。值得注意的是,RoboTracer可以与多种控制策略集成,在杂乱的真实世界场景中,为不同的机器人(如UR5、G1人形机器人)执行长时程、动态的任务。项目页面请见 https://zhoues.github.io/RoboTracer。

0
下载
关闭预览

相关内容

AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员