Vision-Language-Action (VLA) models have recently demonstrated strong generalization capabilities in robotic manipulation. Some existing VLA approaches attempt to improve action accuracy by explicitly generating linguistic reasoning traces or future visual observations before action execution. However, explicit reasoning typically incurs non-negligible inference latency, which constrains the temporal resolution required for robotic manipulation. Moreover, such reasoning is confined to the linguistic space, imposing a representational bottleneck that struggles to faithfully capture ineffable physical attributes. To mitigate these limitations, we propose LaST$_0$, a framework that enables efficient reasoning before acting through a Latent Spatio-Temporal Chain-of-Thought (CoT), capturing fine-grained physical and robotic dynamics that are often difficult to verbalize. Specifically, we introduce a token-efficient latent CoT space that models future visual dynamics, 3D structural information, and robot proprioceptive states, and further extends these representations across time to enable temporally consistent implicit reasoning trajectories. Furthermore, LaST$_0$ adopts a dual-system architecture implemented via a Mixture-of-Transformers design, where a reasoning expert conducts low-frequency latent inference and an acting expert generates high-frequency actions conditioned on robotics-oriented latent representations. To facilitate coordination, LaST$_0$ is trained with heterogeneous operation frequencies, enabling adaptive switching between reasoning and action inference rates during deployment. Across ten simulated and six real-world manipulation tasks, LaST$_0$ improves mean success rates by 8% and 13% over prior VLA methods, respectively, while achieving substantially faster inference. Project website: https://sites.google.com/view/last0


翻译:视觉-语言-动作(VLA)模型近期在机器人操作任务中展现出强大的泛化能力。现有部分VLA方法试图通过在动作执行前显式生成语言推理轨迹或未来视觉观测来提升动作精度。然而,显式推理通常会产生不可忽略的推断延迟,这限制了机器人操作所需的时间分辨率。此外,此类推理被限制在语言空间内,形成了表征瓶颈,难以忠实捕捉难以言喻的物理属性。为缓解这些局限,我们提出LaST$_0$框架,该框架通过潜在时空思维链(CoT)实现高效的"先思后行",能够捕捉通常难以用语言描述的细粒度物理与机器人动力学特性。具体而言,我们引入一个令牌高效的潜在CoT空间,该空间建模未来视觉动态、三维结构信息及机器人本体感知状态,并进一步将这些表征沿时间维度扩展以实现时序一致的隐式推理轨迹。此外,LaST$_0$采用通过混合Transformer架构实现的双系统设计:推理专家执行低频潜在推断,而动作专家则基于面向机器人的潜在表征生成高频动作。为促进协同,LaST$_0$采用异构操作频率进行训练,使其在部署期间能够自适应切换推理与动作推断速率。在十项仿真与六项真实世界操作任务中,LaST$_0$相较先前VLA方法分别将平均成功率提升8%和13%,同时实现显著更快的推断速度。项目网站:https://sites.google.com/view/last0

0
下载
关闭预览

相关内容

【WWW2024】博弈论式反事实解释图神经网络
专知会员服务
32+阅读 · 2024年2月17日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员