Robots in dynamic, human-centric environments must follow language instructions while maintaining real-time reactive control. Vision-language-action (VLA) models offer a promising framework, but they assume temporally aligned reasoning and control, despite semantic inference being inherently delayed relative to real-time action. We introduce Think-in-Control (TIC)-VLA, a latency-aware framework that explicitly models delayed semantic reasoning during action generation. TIC-VLA defines a delayed semantic-control interface that conditions action generation on delayed vision-language semantic states and explicit latency metadata, in addition to current observations, enabling policies to compensate for asynchronous reasoning. We further propose a latency-consistent training pipeline that injects reasoning inference delays during imitation learning and online reinforcement learning, aligning training with asynchronous deployment. To support realistic evaluation, we present DynaNav, a physics-accurate, photo-realistic simulation suite for language-guided navigation in dynamic environments. Extensive experiments in simulation and on a real robot show that TIC-VLA consistently outperforms prior VLA models while maintaining robust real-time control under multi-second reasoning latency. Project website: https://ucla-mobility.github.io/TIC-VLA/


翻译:在动态、以人为中心的环境中工作的机器人,必须遵循语言指令,同时保持实时的反应性控制。视觉-语言-动作(VLA)模型提供了一个有前景的框架,但它们假设推理与控制在时间上是对齐的,尽管语义推理本质上相对于实时动作存在延迟。我们提出了思控(Think-in-Control, TIC)-VLA,这是一个延迟感知框架,它在动作生成过程中显式地对延迟的语义推理进行建模。TIC-VLA定义了一个延迟的语义-控制接口,该接口除了基于当前观测外,还基于延迟的视觉-语言语义状态和显式的延迟元数据来生成动作,从而使策略能够补偿异步推理。我们进一步提出了一种延迟一致性训练流程,该流程在模仿学习和在线强化学习中注入推理延迟,使训练与异步部署保持一致。为了支持真实的评估,我们提出了DynaNav,这是一个物理精确、照片级真实的仿真套件,用于动态环境中的语言引导导航。在仿真和真实机器人上进行的大量实验表明,TIC-VLA始终优于先前的VLA模型,同时在多秒级推理延迟下保持稳健的实时控制。项目网站:https://ucla-mobility.github.io/TIC-VLA/

0
下载
关闭预览

相关内容

视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
VIP会员
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员