World Action Models (WAMs) generalize better than standard Vision-Language-Action (VLA) policies to novel motions and environments, because a video-modeling objective lets them learn from abundant unlabeled video rather than scarce labeled robot demonstrations. This generalization is computationally expensive. To complete a task, a WAM runs over multiple inference chunks, and each chunk requires a costly denoising process. Existing acceleration methods reduce this cost by caching and reusing computation within a single chunk's denoising trajectory. Our empirical analysis reveals a substantial source of redundancy they overlook: redundancy across chunks. When a robot executes a smooth behavior, the residuals computed at a given denoising step are strongly correlated from one chunk to the next. We introduce C$^3$ache, a training-free method that caches and reuses these residuals across inference chunks at the same denoising step. Experiments on benchmarks with a Fast-WAM backbone show that C$^3$ache achieves up to a $2.5\times$ speedup in total wall-clock inference time, with negligible degradation in task success rate.


翻译:世界动作模型(WAMs)相比标准视觉-语言-动作(VLA)策略,能更好地泛化至新型运动与场景,原因在于其视频建模目标使其能够从大量无标注视频而非稀缺的标注机器人演示中学习。然而,这种泛化能力计算开销极大。为完成任务,WAM需运行多个推理块,每个块均需经历高成本的去噪过程。现有加速方法通过缓存并复用单个块去噪轨迹内的计算结果来降低该成本。我们的实证分析揭示了它们忽略的重要冗余来源:块间冗余。当机器人执行平滑行为时,同一去噪步长下相邻块计算出的残差高度相关。我们提出C$^3$ache——一种免训练方法,通过跨推理块缓存并复用相同去噪步长下的残差。基于Fast-WAM骨干的基准实验表明,C$^3$ache在总壁钟推理时间上可实现高达2.5倍加速,且任务成功率几乎无下降。

0
下载
关闭预览

相关内容

世界动作模型: 具身AI的下一个前沿
专知会员服务
22+阅读 · 5月13日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
20+阅读 · 5月4日
【NVDIA】世界动作模型是零样本策略
专知会员服务
13+阅读 · 2月21日
视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
26+阅读 · 2025年10月22日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员