Vision-Language-Action (VLA) Models have become the mainstream solution for robot control, but suffer from slow inference speeds. Speculative Decoding (SD) is a promising acceleration method which can be divided into two categories: drafter-based SD and retrieval-based SD. Existing methods fail to analyze the advantages and disadvantages of these two types of SD in VLA models, leading to their sole application or optimization. In this paper, we analyze the trajectory patterns of robots controlled by the VLA model and derive a key insight: the two types of SD should be used in a hybrid manner. However, achieving hybrid SD in VLA models poses several challenges: (1) draft rejection and persistent errors in retrieval-based SD; (2) difficulty in determining the hybrid boundary. To address these, we propose the HeiSD framework. We propose a retrieval-based SD optimization method in HeiSD,which contains a verify-skip mechanism and a sequence-wise relaxed acceptance strategy. Moreover, we proposed a kinematic-based fused metric in HeiSD to automatically determine the hybrid boundary. Experimental results demonstrate that HeiSD attains a speedup of up to 2.45x in simulation benchmarks and 2.06x~2.41x in real-world scenarios, while sustaining a high task success rate.


翻译:视觉-语言-动作模型已成为机器人控制的主流解决方案,但存在推理速度慢的问题。推测解码是一种有前景的加速方法,可分为两类:基于草稿模型的推测解码和基于检索的推测解码。现有方法未分析这两类推测解码在视觉-语言-动作模型中的优缺点,导致仅进行单一应用或优化。本文分析了视觉-语言-动作模型控制下机器人的轨迹模式,并得出关键结论:两类推测解码应混合使用。然而,在视觉-语言-动作模型中实现混合推测解码面临多项挑战:(1) 基于检索的推测解码中的草稿拒绝与持续性错误;(2) 混合边界的判定困难。为解决这些问题,我们提出HeiSD框架。我们在HeiSD中提出了一种基于检索的推测解码优化方法,包含验证跳过机制和序列级宽松接受策略。此外,我们提出了一种基于运动学的融合指标,用于自动确定混合边界。实验结果表明,HeiSD在仿真基准测试中实现了最高2.45倍的加速,在现实场景中达到2.06倍至2.41倍的加速,同时保持了较高的任务成功率。

0
下载
关闭预览

相关内容

视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
26+阅读 · 2025年10月22日
在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
【迪肯大学博士论文】深度神经网络视觉推理
专知会员服务
47+阅读 · 2022年10月3日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
可解释AI(XAI)工具集—DrWhy
专知
25+阅读 · 2019年6月4日
高翔:谈谈语义SLAM/地图
计算机视觉life
37+阅读 · 2019年3月26日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员