In Vision-Language-Action (VLA) models, action chunking (i.e., executing a sequence of actions without intermediate replanning) is a key technique to improve robotic manipulation abilities. However, a large chunk size reduces the model's responsiveness to new information, while a small one increases the likelihood of mode-jumping, jerky behavior resulting from discontinuities between chunks. Therefore, selecting the optimal chunk size is an urgent demand to balance the model's reactivity and consistency. Unfortunately, a dominant trend in current VLA models is an empirical fixed chunk length at inference-time, hindering their superiority and scalability across diverse manipulation tasks. To address this issue, we propose a novel Adaptive Action Chunking (AAC) strategy, which exploits action entropy as the cue to adaptively determine the chunk size based on current predictions. Extensive experiments on a wide range of simulated and real-world robotic manipulation tasks have demonstrated that our approach substantially improves performance over the state-of-the-art alternatives. The videos and source code are publicly available at https://lance-lot.github.io/adaptive-chunking.github.io/.


翻译:在视觉-语言-动作(VLA)模型中,动作分块(即在无中间重新规划的情况下执行一系列动作)是提升机器人操作能力的关键技术。然而,分块过大会降低模型对新信息的响应能力,分块过小则容易引发模式跳跃,即因分块间不连续性导致的抖振行为。因此,选择最优分块尺寸成为平衡模型响应性与一致性的迫切需求。遗憾的是,当前VLA模型的主流趋势是在推理阶段采用经验性固定分块长度,这限制了其在不同操作任务中的优越性和可扩展性。为解决此问题,我们提出了一种新型自适应动作分块(AAC)策略,该策略利用动作熵作为线索,根据当前预测自适应确定分块尺寸。在广泛模拟和真实机器人操作任务上的大量实验表明,我们的方法较现有最优方案显著提升了性能。相关视频和源代码已开源,可访问 https://lance-lot.github.io/adaptive-chunking.github.io/。

0
下载
关闭预览

相关内容

视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
26+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
21+阅读 · 2025年8月29日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
用Attention玩转CV,一文总览自注意力语义分割进展
自注意力机制在计算机视觉中的应用
GAN生成式对抗网络
19+阅读 · 2018年12月20日
一文看懂如何将深度学习应用于视频动作识别
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员