Flow-based vision-language-action (VLA) policies offer strong expressivity for action generation, but suffer from a fundamental inefficiency: multi-step inference is required to recover action structure from uninformative Gaussian noise, leading to a poor efficiency-quality trade-off under real-time constraints. We address this issue by rethinking the role of the starting point in generative action modeling. Instead of shortening the sampling trajectory, we propose CF-VLA, a coarse-to-fine two-stage formulation that restructures action generation into a coarse initialization step that constructs an action-aware starting point, followed by a single-step local refinement that corrects residual errors. Concretely, the coarse stage learns a conditional posterior over endpoint velocity to transform Gaussian noise into a structured initialization, while the fine stage performs a fixed-time refinement from this initialization. To stabilize training, we introduce a stepwise strategy that first learns a controlled coarse predictor and then performs joint optimization. Experiments on CALVIN and LIBERO show that our method establishes a strong efficiency-performance frontier under low-NFE (Number of Function Evaluations) regimes: it consistently outperforms existing NFE=2 methods, matches or surpasses the NFE=10 $π_{0.5}$ baseline on several metrics, reduces action sampling latency by 75.4\%, and achieves the best average real-robot success rate of 83.0\%, outperforming MIP by 19.5 points and $π_{0.5}$ by 4.0 points. These results suggest that structured, coarse-to-fine generation enables both strong performance and efficient inference. Our code is available at https://github.com/EmbodiedAI-RoboTron/CF-VLA.


翻译:基于流的视觉-语言-动作(VLA)策略为动作生成提供了强大的表达能力,但存在根本性的低效问题:从无信息的高斯噪声中恢复动作结构需要多步推理,这导致在实时约束下效率与质量难以兼顾。我们通过重新思考生成式动作建模中起始点的作用来解决这一问题。本文提出CF-VLA——一种粗到细的两阶段框架,旨在不缩短采样轨迹的前提下,将动作生成重构为两个步骤:首先进行粗初始化,构建一个感知动作的起点;随后进行单步局部细化,修正残余误差。具体而言,粗阶段通过学习终点速度的条件后验分布,将高斯噪声转化为结构化的初始化状态;细阶段则基于该初始化状态执行固定步数的细化。为稳定训练,我们引入了一种逐步策略:先学习受控的粗预测器,再进行联合优化。在CALVIN和LIBERO上的实验表明,我们的方法在低NFE(函数评估次数)设置下建立了强大的效率-性能边界:它持续优于现有NFE=2的方法,在多项指标上达到或超过NFE=10的π₀.₅基线,动作采样延迟降低了75.4%,并在真实机器人任务中实现了83.0%的最佳平均成功率,比MIP高出19.5个百分点,比π₀.₅高出4.0个百分点。这些结果表明,结构化的粗到细生成能够同时实现强性能和高效推理。我们的代码已开源:https://github.com/EmbodiedAI-RoboTron/CF-VLA。

0
下载
关闭预览

相关内容

CF:ACM International Conference on Computing Frontiers。 Explanation:计算机前沿国际会议。 Publisher: ACM。 SIT: http://dblp.uni-trier.de/db/conf/cf
视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
26+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
21+阅读 · 2025年8月29日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
CFGAN:基于生成对抗网络的协同过滤框架
用Attention玩转CV,一文总览自注意力语义分割进展
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
4+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员