Vision Language Action (VLA) models enable instruction following manipulation, yet dualarm deployment remains unsafe due to under modeled selfcollisions between arms and grasped objects. We introduce CoFreeVLA, which augments an endtoend VLA with a short horizon selfcollision risk estimator that predicts collision likelihood from proprioception, visual embeddings, and planned actions. The estimator gates risky commands, recovers to safe states via risk-guided adjustments, and shapes policy refinement for safer rollouts. It is pre-trained with model-based collision labels and posttrained on real robot rollouts for calibration. On five bimanual tasks with the PiPER robot arm, CoFreeVLA reduces selfcollisions and improves success rates versus RDT and APEX.


翻译:视觉-语言-动作模型能够实现指令跟随操作,但由于对双臂及抓持物体间自碰撞的建模不足,其双臂部署仍存在安全隐患。本文提出CoFreeVLA,该方法通过一个短时域自碰撞风险估计器增强端到端VLA模型,该估计器能够根据本体感知、视觉嵌入与规划动作预测碰撞概率。该估计器可拦截高风险指令,通过风险引导的调整恢复至安全状态,并引导策略优化以生成更安全的执行轨迹。该估计器首先使用基于模型的碰撞标签进行预训练,随后在真实机器人轨迹上进行后训练以完成校准。在PiPER机器人手臂的五项双手操作任务中,相较于RDT与APEX方法,CoFreeVLA显著减少了自碰撞并提升了任务成功率。

0
下载
关闭预览

相关内容

面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
【CVPR2022】跨模态检索的协同双流视觉语言预训练模型
专知会员服务
21+阅读 · 2022年4月21日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
【泡泡图灵智库】密集相关的自监督视觉描述学习(RAL)
泡泡机器人SLAM
11+阅读 · 2018年10月6日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员