Vision-Language-Action (VLA) models excel at mapping visual inputs and natural language instructions directly to robotic control policies. However, because they are trained primarily to fit behavioural demonstration data, they do not explicitly enforce fundamental physical principles such as rigid-body dynamics or contact constraints. This exposes a critical physics gap: standard temporal smoothing applied on top of single-step or chunked VLAs trades trajectory quality for added failures that short-term memory cannot resolve. To bridge this gap, we introduce PhysVLA (Physics-VLA), a plug-and-play, inference-time framework designed to wrap any frozen VLA backbone without retraining, fine-tuning, or weight access, with less than 1 ms of overhead per control step. PhysVLA intercepts the predicted control action, captures only the simulator or system state, and applies a dual-layered correction: (i) a phase-aware finite-state machine that structures discrete task segments (approach, grasp, transport, and place), and (ii) a selective Euler-Lagrange gate that activates only when a dynamics oracle detects kinodynamic inconsistency. Evaluated across OpenVLA, OpenVLA-OFT, Force-VLA, and Generalist-VLA on LIBERO-Spatial with a 7-DoF Franka Panda, the framework delivers absolute success rate increases of up to 17% and stability increases of up to 19% with no per-task regressions, improves trajectory efficiency by up to 15% across all four backbones, and shows up to a 10x improvement in trajectory jerk robustness on a Robosuite Lift cross-simulator sweep. We further validate the framework on a real Agilex Piper arm with a pick-and-place task, confirming that PhysVLA transfers to physical hardware without retraining, with success-rate improvements of up to 50%, establishing physical awareness as a composable, backbone-agnostic runtime module.


翻译:视觉-语言-动作(Vision-Language-Action, VLA)模型能够将视觉输入与自然语言指令直接映射为机器人控制策略。然而,由于这些模型主要基于行为示范数据进行训练,它们并未显式遵循刚体动力学或接触约束等基本物理原理。这暴露了一个关键物理鸿沟:在单步或分块VLA模型上施加的常规时间平滑处理,虽能改善轨迹质量,却会引入短期记忆无法解决的额外故障。为填补这一鸿沟,我们提出PhysVLA(Physics-VLA),一种即插即用的推理阶段框架,可在无需重新训练、微调或访问权重的条件下封装任意冻结的VLA主干模型,且每控制步骤的开销低于1毫秒。PhysVLA通过拦截预测的控制动作,仅捕获模拟器或系统状态,并施加双层校正:(i)阶段感知有限状态机,用于结构化离散任务片段(接近、抓取、运输与放置);(ii)选择性欧拉-拉格朗日门控机制,仅当动力学预言器检测到运动学-动力学不一致时激活。在LIBERO-Spatial环境下,基于7自由度Franka Panda机械臂,对OpenVLA、OpenVLA-OFT、Force-VLA及Generalist-VLA四类模型进行评测,该框架的绝对成功率达17%的提升,稳定性提升达19%,且无任务退步现象;在所有四个主干模型上,轨迹效率提升最高达15%;在Robosuite Lift跨模拟器扫参实验中,轨迹急动度鲁棒性提升达10倍。我们进一步在真实Agilex Piper机械臂上验证了该框架的拾放任务性能,证实PhysVLA可在无重训练条件下迁移至物理硬件,成功率达50%的提升,从而将物理感知建立为一种可组合、主干无关的运行时模块。

0
下载
关闭预览

相关内容

面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
26+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
21+阅读 · 2025年8月29日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
懂一点物理的人工智能
PaperWeekly
14+阅读 · 2019年12月5日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员