Video generative models are increasingly used as world models for robotics, where a model generates a future visual rollout conditioned on the current observation and task instruction, and an inverse dynamics model (IDM) converts the generated frames into executable robot actions. However, current video world models lack explicit executability constraints. As a result, visually coherent rollouts may still violate rigid-body and kinematic consistency, producing unstable or infeasible control commands when decoded by an IDM. We refer to this mismatch between visual generation and physically executable control as the executability gap. While this gap can be mitigated at inference time using techniques such as rejection sampling, such approaches are inefficient due to the high cost of video generation. In this paper, we leverage the executability gap as a training signal and introduce Executable Video Alignment (EVA), a reinforcement-learning post-training framework for aligning video world models. EVA trains an inverse dynamics model on real robot trajectories and repurposes it as a reward model that evaluates generated videos through the action sequences they induce, encouraging smooth motions measured by velocity, acceleration, and jerk while penalizing actions that violate embodiment constraints. Importantly, the reward remains informative even when generated videos contain severe visual artifacts, since such artifacts typically translate into unstable or out-of-bound actions. Experiments on the RoboTwin benchmark and a real bimanual robot show that EVA reduces embodiment-specific artifacts in generated rollouts and improves downstream task execution success.


翻译:视频生成模型越来越多地被用作机器人领域的世界模型。在此类模型中,模型根据当前观测和任务指令生成未来的视觉展开,而逆动力学模型(IDM)则将生成的帧转换为可执行的机器人动作。然而,当前的视频世界模型缺乏显式的可执行性约束。因此,视觉上连贯的展开仍可能违反刚体和运动学一致性,当由IDM解码时会产生不稳定或不可行的控制指令。我们将视觉生成与物理可执行控制之间的这种不匹配称为可执行性鸿沟。虽然这种鸿沟可以在推理阶段通过拒绝采样等技术缓解,但由于视频生成的高昂成本,此类方法效率低下。本文利用可执行性鸿沟作为训练信号,提出了一种强化学习后训练框架——可执行视频对齐(EVA),用于对齐视频世界模型。EVA在真实机器人轨迹上训练逆动力学模型,并将其作为奖励模型,通过生成的视频所诱导的动作序列对其进行评估,鼓励以速度、加速度和冲击度衡量的平滑运动,同时惩罚违反具身约束的动作。重要的是,即使生成的视频包含严重的视觉伪影,该奖励仍能提供有效信息,因为此类伪影通常会转化为不稳定或超出边界的动作。在RoboTwin基准测试和真实双臂机器人上的实验表明,EVA减少了生成展开中具身相关的伪影,并提高了下游任务执行的成功率。

0
下载
关闭预览

相关内容

世界动作模型: 具身AI的下一个前沿
专知会员服务
22+阅读 · 5月13日
《用人工智能模拟视觉世界:路线图》
专知会员服务
20+阅读 · 2025年11月12日
机器人操作扩散模型综述
专知会员服务
21+阅读 · 2025年4月14日
【ETHZ博士论文】真实世界约束下的2D和3D生成模型
专知会员服务
25+阅读 · 2024年9月2日
《基础模型在现实世界机器人应用》综述
专知会员服务
56+阅读 · 2024年2月11日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Arxiv
0+阅读 · 3月30日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
世界动作模型: 具身AI的下一个前沿
专知会员服务
22+阅读 · 5月13日
《用人工智能模拟视觉世界:路线图》
专知会员服务
20+阅读 · 2025年11月12日
机器人操作扩散模型综述
专知会员服务
21+阅读 · 2025年4月14日
【ETHZ博士论文】真实世界约束下的2D和3D生成模型
专知会员服务
25+阅读 · 2024年9月2日
《基础模型在现实世界机器人应用》综述
专知会员服务
56+阅读 · 2024年2月11日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员