World-VLA-Loop：视频世界模型与VLA策略的闭环学习 (World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy) - 专知论文

会员服务 ·

0

环 · 视频 · 世界模型 · 精度 · 交互 ·

World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy

翻译：World-VLA-Loop：视频世界模型与VLA策略的闭环学习

Xiaokang Liu,Zechen Bai,Hai Ci,Kevin Yuchen Ma,Mike Zheng Shou

from arxiv, 14 pages, 8 figures

Recent progress in robotic world models has leveraged video diffusion transformers to predict future observations conditioned on historical states and actions. While these models can simulate realistic visual outcomes, they often exhibit poor action-following precision, hindering their utility for downstream robotic learning. In this work, we introduce World-VLA-Loop, a closed-loop framework for the joint refinement of world models and Vision-Language-Action (VLA) policies. We propose a state-aware video world model that functions as a high-fidelity interactive simulator by jointly predicting future observations and reward signals. To enhance reliability, we introduce the SANS dataset, which incorporates near-success trajectories to improve action-outcome alignment within the world model. This framework enables a closed-loop for reinforcement learning (RL) post-training of VLA policies entirely within a virtual environment. Crucially, our approach facilitates a co-evolving cycle: failure rollouts generated by the VLA policy are iteratively fed back to refine the world model precision, which in turn enhances subsequent RL optimization. Evaluations across simulation and real-world tasks demonstrate that our framework significantly boosts VLA performance with minimal physical interaction, establishing a mutually beneficial relationship between world modeling and policy learning for general-purpose robotics. Project page: https://showlab.github.io/World-VLA-Loop/.

翻译：机器人世界模型的最新进展利用视频扩散Transformer，在历史状态和动作的条件下预测未来观测。尽管这些模型能够模拟逼真的视觉结果，但其动作跟随精度往往较差，从而阻碍了其在下游机器人学习中的应用。本研究提出了World-VLA-Loop，一个用于联合精炼世界模型与视觉-语言-动作（VLA）策略的闭环框架。我们提出了一种状态感知的视频世界模型，通过联合预测未来观测与奖励信号，充当高保真交互式模拟器。为提高可靠性，我们引入了SANS数据集，该数据集包含接近成功的轨迹，以改善世界模型内部的动作-结果对齐。该框架实现了VLA策略在完全虚拟环境中的强化学习（RL）后训练闭环。关键的是，我们的方法促成了一个协同演化的循环：VLA策略生成的失败轨迹被迭代反馈以提升世界模型的精度，进而增强后续的RL优化。在仿真与现实任务中的评估表明，我们的框架以最少的物理交互显著提升了VLA性能，为通用机器人建立了世界建模与策略学习之间互惠互利的关系。项目页面：https://showlab.github.io/World-VLA-Loop/。

0

相关内容

【NVDIA】世界动作模型是零样本策略

【NVDIA】世界动作模型是零样本策略

专知会员服务

10+阅读 · 2月21日

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

专知会员服务

17+阅读 · 2025年12月17日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

20+阅读 · 2025年8月29日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

29+阅读 · 2025年6月26日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

专知会员服务

102+阅读 · 2024年2月25日

Sora视频生成模型相关论文集合！《视频生成模型作为世界模拟器》中引用的所有论文集合

Sora视频生成模型相关论文集合！《视频生成模型作为世界模拟器》中引用的所有论文集合

专知会员服务

57+阅读 · 2024年2月20日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

ICCV 2019教程《面向计算机视觉的可解释机器学习》，附280页PPT下载

ICCV 2019教程《面向计算机视觉的可解释机器学习》，附280页PPT下载

专知

33+阅读 · 2019年11月1日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

机器之心

23+阅读 · 2019年4月13日

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

产业智能官

14+阅读 · 2019年2月5日

每日论文 | 用循环世界模型改良策略进化；轻量级CNN：ChannelNets；强化学习知识点总结

每日论文 | 用循环世界模型改良策略进化；轻量级CNN：ChannelNets；强化学习知识点总结

论智

14+阅读 · 2018年9月7日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

共融机器人战略规划研究和学术交流

国家自然科学基金

13+阅读 · 2016年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

混沌时间序列Volterra建模及其在语音信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

Arxiv

0+阅读 · 2月19日

WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL

Arxiv

0+阅读 · 2月15日

VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model

Arxiv

0+阅读 · 2月15日

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

Arxiv

0+阅读 · 2月12日

ContactGaussian-WM: Learning Physics-Grounded World Model from Videos

Arxiv

0+阅读 · 2月11日

Scaling World Model for Hierarchical Manipulation Policies

Arxiv

0+阅读 · 2月11日

Say, Dream, and Act: Learning Video World Models for Instruction-Driven Robot Manipulation

Arxiv

0+阅读 · 2月11日

VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

Arxiv

0+阅读 · 2月10日

Coupled Local and Global World Models for Efficient First Order RL

Arxiv

0+阅读 · 2月5日

MAIN-VLA: Modeling Abstraction of Intention and eNvironment for Vision-Language-Action Models

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

相关VIP内容

【NVDIA】世界动作模型是零样本策略

【NVDIA】世界动作模型是零样本策略

专知会员服务

10+阅读 · 2月21日

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

专知会员服务

17+阅读 · 2025年12月17日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

20+阅读 · 2025年8月29日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

29+阅读 · 2025年6月26日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

爆火Sora背后的技术，UC伯克利最新《扩散模型》课程视频，210页ppt

专知会员服务

102+阅读 · 2024年2月25日

Sora视频生成模型相关论文集合！《视频生成模型作为世界模拟器》中引用的所有论文集合

Sora视频生成模型相关论文集合！《视频生成模型作为世界模拟器》中引用的所有论文集合

专知会员服务

57+阅读 · 2024年2月20日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

ICCV 2019教程《面向计算机视觉的可解释机器学习》，附280页PPT下载

ICCV 2019教程《面向计算机视觉的可解释机器学习》，附280页PPT下载

专知

33+阅读 · 2019年11月1日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

机器之心

23+阅读 · 2019年4月13日

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

【强化学习】【元学习】强化学习存在基础性缺陷，研究重点也许要转变，人类的智慧正是强化学习和元学习的结合

产业智能官

14+阅读 · 2019年2月5日

每日论文 | 用循环世界模型改良策略进化；轻量级CNN：ChannelNets；强化学习知识点总结

每日论文 | 用循环世界模型改良策略进化；轻量级CNN：ChannelNets；强化学习知识点总结

论智

14+阅读 · 2018年9月7日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

相关论文

FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment

Arxiv

0+阅读 · 2月19日

WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL

Arxiv

0+阅读 · 2月15日

VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model

Arxiv

0+阅读 · 2月15日

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

Arxiv

0+阅读 · 2月12日

ContactGaussian-WM: Learning Physics-Grounded World Model from Videos

Arxiv

0+阅读 · 2月11日

Scaling World Model for Hierarchical Manipulation Policies

Arxiv

0+阅读 · 2月11日

Say, Dream, and Act: Learning Video World Models for Instruction-Driven Robot Manipulation

Arxiv

0+阅读 · 2月11日

VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

Arxiv

0+阅读 · 2月10日

Coupled Local and Global World Models for Efficient First Order RL

Arxiv

0+阅读 · 2月5日

MAIN-VLA: Modeling Abstraction of Intention and eNvironment for Vision-Language-Action Models

Arxiv

0+阅读 · 2月2日

相关基金

共融机器人战略规划研究和学术交流

国家自然科学基金

13+阅读 · 2016年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

混沌时间序列Volterra建模及其在语音信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

工业过程动态数据的多模型在线重构研究

国家自然科学基金

1+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员