Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

Qiuyue Wang,Mingsheng Li,Jian Guan,Jinhui Ye,Sicheng Xie,Yitao Liu,Junhao Chen,Zhixuan Liang,Jie Zhang,Xintong Hu,Xuhong Huang,Pei Lin,Junyang Lin,Dayiheng Liu,Shuai Bai,Jingren Zhou,Jiazhao Zhang,Haoqi Yuan,Gengze Zhou,Hang Yin,Ye Wang,Yiyang Huang,Zixing Lei,Wujian Peng,Delin Chen,Yingming Zheng,Jingyang Fan,Xianwei Zhuang,Xin Zhou,Haoyang Li,Anzhe Chen,Tong Zhang,Xuejing Liu,Yuchong Sun,Ruizhe Chen,Zhaohai Li,Chenxu Lü,Zhibo Yang,Tao Yu,Xionghui Chen

from arxiv, 34 pages

Embodied intelligence is often studied through specialized models for individual tasks such as manipulation or navigation, resulting in fragmented capabilities and limited generalization across tasks, environments, and robot embodiments. In this work, we study whether heterogeneous embodied decision-making problems can be unified within a single vision-language-action model. We present Qwen-VLA, a unified embodied foundation model that extends Qwen's vision-language modeling stack from perception, understanding, and reasoning to continuous action and trajectory generation through a DiT-based action decoder. Qwen-VLA is trained with a large-scale joint pretraining recipe over diverse data sources, including robotics manipulation trajectories, human egocentric demonstrations, synthetic simulation data, vision-and-language navigation data, trajectory-centric supervision, and auxiliary vision-language data. To support multiple robot platforms, we introduce embodiment-aware prompt conditioning, where robot-specific textual descriptions specify the current embodiment and control convention. We further cast manipulation, navigation, and trajectory prediction into a unified action-and-trajectory prediction framework, enabling transferable visual grounding, spatial reasoning, and continuous action generation across robot morphologies, task families, and environments. Experiments on manipulation, navigation, and trajectory-centric benchmarks show consistent multi-task performance and out-of-distribution generalization under variations in scene layout, background, lighting, object configuration, and robot embodiment. Qwen-VLA-Instruct achieves 97.9% on LIBERO, 73.7% on Simpler-WidowX, 86.1%/87.2% on RoboTwin-Easy/Hard, 69.0% OSR on R2R, 59.6% SR on RxR, 76.9% average OOD success in real-world ALOHA experiments, and 26.6% zero-shot success on DOMINO dynamic manipulation.

翻译：具身智能通常通过针对操作或导航等单独任务的专用模型进行研究，导致能力碎片化，且跨任务、环境和机器人本体的泛化能力有限。在本工作中，我们研究异构具身决策问题是否可以被统一到一个单一的视觉-语言-动作模型中。我们提出Qwen-VLA，一个统一的具身基础模型，它通过基于DiT的动作解码器，将Qwen的视觉-语言建模栈从感知、理解和推理扩展到连续动作与轨迹生成。Qwen-VLA通过大规模联合预训练策略，使用多样化的数据源进行训练，包括机器人操作轨迹、人类第一人称演示、合成仿真数据、视觉-语言导航数据、轨迹中心监督以及辅助视觉-语言数据。为支持多种机器人平台，我们引入了具身感知提示条件，其中特定于机器人的文本描述指定了当前本体和控制惯例。我们进一步将操作、导航和轨迹预测融入一个统一的动作与轨迹预测框架，实现跨机器人形态、任务系列和环境的可迁移视觉定位、空间推理和连续动作生成。在操作、导航和轨迹中心基准上的实验表明，在场景布局、背景、光照、物体配置和机器人本体变化下，模型具有一致的多任务性能和分布外泛化能力。Qwen-VLA-Instruct在LIBERO上达到97.9%，在Simpler-WidowX上达到73.7%，在RoboTwin-Easy/Hard上达到86.1%/87.2%，在R2R上OSR为69.0%，在RxR上SR为59.6%，在真实世界ALOHA实验中OOD平均成功率为76.9%，在DOMINO动态操作中零样本成功率为26.6%。

相关内容

MoDELS

关注 46

ACM/IEEE第23届模型驱动工程语言和系统国际会议，是模型驱动软件和系统工程的首要会议系列，由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来，模型涵盖了建模的各个方面，从语言和方法到工具和应用程序。模特的参加者来自不同的背景，包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛，参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会，并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。官网链接：http://www.modelsconference.org/

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

14+阅读 · 4月29日

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

专知会员服务

17+阅读 · 2025年12月17日

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

26+阅读 · 2025年10月22日

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

21+阅读 · 2025年8月29日