A Survey on Vision-Language-Action Models for Embodied AI - 专知论文

会员服务 ·

0

具身人工智能 · 综述 · 人工智能 · 语言模型 · 新型 ·

A Survey on Vision-Language-Action Models for Embodied AI

翻译：视觉-语言-动作模型在具身人工智能中的研究综述

Yueen Ma,Zixing Song,Yuzheng Zhuang,Jianye Hao,Irwin King

from arxiv, Project page: https://github.com/yueen-ma/Awesome-VLA

Embodied AI is widely recognized as a cornerstone of artificial general intelligence because it involves controlling embodied agents to perform tasks in the physical world. Building on the success of large language models and vision-language models, a new category of multimodal models -- referred to as vision-language-action models (VLAs) -- has emerged to address language-conditioned robotic tasks in embodied AI by leveraging their distinct ability to generate actions. The recent proliferation of VLAs necessitates a comprehensive survey to capture the rapidly evolving landscape. To this end, we present the first survey on VLAs for embodied AI. This work provides a detailed taxonomy of VLAs, organized into three major lines of research. The first line focuses on individual components of VLAs. The second line is dedicated to developing VLA-based control policies adept at predicting low-level actions. The third line comprises high-level task planners capable of decomposing long-horizon tasks into a sequence of subtasks, thereby guiding VLAs to follow more general user instructions. Furthermore, we provide an extensive summary of relevant resources, including datasets, simulators, and benchmarks. Finally, we discuss the challenges facing VLAs and outline promising future directions in embodied AI. A curated repository associated with this survey is available at: https://github.com/yueen-ma/Awesome-VLA.

翻译：具身人工智能被广泛认为是实现通用人工智能的基石，因为它涉及控制具身体在物理世界中执行任务。基于大语言模型和视觉-语言模型取得的成功，一类新型多模态模型——即视觉-语言-动作模型——应运而生，旨在通过其生成动作的独特能力，解决具身人工智能中语言条件化的机器人任务。近期VLA模型的激增亟需一份全面的综述以把握这一快速发展的领域。为此，我们首次提出了针对具身人工智能中VLA模型的综述。本工作提供了VLA的详细分类体系，将其归纳为三个主要研究方向。第一条研究主线聚焦于VLA的各个组成部分。第二条主线致力于开发基于VLA的控制策略，该策略擅长预测低层动作。第三条主线则包含能够将长视野任务分解为一系列子任务的高层任务规划器，从而引导VLA遵循更通用的用户指令。此外，我们对相关资源进行了广泛总结，包括数据集、模拟器和基准测试。最后，我们讨论了VLA当前面临的挑战，并展望了具身人工智能领域未来有前景的发展方向。与本综述相关的精选资源库可在以下网址获取：https://github.com/yueen-ma/Awesome-VLA。

1

相关内容

具身人工智能

具身人工智能

具身智能中的语义生命周期：基于基础模型的获取、表征与存储

具身智能中的语义生命周期：基于基础模型的获取、表征与存储

专知会员服务

18+阅读 · 1月15日

具身智能中的世界模型：全面综述

具身智能中的世界模型：全面综述

专知会员服务

52+阅读 · 2025年10月21日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

大模型赋能的具身智能：决策与具身学习综述

大模型赋能的具身智能：决策与具身学习综述

专知会员服务

48+阅读 · 2025年8月16日

基于多模态大模型的具身智能体研究进展与展望

基于多模态大模型的具身智能体研究进展与展望

专知会员服务

27+阅读 · 2025年7月2日

数据驱动的具身学习探索

数据驱动的具身学习探索

专知会员服务

11+阅读 · 2025年2月26日

多模态大模型时代的全球首篇《具身智能》综述

多模态大模型时代的全球首篇《具身智能》综述

专知会员服务

77+阅读 · 2024年7月26日

《面向具身智能的视觉-语言-动作模型》综述

《面向具身智能的视觉-语言-动作模型》综述

专知会员服务

66+阅读 · 2024年5月24日

【NeurIPS2023】EmbodiedGPT：通过具体思维链的视觉-语言预训练

【NeurIPS2023】EmbodiedGPT：通过具体思维链的视觉-语言预训练

专知会员服务

32+阅读 · 2023年9月24日

「基于形态的具身智能研究」最新2023研究综述

「基于形态的具身智能研究」最新2023研究综述

专知会员服务

101+阅读 · 2023年4月9日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

论具身学习及其设计：基于具身认知的视角

论具身学习及其设计：基于具身认知的视角

MOOC

15+阅读 · 2019年2月18日

具身认知学习环境设计：特征、要素、应用及发展趋势

具身认知学习环境设计：特征、要素、应用及发展趋势

MOOC

10+阅读 · 2018年10月30日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization

Arxiv

0+阅读 · 2月13日

Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization

Arxiv

0+阅读 · 2月12日

Agentifying Agentic AI

Arxiv

0+阅读 · 2月10日

BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning

Arxiv

0+阅读 · 2月6日

Self-evolving Embodied AI

Arxiv

0+阅读 · 2月4日

Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement

Arxiv

0+阅读 · 2月3日

A Survey on Efficient Vision-Language-Action Models

Arxiv

0+阅读 · 2月2日

From Perception to Action: Spatial AI Agents and World Models

Arxiv

1+阅读 · 2月2日

Rethinking Video Generation Model for the Embodied World

Arxiv

0+阅读 · 1月21日

Agentic Artificial Intelligence (AI): Architectures, Taxonomies, and Evaluation of Large Language Model Agents

Arxiv

0+阅读 · 1月18日

VIP会员

文章信息

相关主题

具身人工智能

最新内容

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

专知会员服务

4+阅读 · 今天7:05

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

专知会员服务

2+阅读 · 今天6:51

为初级军官战术训练设计生成式人工智能平台

为初级军官战术训练设计生成式人工智能平台

专知会员服务

3+阅读 · 今天6:43

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

专知会员服务

2+阅读 · 今天6:40

《美军条令：作战伤员后送保障》

《美军条令：作战伤员后送保障》

专知会员服务

3+阅读 · 今天6:38

《美空军条令出版物 4-0，维持》

《美空军条令出版物 4-0，维持》

专知会员服务

2+阅读 · 今天6:32

《通过自然语言与强化学习奖励机制将军事条令与目标融入AI智能体》

《通过自然语言与强化学习奖励机制将军事条令与目标融入AI智能体》

专知会员服务

5+阅读 · 今天6:30

《基于DIJKSTRA最短路径算法在AFSIM框架中实现高效动态威胁规避路径规划》

《基于DIJKSTRA最短路径算法在AFSIM框架中实现高效动态威胁规避路径规划》

专知会员服务

2+阅读 · 今天6:25

《修正错误与改进设计：运用数据耕耘支持基于智能体的军事仿真模型验证与确认》

《修正错误与改进设计：运用数据耕耘支持基于智能体的军事仿真模型验证与确认》

专知会员服务

1+阅读 · 今天6:24

《基于仿真的空军任务规划优化》

《基于仿真的空军任务规划优化》

专知会员服务

2+阅读 · 今天6:21

《基于离散事件仿真的航空母舰舰载机出动架次生成分析》

《基于离散事件仿真的航空母舰舰载机出动架次生成分析》

专知会员服务

2+阅读 · 今天6:17

《基于语义分割与深度强化学习的战场环境战术路径规划》

《基于语义分割与深度强化学习的战场环境战术路径规划》

专知会员服务

4+阅读 · 今天6:14

ICML 2026 Oral｜大模型为何难被提示纠正？内部先验限制标注适应性

ICML 2026 Oral｜大模型为何难被提示纠正？内部先验限制标注适应性

专知会员服务

3+阅读 · 6月8日

CVPR 2026教程：统一多模态模型走向收敛之路

CVPR 2026教程：统一多模态模型走向收敛之路

专知会员服务

6+阅读 · 6月8日

《人工智能在网络防御中的机遇》

《人工智能在网络防御中的机遇》

专知会员服务

6+阅读 · 6月8日

相关VIP内容

具身智能中的语义生命周期：基于基础模型的获取、表征与存储

具身智能中的语义生命周期：基于基础模型的获取、表征与存储

专知会员服务

18+阅读 · 1月15日

具身智能中的世界模型：全面综述

具身智能中的世界模型：全面综述

专知会员服务

52+阅读 · 2025年10月21日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

大模型赋能的具身智能：决策与具身学习综述

大模型赋能的具身智能：决策与具身学习综述

专知会员服务

48+阅读 · 2025年8月16日

基于多模态大模型的具身智能体研究进展与展望

基于多模态大模型的具身智能体研究进展与展望

专知会员服务

27+阅读 · 2025年7月2日

数据驱动的具身学习探索

数据驱动的具身学习探索

专知会员服务

11+阅读 · 2025年2月26日

多模态大模型时代的全球首篇《具身智能》综述

多模态大模型时代的全球首篇《具身智能》综述

专知会员服务

77+阅读 · 2024年7月26日

《面向具身智能的视觉-语言-动作模型》综述

《面向具身智能的视觉-语言-动作模型》综述

专知会员服务

66+阅读 · 2024年5月24日

【NeurIPS2023】EmbodiedGPT：通过具体思维链的视觉-语言预训练

【NeurIPS2023】EmbodiedGPT：通过具体思维链的视觉-语言预训练

专知会员服务

32+阅读 · 2023年9月24日

「基于形态的具身智能研究」最新2023研究综述

「基于形态的具身智能研究」最新2023研究综述

专知会员服务

101+阅读 · 2023年4月9日

热门VIP内容

开通专知VIP会员享更多权益服务

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

为初级军官战术训练设计生成式人工智能平台

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

论具身学习及其设计：基于具身认知的视角

论具身学习及其设计：基于具身认知的视角

MOOC

15+阅读 · 2019年2月18日

具身认知学习环境设计：特征、要素、应用及发展趋势

具身认知学习环境设计：特征、要素、应用及发展趋势

MOOC

10+阅读 · 2018年10月30日

相关论文

Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization

Arxiv

0+阅读 · 2月13日

Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization

Arxiv

0+阅读 · 2月12日

Agentifying Agentic AI

Arxiv

0+阅读 · 2月10日

BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning

Arxiv

0+阅读 · 2月6日

Self-evolving Embodied AI

Arxiv

0+阅读 · 2月4日

Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement

Arxiv

0+阅读 · 2月3日

A Survey on Efficient Vision-Language-Action Models

Arxiv

0+阅读 · 2月2日

From Perception to Action: Spatial AI Agents and World Models

Arxiv

1+阅读 · 2月2日

Rethinking Video Generation Model for the Embodied World

Arxiv

0+阅读 · 1月21日

Agentic Artificial Intelligence (AI): Architectures, Taxonomies, and Evaluation of Large Language Model Agents

Arxiv

0+阅读 · 1月18日

相关基金

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员