Embodied AI is widely recognized as a cornerstone of artificial general intelligence because it involves controlling embodied agents to perform tasks in the physical world. Building on the success of large language models and vision-language models, a new category of multimodal models -- referred to as vision-language-action models (VLAs) -- has emerged to address language-conditioned robotic tasks in embodied AI by leveraging their distinct ability to generate actions. The recent proliferation of VLAs necessitates a comprehensive survey to capture the rapidly evolving landscape. To this end, we present the first survey on VLAs for embodied AI. This work provides a detailed taxonomy of VLAs, organized into three major lines of research. The first line focuses on individual components of VLAs. The second line is dedicated to developing VLA-based control policies adept at predicting low-level actions. The third line comprises high-level task planners capable of decomposing long-horizon tasks into a sequence of subtasks, thereby guiding VLAs to follow more general user instructions. Furthermore, we provide an extensive summary of relevant resources, including datasets, simulators, and benchmarks. Finally, we discuss the challenges facing VLAs and outline promising future directions in embodied AI. A curated repository associated with this survey is available at: https://github.com/yueen-ma/Awesome-VLA.


翻译:具身人工智能被广泛认为是实现通用人工智能的基石,因为它涉及控制具身代理在物理世界中执行任务。基于大语言模型和视觉-语言模型的成功,一类新的多模态模型——即视觉-语言-动作模型——应运而生,它们通过利用自身生成动作的独特能力,以解决具身人工智能中语言条件化的机器人任务。近期VLA模型的激增亟需一份全面的综述来把握这一快速发展的领域。为此,我们首次提出了针对具身人工智能的VLA模型综述。本工作提供了VLA的详细分类法,将其归纳为三个主要研究方向。第一条研究路线聚焦于VLA的各个组成部分。第二条路线致力于开发基于VLA的控制策略,擅长预测低级动作。第三条路线则包含能够将长视野任务分解为一系列子任务的高级任务规划器,从而引导VLA遵循更通用的用户指令。此外,我们对相关资源进行了广泛总结,包括数据集、模拟器和基准测试。最后,我们讨论了VLA当前面临的挑战,并概述了具身人工智能领域未来有前景的发展方向。与本综述相关的精选资源库可在以下网址获取:https://github.com/yueen-ma/Awesome-VLA。

0
下载
关闭预览

相关内容

面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
具身智能中的世界模型:全面综述
专知会员服务
44+阅读 · 2025年10月21日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
大模型赋能的具身智能:决策与具身学习综述
专知会员服务
44+阅读 · 2025年8月16日
基于多模态大模型的具身智能体研究进展与展望
专知会员服务
25+阅读 · 2025年7月2日
数据驱动的具身学习探索
专知会员服务
10+阅读 · 2025年2月26日
多模态大模型时代的全球首篇《具身智能》综述
专知会员服务
76+阅读 · 2024年7月26日
《面向具身智能的视觉-语言-动作模型》综述
专知会员服务
66+阅读 · 2024年5月24日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月4日
VIP会员
相关VIP内容
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
具身智能中的世界模型:全面综述
专知会员服务
44+阅读 · 2025年10月21日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
大模型赋能的具身智能:决策与具身学习综述
专知会员服务
44+阅读 · 2025年8月16日
基于多模态大模型的具身智能体研究进展与展望
专知会员服务
25+阅读 · 2025年7月2日
数据驱动的具身学习探索
专知会员服务
10+阅读 · 2025年2月26日
多模态大模型时代的全球首篇《具身智能》综述
专知会员服务
76+阅读 · 2024年7月26日
《面向具身智能的视觉-语言-动作模型》综述
专知会员服务
66+阅读 · 2024年5月24日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员