AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation - 专知论文

会员服务 ·

0

操作 · 清华大学智能产业研究院 · 系统 · 机械臂 · 时域 ·

AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation

翻译：AIR-VLA：面向空中操作的视觉-语言-动作系统

Jianli Sun,Bin Tian,Qiyao Zhang,Chengxiang Li,Zihan Song,Zhiyong Cui,Yisheng Lv,Yonglin Tian

While Vision-Language-Action (VLA) models have achieved remarkable success in ground-based embodied intelligence, their application to Aerial Manipulation Systems (AMS) remains a largely unexplored frontier. The inherent characteristics of AMS, including floating-base dynamics, strong coupling between the UAV and the manipulator, and the multi-step, long-horizon nature of operational tasks, pose severe challenges to existing VLA paradigms designed for static or 2D mobile bases. To bridge this gap, we propose \textbf{AIR-VLA}, the first VLA benchmark specifically tailored for aerial manipulation. We construct a physics-based simulation environment and release a high-quality multimodal dataset comprising 3000 manually teleoperated demonstrations, covering base manipulation, object \& spatial understanding, semantic reasoning, and long-horizon planning. Leveraging this platform, we systematically evaluate mainstream VLA models and state-of-the-art VLM models. Our experiments not only validate the feasibility of transferring VLA paradigms to aerial systems but also, through multi-dimensional metrics tailored to aerial tasks, reveal the capabilities and boundaries of current models regarding UAV mobility, manipulator control, and high-level planning. \textbf{AIR-VLA} establishes a standardized testbed and data foundation for future research in general-purpose aerial robotics. The resource of AIR-VLA will be available at https://github.com/SpencerSon2001/AIR-VLA.

翻译：尽管视觉-语言-动作模型在基于地面的具身智能领域取得了显著成功，但其在空中操作系统中的应用仍是一个尚未充分探索的前沿领域。AMS固有的特性——包括浮基动力学、无人机与机械臂之间的强耦合性，以及操作任务的多步骤、长时域特性——对现有针对静态或二维移动基座设计的VLA范式构成了严峻挑战。为弥合这一差距，我们提出了首个专门为空中操作定制的VLA基准测试平台\textbf{AIR-VLA}。我们构建了基于物理的仿真环境，并发布了包含3000条人工遥操作演示的高质量多模态数据集，涵盖基座操控、物体与空间理解、语义推理及长时域规划。借助该平台，我们系统评估了主流VLA模型与最先进的VLM模型。实验不仅验证了将VLA范式迁移至空中系统的可行性，更通过针对空中任务定制的多维度指标，揭示了当前模型在无人机机动性、机械臂控制及高层规划方面的能力与局限。\textbf{AIR-VLA}为通用空中机器人的未来研究建立了标准化测试平台与数据基础。相关资源将通过https://github.com/SpencerSon2001/AIR-VLA公开。

0

相关内容

面向空中机器人的视觉语言导航：迈向大语言模型时代

面向空中机器人的视觉语言导航：迈向大语言模型时代

专知会员服务

15+阅读 · 4月11日

面向战斗模拟空间推理的大语言模型指挥官智能体框架

面向战斗模拟空间推理的大语言模型指挥官智能体框架

专知会员服务

22+阅读 · 3月18日

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

24+阅读 · 2025年10月22日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

20+阅读 · 2025年8月29日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

《轻于空气的飞行器（LTA）：“航空站 ”无人机系统载具概念》

《轻于空气的飞行器（LTA）：“航空站 ”无人机系统载具概念》

专知会员服务

22+阅读 · 2024年11月30日

【美海军系统工程顶点报告】《美国海军陆战队垂直起降飞机：人机协作控制无人驾驶航空系统》美海军2022最新146页论文

【美海军系统工程顶点报告】《美国海军陆战队垂直起降飞机：人机协作控制无人驾驶航空系统》美海军2022最新146页论文

专知会员服务

119+阅读 · 2022年10月7日

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

39+阅读 · 2022年10月30日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

美国最新《无人机系统:当前和潜在的项目》报告

美国最新《无人机系统:当前和潜在的项目》报告

专知

51+阅读 · 2022年8月14日

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

专知

49+阅读 · 2022年8月11日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

106+阅读 · 2022年4月28日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

27+阅读 · 2018年12月14日

智能无人作战系统的发展

智能无人作战系统的发展

科技导报

36+阅读 · 2018年6月29日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于自动导航的旋翼式微小型无人机农作物遥感信息解析方法

国家自然科学基金

4+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

多旋翼空中操作机器人的一体化设计及动态运动规划

国家自然科学基金

1+阅读 · 2015年12月31日

带机械手的旋翼飞行机器人的稳定飞行控制

国家自然科学基金

6+阅读 · 2015年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model

Arxiv

0+阅读 · 3月11日

Aerial Manipulation with Contact-Aware Onboard Perception and Hybrid Control

Arxiv

0+阅读 · 3月4日

PD-VLA: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding

Arxiv

0+阅读 · 2月25日

AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge

Arxiv

0+阅读 · 2月13日

AugVLA-3D: Depth-Driven Feature Augmentation for Vision-Language-Action Models

Arxiv

0+阅读 · 2月11日

BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation

Arxiv

0+阅读 · 2月11日

ST4VLA: Spatially Guided Training for Vision-Language-Action Models

Arxiv

0+阅读 · 2月10日

BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation

Arxiv

0+阅读 · 2月10日

TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

Arxiv

0+阅读 · 2月2日

TaF-VLA: Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

清华大学智能产业研究院

最新内容

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

1+阅读 · 今天14:48

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

1+阅读 · 今天14:38

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

7+阅读 · 今天8:46

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

5+阅读 · 今天7:41

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

3+阅读 · 今天7:22

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

8+阅读 · 今天6:04

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

10+阅读 · 今天5:37

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

8+阅读 · 今天5:35

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

3+阅读 · 今天5:24

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

3+阅读 · 今天5:18

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

3+阅读 · 今天3:25

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

专知会员服务

17+阅读 · 今天2:55

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

4+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

5+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

5+阅读 · 4月23日

相关VIP内容

面向空中机器人的视觉语言导航：迈向大语言模型时代

面向空中机器人的视觉语言导航：迈向大语言模型时代

专知会员服务

15+阅读 · 4月11日

面向战斗模拟空间推理的大语言模型指挥官智能体框架

面向战斗模拟空间推理的大语言模型指挥官智能体框架

专知会员服务

22+阅读 · 3月18日

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

24+阅读 · 2025年10月22日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

20+阅读 · 2025年8月29日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

《轻于空气的飞行器（LTA）：“航空站 ”无人机系统载具概念》

《轻于空气的飞行器（LTA）：“航空站 ”无人机系统载具概念》

专知会员服务

22+阅读 · 2024年11月30日

【美海军系统工程顶点报告】《美国海军陆战队垂直起降飞机：人机协作控制无人驾驶航空系统》美海军2022最新146页论文

【美海军系统工程顶点报告】《美国海军陆战队垂直起降飞机：人机协作控制无人驾驶航空系统》美海军2022最新146页论文

专知会员服务

119+阅读 · 2022年10月7日

热门VIP内容

开通专知VIP会员享更多权益服务

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

战场之外的较量：美伊冲突中的认知战与心理博弈

【NTU博士论文】3D人体动作生成

以色列军事技术对美国军力发展的持续性赋能

相关资讯

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

39+阅读 · 2022年10月30日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

美国最新《无人机系统:当前和潜在的项目》报告

美国最新《无人机系统:当前和潜在的项目》报告

专知

51+阅读 · 2022年8月14日

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

专知

49+阅读 · 2022年8月11日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

106+阅读 · 2022年4月28日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

27+阅读 · 2018年12月14日

智能无人作战系统的发展

智能无人作战系统的发展

科技导报

36+阅读 · 2018年6月29日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model

Arxiv

0+阅读 · 3月11日

Aerial Manipulation with Contact-Aware Onboard Perception and Hybrid Control

Arxiv

0+阅读 · 3月4日

PD-VLA: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding

Arxiv

0+阅读 · 2月25日

AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge

Arxiv

0+阅读 · 2月13日

AugVLA-3D: Depth-Driven Feature Augmentation for Vision-Language-Action Models

Arxiv

0+阅读 · 2月11日

BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation

Arxiv

0+阅读 · 2月11日

ST4VLA: Spatially Guided Training for Vision-Language-Action Models

Arxiv

0+阅读 · 2月10日

BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation

Arxiv

0+阅读 · 2月10日

TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

Arxiv

0+阅读 · 2月2日

TaF-VLA: Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation

Arxiv

0+阅读 · 1月30日

相关基金

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于自动导航的旋翼式微小型无人机农作物遥感信息解析方法

国家自然科学基金

4+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

多旋翼空中操作机器人的一体化设计及动态运动规划

国家自然科学基金

1+阅读 · 2015年12月31日

带机械手的旋翼飞行机器人的稳定飞行控制

国家自然科学基金

6+阅读 · 2015年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员