AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation - 专知论文

会员服务 ·

0

清华大学智能产业研究院 · 操作 · 系统 · 机械臂 · 时域 ·

AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation

翻译：AIR-VLA：面向空中操作的视觉-语言-动作系统

Jianli Sun,Bin Tian,Qiyao Zhang,Chengxiang Li,Zihan Song,Zhiyong Cui,Yisheng Lv,Yonglin Tian

While Vision-Language-Action (VLA) models have achieved remarkable success in ground-based embodied intelligence, their application to Aerial Manipulation Systems (AMS) remains a largely unexplored frontier. The inherent characteristics of AMS, including floating-base dynamics, strong coupling between the UAV and the manipulator, and the multi-step, long-horizon nature of operational tasks, pose severe challenges to existing VLA paradigms designed for static or 2D mobile bases. To bridge this gap, we propose AIR-VLA, the first VLA benchmark specifically tailored for aerial manipulation. We construct a physics-based simulation environment and release a high-quality multimodal dataset comprising 3000 manually teleoperated demonstrations, covering base manipulation, object & spatial understanding, semantic reasoning, and long-horizon planning. Leveraging this platform, we systematically evaluate mainstream VLA models and state-of-the-art VLM models. Our experiments not only validate the feasibility of transferring VLA paradigms to aerial systems but also, through multi-dimensional metrics tailored to aerial tasks, reveal the capabilities and boundaries of current models regarding UAV mobility, manipulator control, and high-level planning. AIR-VLA establishes a standardized testbed and data foundation for future research in general-purpose aerial robotics. The resource of AIR-VLA will be available at https://anonymous.4open.science/r/AIR-VLA-dataset-B5CC/.

翻译：尽管视觉-语言-动作（VLA）模型在地面具身智能领域已取得显著成功，但其在空中操作系统（AMS）中的应用仍是一个尚未充分探索的前沿领域。AMS固有的特性——包括浮动基座动力学、无人机与机械臂之间的强耦合性，以及操作任务的多步骤、长时域特性——对现有针对静态或二维移动基座设计的VLA范式构成了严峻挑战。为弥合这一差距，我们提出了AIR-VLA，这是首个专门为空中操作定制的VLA基准。我们构建了一个基于物理的仿真环境，并发布了一个包含3000条人工遥操作演示的高质量多模态数据集，涵盖基座操控、物体与空间理解、语义推理及长时域规划。利用该平台，我们系统评估了主流VLA模型与前沿视觉语言模型（VLM）。实验不仅验证了将VLA范式迁移至空中系统的可行性，还通过针对空中任务定制的多维度量指标，揭示了当前模型在无人机机动性、机械臂控制及高层规划方面的能力与局限。AIR-VLA为通用空中机器人技术的未来研究建立了标准化测试平台与数据基础。AIR-VLA的相关资源将在 https://anonymous.4open.science/r/AIR-VLA-dataset-B5CC/ 公开。

0

相关内容

清华大学智能产业研究院

清华大学智能产业研究院

清华大学智能产业研究院（AIR）招聘深度强化方向的本科/硕士/博士实习生，主要研究方向侧重前沿 offline RL/multi-agent RL 算法研究及转化落地。团队同时注重与行业头部企业密切协作，赋能相应产业，实现高水平的产学研转化。

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

专知会员服务

17+阅读 · 2025年12月17日

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

26+阅读 · 2025年10月22日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

21+阅读 · 2025年8月29日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

《轻于空气的飞行器（LTA）：“航空站 ”无人机系统载具概念》

《轻于空气的飞行器（LTA）：“航空站 ”无人机系统载具概念》

专知会员服务

22+阅读 · 2024年11月30日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

【美海军系统工程顶点报告】《美国海军陆战队垂直起降飞机：人机协作控制无人驾驶航空系统》美海军2022最新146页论文

【美海军系统工程顶点报告】《美国海军陆战队垂直起降飞机：人机协作控制无人驾驶航空系统》美海军2022最新146页论文

专知会员服务

120+阅读 · 2022年10月7日

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

39+阅读 · 2022年10月30日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

美国最新《无人机系统:当前和潜在的项目》报告

美国最新《无人机系统:当前和潜在的项目》报告

专知

51+阅读 · 2022年8月14日

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

专知

50+阅读 · 2022年8月11日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

110+阅读 · 2022年4月28日

AI如何促进态势感知？2022美国空军AFRL等「态势感知」万字综述论文，24也pdf阐述智能战场态势感知技术、挑战和前景

AI如何促进态势感知？2022美国空军AFRL等「态势感知」万字综述论文，24也pdf阐述智能战场态势感知技术、挑战和前景

专知

132+阅读 · 2022年3月19日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

27+阅读 · 2018年12月14日

无人机飞行控制方法概述

无人机飞行控制方法概述

无人机

12+阅读 · 2017年10月7日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

动态重构综合模块化航空电子系统适航安全性评估方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于自动导航的旋翼式微小型无人机农作物遥感信息解析方法

国家自然科学基金

4+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

多旋翼空中操作机器人的一体化设计及动态运动规划

国家自然科学基金

1+阅读 · 2015年12月31日

带机械手的旋翼飞行机器人的稳定飞行控制

国家自然科学基金

6+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

CRAFT: Adapting VLA Models to Contact-rich Manipulation via Force-aware Curriculum Fine-tuning

Arxiv

0+阅读 · 2月13日

BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation

Arxiv

0+阅读 · 2月11日

ST4VLA: Spatially Guided Training for Vision-Language-Action Models

Arxiv

0+阅读 · 2月10日

BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation

Arxiv

0+阅读 · 2月10日

Aerial Manipulation with Contact-Aware Onboard Perception and Hybrid Control

Arxiv

0+阅读 · 2月9日

TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

Arxiv

0+阅读 · 2月2日

TaF-VLA: Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation

Arxiv

0+阅读 · 1月30日

DroneVLA: VLA based Aerial Manipulation

Arxiv

0+阅读 · 1月20日

AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

Arxiv

0+阅读 · 1月19日

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

清华大学智能产业研究院

最新内容

【剑桥博士论文】智能体-环境协同优化

【剑桥博士论文】智能体-环境协同优化

专知会员服务

3+阅读 · 今天14:33

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

专知会员服务

2+阅读 · 今天14:32

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

专知会员服务

9+阅读 · 今天7:05

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

专知会员服务

6+阅读 · 今天6:51

为初级军官战术训练设计生成式人工智能平台

为初级军官战术训练设计生成式人工智能平台

专知会员服务

5+阅读 · 今天6:43

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

专知会员服务

4+阅读 · 今天6:40

《美军条令：作战伤员后送保障》

《美军条令：作战伤员后送保障》

专知会员服务

4+阅读 · 今天6:38

《美空军条令出版物 4-0，维持》

《美空军条令出版物 4-0，维持》

专知会员服务

4+阅读 · 今天6:32

《通过自然语言与强化学习奖励机制将军事条令与目标融入AI智能体》

《通过自然语言与强化学习奖励机制将军事条令与目标融入AI智能体》

专知会员服务

9+阅读 · 今天6:30

《基于DIJKSTRA最短路径算法在AFSIM框架中实现高效动态威胁规避路径规划》

《基于DIJKSTRA最短路径算法在AFSIM框架中实现高效动态威胁规避路径规划》

专知会员服务

3+阅读 · 今天6:25

《修正错误与改进设计：运用数据耕耘支持基于智能体的军事仿真模型验证与确认》

《修正错误与改进设计：运用数据耕耘支持基于智能体的军事仿真模型验证与确认》

专知会员服务

4+阅读 · 今天6:24

《基于仿真的空军任务规划优化》

《基于仿真的空军任务规划优化》

专知会员服务

4+阅读 · 今天6:21

《基于离散事件仿真的航空母舰舰载机出动架次生成分析》

《基于离散事件仿真的航空母舰舰载机出动架次生成分析》

专知会员服务

3+阅读 · 今天6:17

《基于语义分割与深度强化学习的战场环境战术路径规划》

《基于语义分割与深度强化学习的战场环境战术路径规划》

专知会员服务

5+阅读 · 今天6:14

ICML 2026 Oral｜大模型为何难被提示纠正？内部先验限制标注适应性

ICML 2026 Oral｜大模型为何难被提示纠正？内部先验限制标注适应性

专知会员服务

4+阅读 · 6月8日

相关VIP内容

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

视觉-语言-动作模型解析：从模块构成到里程碑与挑战

专知会员服务

17+阅读 · 2025年12月17日

面向具身操作的高效视觉–语言–动作模型：系统综述

面向具身操作的高效视觉–语言–动作模型：系统综述

专知会员服务

26+阅读 · 2025年10月22日

视觉-语言-动作（VLA）模型的前世今生

视觉-语言-动作（VLA）模型的前世今生

专知会员服务

21+阅读 · 2025年8月29日

面向具身操作的视觉-语言-动作模型综述

面向具身操作的视觉-语言-动作模型综述

专知会员服务

28+阅读 · 2025年8月23日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

41+阅读 · 2025年3月9日

《轻于空气的飞行器（LTA）：“航空站 ”无人机系统载具概念》

《轻于空气的飞行器（LTA）：“航空站 ”无人机系统载具概念》

专知会员服务

22+阅读 · 2024年11月30日

VILA-U：一个融合视觉理解与生成的统一基础模型

VILA-U：一个融合视觉理解与生成的统一基础模型

专知会员服务

21+阅读 · 2024年9月9日

【美海军系统工程顶点报告】《美国海军陆战队垂直起降飞机：人机协作控制无人驾驶航空系统》美海军2022最新146页论文

【美海军系统工程顶点报告】《美国海军陆战队垂直起降飞机：人机协作控制无人驾驶航空系统》美海军2022最新146页论文

专知会员服务

120+阅读 · 2022年10月7日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

【剑桥博士论文】智能体-环境协同优化

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

相关资讯

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

《使用机器学习智能体设计基于模拟的空战飞行员训练系统》2022瑞典林雪平大学页论文

专知

39+阅读 · 2022年10月30日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

美国最新《无人机系统:当前和潜在的项目》报告

美国最新《无人机系统:当前和潜在的项目》报告

专知

51+阅读 · 2022年8月14日

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

专知

50+阅读 · 2022年8月11日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

110+阅读 · 2022年4月28日

AI如何促进态势感知？2022美国空军AFRL等「态势感知」万字综述论文，24也pdf阐述智能战场态势感知技术、挑战和前景

AI如何促进态势感知？2022美国空军AFRL等「态势感知」万字综述论文，24也pdf阐述智能战场态势感知技术、挑战和前景

专知

132+阅读 · 2022年3月19日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

27+阅读 · 2018年12月14日

无人机飞行控制方法概述

无人机飞行控制方法概述

无人机

12+阅读 · 2017年10月7日

相关论文

CRAFT: Adapting VLA Models to Contact-rich Manipulation via Force-aware Curriculum Fine-tuning

Arxiv

0+阅读 · 2月13日

BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation

Arxiv

0+阅读 · 2月11日

ST4VLA: Spatially Guided Training for Vision-Language-Action Models

Arxiv

0+阅读 · 2月10日

BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation

Arxiv

0+阅读 · 2月10日

Aerial Manipulation with Contact-Aware Onboard Perception and Hybrid Control

Arxiv

0+阅读 · 2月9日

TIC-VLA: A Think-in-Control Vision-Language-Action Model for Robot Navigation in Dynamic Environments

Arxiv

0+阅读 · 2月2日

TaF-VLA: Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation

Arxiv

0+阅读 · 1月30日

DroneVLA: VLA based Aerial Manipulation

Arxiv

0+阅读 · 1月20日

AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

Arxiv

0+阅读 · 1月19日

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

Arxiv

0+阅读 · 1月16日

相关基金

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

动态重构综合模块化航空电子系统适航安全性评估方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于自动导航的旋翼式微小型无人机农作物遥感信息解析方法

国家自然科学基金

4+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

多旋翼空中操作机器人的一体化设计及动态运动规划

国家自然科学基金

1+阅读 · 2015年12月31日

带机械手的旋翼飞行机器人的稳定飞行控制

国家自然科学基金

6+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员