A Vision-Language-Action Model with Visual Prompt for OFF-Road Autonomous Driving - 专知论文

会员服务 ·

0

视觉提示 · 自动驾驶 · 轨迹规划 · 动态环境 · 端到端 ·

A Vision-Language-Action Model with Visual Prompt for OFF-Road Autonomous Driving

翻译：基于视觉提示的视觉-语言-动作模型用于越野自动驾驶

Liangdong Zhang,Yiming Nie,Haoyang Li,Fanjie Kong,Baobao Zhang,Shunxin Huang,Kai Fu,Chen Min,Liang Xiao

Efficient trajectory planning in off-road terrains presents a formidable challenge for autonomous vehicles, often necessitating complex multi-step pipelines. However, traditional approaches exhibit limited adaptability in dynamic environments. To address these limitations, this paper proposes OFF-EMMA, a novel end-to-end multimodal framework designed to overcome the deficiencies of insufficient spatial perception and unstable reasoning in visual-language-action (VLA) models for off-road autonomous driving scenarios. The framework explicitly annotates input images through the design of a visual prompt block and introduces a chain-of-thought with self-consistency (COT-SC) reasoning strategy to enhance the accuracy and robustness of trajectory planning. The visual prompt block utilizes semantic segmentation masks as visual prompts, enhancing the spatial understanding ability of pre-trained visual-language models for complex terrains. The COT- SC strategy effectively mitigates the error impact of outliers on planning performance through a multi-path reasoning mechanism. Experimental results on the RELLIS-3D off-road dataset demonstrate that OFF-EMMA significantly outperforms existing methods, reducing the average L2 error of the Qwen backbone model by 13.3% and decreasing the failure rate from 16.52% to 6.56%.

翻译：越野地形中的高效轨迹规划对自动驾驶车辆提出了严峻挑战，通常需要复杂的多步骤流程。然而，传统方法在动态环境中的适应性有限。为应对这些局限性，本文提出了OFF-EMMA——一种新颖的端到端多模态框架，旨在克服越野自动驾驶场景中视觉-语言-动作模型存在的空间感知不足与推理不稳定的缺陷。该框架通过设计视觉提示块对输入图像进行显式标注，并引入具有自洽性的思维链推理策略，以提升轨迹规划的准确性与鲁棒性。视觉提示块利用语义分割掩码作为视觉提示，增强了预训练视觉-语言模型对复杂地形的空间理解能力。COT-SC策略通过多路径推理机制，有效降低了异常值对规划性能的误差影响。在RELLIS-3D越野数据集上的实验结果表明，OFF-EMMA显著优于现有方法，将Qwen骨干模型的平均L2误差降低了13.3%，并将失败率从16.52%降至6.56%。

0

相关内容

视觉提示

自动驾驶轨迹规划中的基础模型：进展综述与开放挑战

自动驾驶轨迹规划中的基础模型：进展综述与开放挑战

专知会员服务

14+阅读 · 2025年12月2日

自动驾驶中的轨迹预测大型基础模型：全面综述

自动驾驶中的轨迹预测大型基础模型：全面综述

专知会员服务

16+阅读 · 2025年9月18日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

大语言模型在多智能体自动驾驶系统中的应用：近期进展综述

大语言模型在多智能体自动驾驶系统中的应用：近期进展综述

专知会员服务

29+阅读 · 2025年2月25日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

47+阅读 · 2025年1月22日

【CVPR2024】基础模型在自动驾驶系统中的应用

【CVPR2024】基础模型在自动驾驶系统中的应用

专知会员服务

24+阅读 · 2024年8月13日

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

专知会员服务

51+阅读 · 2024年1月23日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

【ChatGPT系列报告】AI 大模型在自动驾驶中的应用

【ChatGPT系列报告】AI 大模型在自动驾驶中的应用

专知会员服务

90+阅读 · 2023年5月5日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

深度学习技术在自动驾驶中的应用

深度学习技术在自动驾驶中的应用

智能交通技术

26+阅读 · 2019年10月27日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

基于模型的系统工程——自动驾驶汽车（20180928更新）

基于模型的系统工程——自动驾驶汽车（20180928更新）

UMLChina

20+阅读 · 2018年9月28日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

融合认知和动力学特性的轮毂电机电动汽车轨迹规划方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

应用于自动驾驶车辆环境感知系统的去雾技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning

Arxiv

0+阅读 · 2月5日

A Unified Candidate Set with Scene-Adaptive Refinement via Diffusion for End-to-End Autonomous Driving

Arxiv

0+阅读 · 2月4日

Listen, Look, Drive: Coupling Audio Instructions for User-aware VLA-based Autonomous Driving

Arxiv

0+阅读 · 1月28日

AutoDriDM: An Explainable Benchmark for Decision-Making of Vision-Language Models in Autonomous Driving

Arxiv

0+阅读 · 1月21日

Generative Scenario Rollouts for End-to-End Autonomous Driving

Arxiv

0+阅读 · 1月16日

DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving

Arxiv

0+阅读 · 1月13日

A Vision-Language-Action Model with Visual Prompt for OFF-Road Autonomous Driving

Arxiv

0+阅读 · 1月12日

LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Prediction

Arxiv

0+阅读 · 1月9日

Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future

Arxiv

0+阅读 · 1月4日

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

10+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

6+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

6+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

7+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

8+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

5+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

6+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

7+阅读 · 7月17日

相关VIP内容

自动驾驶轨迹规划中的基础模型：进展综述与开放挑战

自动驾驶轨迹规划中的基础模型：进展综述与开放挑战

专知会员服务

14+阅读 · 2025年12月2日

自动驾驶中的轨迹预测大型基础模型：全面综述

自动驾驶中的轨迹预测大型基础模型：全面综述

专知会员服务

16+阅读 · 2025年9月18日

视觉语言动作模型：概念、进展、应用与挑战

视觉语言动作模型：概念、进展、应用与挑战

专知会员服务

19+阅读 · 2025年5月18日

大语言模型在多智能体自动驾驶系统中的应用：近期进展综述

大语言模型在多智能体自动驾驶系统中的应用：近期进展综述

专知会员服务

29+阅读 · 2025年2月25日

自动驾驶的世界模型综述

自动驾驶的世界模型综述

专知会员服务

47+阅读 · 2025年1月22日

【CVPR2024】基础模型在自动驾驶系统中的应用

【CVPR2024】基础模型在自动驾驶系统中的应用

专知会员服务

24+阅读 · 2024年8月13日

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

大模型+自动驾驶？华为等最新《为自动驾驶打造视觉基础模型》综述，涵盖250篇文献详述其挑战、方法论和机遇

专知会员服务

51+阅读 · 2024年1月23日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

【ChatGPT系列报告】AI 大模型在自动驾驶中的应用

【ChatGPT系列报告】AI 大模型在自动驾驶中的应用

专知会员服务

90+阅读 · 2023年5月5日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

深度学习技术在自动驾驶中的应用

深度学习技术在自动驾驶中的应用

智能交通技术

26+阅读 · 2019年10月27日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

基于模型的系统工程——自动驾驶汽车（20180928更新）

基于模型的系统工程——自动驾驶汽车（20180928更新）

UMLChina

20+阅读 · 2018年9月28日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

相关论文

MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning

Arxiv

0+阅读 · 2月5日

A Unified Candidate Set with Scene-Adaptive Refinement via Diffusion for End-to-End Autonomous Driving

Arxiv

0+阅读 · 2月4日

Listen, Look, Drive: Coupling Audio Instructions for User-aware VLA-based Autonomous Driving

Arxiv

0+阅读 · 1月28日

AutoDriDM: An Explainable Benchmark for Decision-Making of Vision-Language Models in Autonomous Driving

Arxiv

0+阅读 · 1月21日

Generative Scenario Rollouts for End-to-End Autonomous Driving

Arxiv

0+阅读 · 1月16日

DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving

Arxiv

0+阅读 · 1月13日

A Vision-Language-Action Model with Visual Prompt for OFF-Road Autonomous Driving

Arxiv

0+阅读 · 1月12日

LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Prediction

Arxiv

0+阅读 · 1月9日

Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future

Arxiv

0+阅读 · 1月4日

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

Arxiv

0+阅读 · 2025年12月31日

相关基金

融合认知和动力学特性的轮毂电机电动汽车轨迹规划方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

应用于自动驾驶车辆环境感知系统的去雾技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

MRF模型的车载全景视觉位姿估计最优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

形状先验和数据驱动的高分辨遥感影像目标提取

国家自然科学基金

3+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员