ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving - 专知论文

会员服务 ·

0

潜在 · 分层 · 并行 · 潜在推理 · 模态 ·

2025 年 12 月 31 日

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

翻译：ColaVLA：利用认知潜在推理实现自动驾驶中的分层并行轨迹规划

Qihang Peng,Xuesong Chen,Chenye Yang,Shaoshuai Shi,Hongsheng Li

from arxiv, 11 pages, 4 figures. Project page: https://pqh22.github.io/projects/ColaVLA/index.html

Autonomous driving requires generating safe and reliable trajectories from complex multimodal inputs. Traditional modular pipelines separate perception, prediction, and planning, while recent end-to-end (E2E) systems learn them jointly. Vision-language models (VLMs) further enrich this paradigm by introducing cross-modal priors and commonsense reasoning, yet current VLM-based planners face three key challenges: (i) a mismatch between discrete text reasoning and continuous control, (ii) high latency from autoregressive chain-of-thought decoding, and (iii) inefficient or non-causal planners that limit real-time deployment. We propose ColaVLA, a unified vision-language-action framework that transfers reasoning from text to a unified latent space and couples it with a hierarchical, parallel trajectory decoder. The Cognitive Latent Reasoner compresses scene understanding into compact, decision-oriented meta-action embeddings through ego-adaptive selection and only two VLM forward passes. The Hierarchical Parallel Planner then generates multi-scale, causality-consistent trajectories in a single forward pass. Together, these components preserve the generalization and interpretability of VLMs while enabling efficient, accurate and safe trajectory generation. Experiments on the nuScenes benchmark show that ColaVLA achieves state-of-the-art performance in both open-loop and closed-loop settings with favorable efficiency and robustness.

翻译：自动驾驶需要从复杂的多模态输入中生成安全可靠的轨迹。传统的模块化流水线将感知、预测和规划分离，而最近的端到端（E2E）系统则联合学习这些任务。视觉语言模型（VLM）通过引入跨模态先验和常识推理进一步丰富了这一范式，然而当前基于VLM的规划器面临三个关键挑战：(i) 离散文本推理与连续控制之间的不匹配，(ii) 自回归思维链解码带来的高延迟，以及(iii) 低效或非因果的规划器限制了实时部署。我们提出了ColaVLA，一个统一的视觉-语言-行动框架，它将推理从文本转移到统一的潜在空间，并将其与一个分层、并行的轨迹解码器耦合。认知潜在推理器通过自适应的自我选择，仅需两次VLM前向传播，便将场景理解压缩为紧凑的、面向决策的元动作嵌入。随后，分层并行规划器在单次前向传播中生成多尺度、因果一致的轨迹。这些组件共同保留了VLM的泛化能力和可解释性，同时实现了高效、准确和安全的轨迹生成。在nuScenes基准测试上的实验表明，ColaVLA在开环和闭环设置下均实现了最先进的性能，并具有良好的效率和鲁棒性。

0

相关内容

自动驾驶轨迹规划中的基础模型：进展综述与开放挑战

自动驾驶轨迹规划中的基础模型：进展综述与开放挑战

专知会员服务

14+阅读 · 2025年12月2日

自动驾驶中的轨迹预测大型基础模型：全面综述

自动驾驶中的轨迹预测大型基础模型：全面综述

专知会员服务

16+阅读 · 2025年9月18日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

专知会员服务

14+阅读 · 2025年3月2日

端到端自动驾驶系统研究综述

端到端自动驾驶系统研究综述

专知会员服务

31+阅读 · 2024年11月29日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

【CMU博士论文】分布式强化学习自动驾驶，100页pdf

【CMU博士论文】分布式强化学习自动驾驶，100页pdf

专知会员服务

37+阅读 · 2023年4月17日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

维多利亚运输政策研究所“Autonomous Vehicle Implementation Predictions：Implications for Transport Planning”（自动驾驶汽车实施预测:对交通规划的影响）

维多利亚运输政策研究所“Autonomous Vehicle Implementation Predictions：Implications for Transport Planning”（自动驾驶汽车实施预测:对交通规划的影响）

专知会员服务

17+阅读 · 2022年2月16日

深度学习技术在自动驾驶中的应用

深度学习技术在自动驾驶中的应用

智能交通技术

26+阅读 · 2019年10月27日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

中国自动化学会

15+阅读 · 2018年7月5日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

融合认知和动力学特性的轮毂电机电动汽车轨迹规划方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于模型预测的AUV三维轨迹跟踪控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

利用复杂网络理論优化车载通信网络

国家自然科学基金

1+阅读 · 2014年12月31日

交通信息对驾驶员路径选择行为及交通流特性影响的研究

国家自然科学基金

0+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

AppleVLM: End-to-end Autonomous Driving with Advanced Perception and Planning-Enhanced Vision-Language Models

Arxiv

0+阅读 · 2月4日

Listen, Look, Drive: Coupling Audio Instructions for User-aware VLA-based Autonomous Driving

Arxiv

0+阅读 · 1月29日

AutoDriDM: An Explainable Benchmark for Decision-Making of Vision-Language Models in Autonomous Driving

Arxiv

0+阅读 · 1月21日

DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving

Arxiv

0+阅读 · 1月13日

SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving

Arxiv

0+阅读 · 1月12日

SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving

Arxiv

0+阅读 · 1月9日

LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Prediction

Arxiv

0+阅读 · 1月9日

Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future

Arxiv

0+阅读 · 1月4日

Spatial-aware Vision Language Model for Autonomous Driving

Arxiv

0+阅读 · 2025年12月30日

DriveLaW:Unifying Planning and Video Generation in a Latent Driving World

Arxiv

0+阅读 · 2025年12月29日

VIP会员

文章信息

相关主题

最新内容

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

3+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

4+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

4+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

4+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

4+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

5+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

5+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

4+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

4+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

9+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

8+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

6+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

8+阅读 · 6月24日

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

7+阅读 · 6月24日

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

6+阅读 · 6月24日

相关VIP内容

自动驾驶轨迹规划中的基础模型：进展综述与开放挑战

自动驾驶轨迹规划中的基础模型：进展综述与开放挑战

专知会员服务

14+阅读 · 2025年12月2日

自动驾驶中的轨迹预测大型基础模型：全面综述

自动驾驶中的轨迹预测大型基础模型：全面综述

专知会员服务

16+阅读 · 2025年9月18日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

专知会员服务

14+阅读 · 2025年3月2日

端到端自动驾驶系统研究综述

端到端自动驾驶系统研究综述

专知会员服务

31+阅读 · 2024年11月29日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

【CMU博士论文】分布式强化学习自动驾驶，100页pdf

【CMU博士论文】分布式强化学习自动驾驶，100页pdf

专知会员服务

37+阅读 · 2023年4月17日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

维多利亚运输政策研究所“Autonomous Vehicle Implementation Predictions：Implications for Transport Planning”（自动驾驶汽车实施预测:对交通规划的影响）

维多利亚运输政策研究所“Autonomous Vehicle Implementation Predictions：Implications for Transport Planning”（自动驾驶汽车实施预测:对交通规划的影响）

专知会员服务

17+阅读 · 2022年2月16日

热门VIP内容

开通专知VIP会员享更多权益服务

网状网络及其在军事领域的运用

无美国参与的欧洲战争方式（万字长文）

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

相关资讯

深度学习技术在自动驾驶中的应用

深度学习技术在自动驾驶中的应用

智能交通技术

26+阅读 · 2019年10月27日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

中国自动化学会

15+阅读 · 2018年7月5日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

AppleVLM: End-to-end Autonomous Driving with Advanced Perception and Planning-Enhanced Vision-Language Models

Arxiv

0+阅读 · 2月4日

Listen, Look, Drive: Coupling Audio Instructions for User-aware VLA-based Autonomous Driving

Arxiv

0+阅读 · 1月29日

AutoDriDM: An Explainable Benchmark for Decision-Making of Vision-Language Models in Autonomous Driving

Arxiv

0+阅读 · 1月21日

DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving

Arxiv

0+阅读 · 1月13日

SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving

Arxiv

0+阅读 · 1月12日

SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving

Arxiv

0+阅读 · 1月9日

LatentVLA: Efficient Vision-Language Models for Autonomous Driving via Latent Action Prediction

Arxiv

0+阅读 · 1月9日

Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future

Arxiv

0+阅读 · 1月4日

Spatial-aware Vision Language Model for Autonomous Driving

Arxiv

0+阅读 · 2025年12月30日

DriveLaW:Unifying Planning and Video Generation in a Latent Driving World

Arxiv

0+阅读 · 2025年12月29日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

融合认知和动力学特性的轮毂电机电动汽车轨迹规划方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于模型预测的AUV三维轨迹跟踪控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

利用复杂网络理論优化车载通信网络

国家自然科学基金

1+阅读 · 2014年12月31日

交通信息对驾驶员路径选择行为及交通流特性影响的研究

国家自然科学基金

0+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员