End-to-end autonomous driving has emerged as a promising paradigm integrating perception, decision-making, and control within a unified learning framework. Recently, Vision-Language Models (VLMs) have gained significant attention for their potential to enhance the robustness and generalization of end-to-end driving models in diverse and unseen scenarios. However, existing VLM-based approaches still face challenges, including suboptimal lane perception, language understanding biases, and difficulties in handling corner cases. To address these issues, we propose AppleVLM, an advanced perception and planning-enhanced VLM model for robust end-to-end driving. AppleVLM introduces a novel vision encoder and a planning strategy encoder to improve perception and decision-making. Firstly, the vision encoder fuses spatial-temporal information from multi-view images across multiple timesteps using a deformable transformer mechanism, enhancing robustness to camera variations and facilitating scalable deployment across different vehicle platforms. Secondly, unlike traditional VLM-based approaches, AppleVLM introduces a dedicated planning modality that encodes explicit Bird's-Eye-View spatial information, mitigating language biases in navigation instructions. Finally, a VLM decoder fine-tuned by a hierarchical Chain-of-Thought integrates vision, language, and planning features to output robust driving waypoints. We evaluate AppleVLM in closed-loop experiments on two CARLA benchmarks, achieving state-of-the-art driving performance. Furthermore, we deploy AppleVLM on an AGV platform and successfully showcase real-world end-to-end autonomous driving in complex outdoor environments.


翻译:端到端自动驾驶作为一种将感知、决策与控制集成于统一学习框架的范式,已展现出巨大潜力。近年来,视觉语言模型因其在多样化及未见场景中提升端到端驾驶模型鲁棒性与泛化能力的潜力而备受关注。然而,现有基于VLM的方法仍面临车道感知欠佳、语言理解偏差及处理极端案例困难等挑战。为解决这些问题,我们提出AppleVLM——一种融合先进感知与规划增强的VLM模型,用于实现鲁棒的端到端驾驶。AppleVLM引入了新型视觉编码器与规划策略编码器以改进感知与决策能力。首先,视觉编码器通过可变形Transformer机制融合多视角图像在多个时间步的时空信息,增强了对相机配置差异的鲁棒性,并促进了跨不同车辆平台的可扩展部署。其次,与传统基于VLM的方法不同,AppleVLM引入了专门的规划模态,对显式的鸟瞰图空间信息进行编码,从而缓解了导航指令中的语言偏差。最后,通过分层思维链微调的VLM解码器整合视觉、语言与规划特征,输出鲁棒的驾驶路径点。我们在两个CARLA基准测试中进行闭环实验评估,AppleVLM实现了最先进的驾驶性能。此外,我们将AppleVLM部署于自动导引车平台,成功在复杂户外环境中展示了实景端到端自动驾驶。

0
下载
关闭预览

相关内容

智驾地图市场研究报告(2025)
专知会员服务
13+阅读 · 2025年6月3日
2024年中国智慧交通发展趋势报告:自动驾驶篇
专知会员服务
27+阅读 · 2025年1月3日
端到端自动驾驶系统研究综述
专知会员服务
31+阅读 · 2024年11月29日
自动驾驶产业链的现状与发展趋势
专知会员服务
47+阅读 · 2022年11月20日
全球自动驾驶战略与政策观察,36页pdf
专知会员服务
58+阅读 · 2022年2月8日
专知会员服务
39+阅读 · 2021年9月7日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶仿真软件列表
智能交通技术
13+阅读 · 2019年5月9日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
【智能驾驶】97页PPT,读懂自动驾驶全产业链发展!
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
自动驾驶最新综述论文(31页PDF下载)
专知
119+阅读 · 2019年1月15日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关VIP内容
智驾地图市场研究报告(2025)
专知会员服务
13+阅读 · 2025年6月3日
2024年中国智慧交通发展趋势报告:自动驾驶篇
专知会员服务
27+阅读 · 2025年1月3日
端到端自动驾驶系统研究综述
专知会员服务
31+阅读 · 2024年11月29日
自动驾驶产业链的现状与发展趋势
专知会员服务
47+阅读 · 2022年11月20日
全球自动驾驶战略与政策观察,36页pdf
专知会员服务
58+阅读 · 2022年2月8日
专知会员服务
39+阅读 · 2021年9月7日
相关资讯
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶仿真软件列表
智能交通技术
13+阅读 · 2019年5月9日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
【智能驾驶】97页PPT,读懂自动驾驶全产业链发展!
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
自动驾驶最新综述论文(31页PDF下载)
专知
119+阅读 · 2019年1月15日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员