DriveMind: A Dual Visual Language Model-based Reinforcement Learning Framework for Autonomous Driving - 专知论文

会员服务 ·

0

语言模型 · 对齐 · 自动驾驶 · 视觉语言模型 · 强化学习 ·

DriveMind: A Dual Visual Language Model-based Reinforcement Learning Framework for Autonomous Driving

翻译：DriveMind：一种基于双视觉语言模型的自动驾驶强化学习框架

Dawood Wasif,Terrence J. Moore,Chandan K. Reddy,Frederica Free-Nelson,Seunghyun Yoon,Hyuk Lim,Dan Dongseong Kim,Jin-Hee Cho

from arxiv, Submitted to IEEE Transactions on Intelligent Vehicles (T-IV)

End-to-end autonomous driving systems map sensor data directly to control commands, but remain opaque, lack interpretability, and offer no formal safety guarantees. While recent vision-language-guided reinforcement learning (RL) methods introduce semantic feedback, they often rely on static prompts and fixed objectives, limiting adaptability to dynamic driving scenes. We present DriveMind, a unified semantic reward framework that integrates: (i) a contrastive Vision-Language Model (VLM) encoder for stepwise semantic anchoring; (ii) a novelty-triggered VLM encoder-decoder, fine-tuned via chain-of-thought (CoT) distillation, for dynamic prompt generation upon semantic drift; (iii) a hierarchical safety module enforcing kinematic constraints (e.g., speed, lane centering, stability); and (iv) a compact predictive world model to reward alignment with anticipated ideal states. DriveMind achieves 19.4 +/- 2.3 km/h average speed, 0.98 +/- 0.03 route completion, and near-zero collisions in CARLA Town 2, outperforming baselines by over 4% in success rate. Its semantic reward generalizes zero-shot to real dash-cam data with minimal distributional shift, demonstrating robust cross-domain alignment and potential for real-world deployment.

翻译：端到端自动驾驶系统将传感器数据直接映射为控制指令，但其过程不透明、缺乏可解释性，且无法提供形式化的安全保障。尽管近期基于视觉语言引导的强化学习方法引入了语义反馈，但它们通常依赖静态提示和固定目标，限制了在动态驾驶场景中的适应性。我们提出了DriveMind，一个统一的语义奖励框架，其整合了：（i）用于逐步语义锚定的对比式视觉语言模型编码器；（ii）通过思维链蒸馏微调的新颖性触发式VLM编码器-解码器，用于在发生语义漂移时动态生成提示；（iii）强制执行运动学约束（如速度、车道居中、稳定性）的分层安全模块；以及（iv）用于奖励与预期理想状态对齐的紧凑预测世界模型。DriveMind在CARLA Town 2中实现了19.4 +/- 2.3 km/h的平均速度、0.98 +/- 0.03的路线完成率以及近乎零碰撞，其成功率比基线方法高出4%以上。该框架的语义奖励能够零样本泛化至真实行车记录仪数据，且分布偏移极小，展现了强大的跨领域对齐能力及实际部署潜力。

0

相关内容

语言模型

自动驾驶中的3D目标检测研究进展

自动驾驶中的3D目标检测研究进展

专知会员服务

11+阅读 · 2025年7月20日

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

专知会员服务

35+阅读 · 2024年1月28日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

【CMU博士论文】分布式强化学习自动驾驶，100页pdf

【CMU博士论文】分布式强化学习自动驾驶，100页pdf

专知会员服务

37+阅读 · 2023年4月17日

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

专知会员服务

59+阅读 · 2023年2月18日

重磅！40+位学者发布《知识增强机器学习在自动驾驶中的应用》,93页pdf885篇文献全面阐述自动驾驶知识表示、嵌入、提取和整合

重磅！40+位学者发布《知识增强机器学习在自动驾驶中的应用》,93页pdf885篇文献全面阐述自动驾驶知识表示、嵌入、提取和整合

专知会员服务

53+阅读 · 2022年5月12日

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

专知会员服务

34+阅读 · 2022年5月6日

强化学习的自动驾驶控制技术研究进展

专知会员服务

140+阅读 · 2021年2月17日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

深度学习技术在自动驾驶中的应用

深度学习技术在自动驾驶中的应用

智能交通技术

26+阅读 · 2019年10月27日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

无人驾驶仿真软件

无人驾驶仿真软件

智能交通技术

22+阅读 · 2019年5月9日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

中国自动化学会

15+阅读 · 2018年7月5日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

应用于自动驾驶车辆环境感知系统的去雾技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

一种新型的基于行人检测与行走方向识别的辅助驾驶安全系统的设计与开发

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving

AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving

Arxiv

0+阅读 · 3月18日

Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation

Arxiv

0+阅读 · 3月16日

FAR-Drive: Frame-AutoRegressive Video Generation in Closed-Loop Autonomous Driving

Arxiv

0+阅读 · 3月16日

PerlAD: Towards Enhanced Closed-loop End-to-end Autonomous Driving with Pseudo-simulation-based Reinforcement Learning

Arxiv

0+阅读 · 3月16日

\textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation

Arxiv

0+阅读 · 3月16日

AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving

Arxiv

0+阅读 · 3月16日

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Arxiv

0+阅读 · 3月16日

Wild-Drive: Off-Road Scene Captioning and Path Planning via Robust Multi-modal Routing and Efficient Large Language Model

Arxiv

0+阅读 · 2月28日

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Arxiv

0+阅读 · 2月26日

NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

视觉语言模型

最新内容

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

8+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

5+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

5+阅读 · 5月5日

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

专知会员服务

5+阅读 · 5月5日

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

专知会员服务

8+阅读 · 5月5日

《美空军条令出版物 2-0：情报（2026版）》

《美空军条令出版物 2-0：情报（2026版）》

专知会员服务

13+阅读 · 5月5日

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

专知会员服务

5+阅读 · 5月5日

帕兰提尔 Gotham：一个游戏规则改变器

帕兰提尔 Gotham：一个游戏规则改变器

专知会员服务

8+阅读 · 5月5日

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

3+阅读 · 5月5日

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

专知会员服务

3+阅读 · 5月5日

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

8+阅读 · 5月4日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

12+阅读 · 5月4日

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

9+阅读 · 5月4日

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

9+阅读 · 5月4日

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

7+阅读 · 5月4日

相关VIP内容

自动驾驶中的3D目标检测研究进展

自动驾驶中的3D目标检测研究进展

专知会员服务

11+阅读 · 2025年7月20日

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

专知会员服务

35+阅读 · 2024年1月28日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

【CMU博士论文】分布式强化学习自动驾驶，100页pdf

【CMU博士论文】分布式强化学习自动驾驶，100页pdf

专知会员服务

37+阅读 · 2023年4月17日

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

【CTH博士论文】基于强化学习的自动驾驶决策，149页pdf

专知会员服务

59+阅读 · 2023年2月18日

重磅！40+位学者发布《知识增强机器学习在自动驾驶中的应用》,93页pdf885篇文献全面阐述自动驾驶知识表示、嵌入、提取和整合

重磅！40+位学者发布《知识增强机器学习在自动驾驶中的应用》,93页pdf885篇文献全面阐述自动驾驶知识表示、嵌入、提取和整合

专知会员服务

53+阅读 · 2022年5月12日

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

强化学习与模仿学习的自动驾驶，CMU-Xinshuo Weng博士生，57页ppt

专知会员服务

34+阅读 · 2022年5月6日

强化学习的自动驾驶控制技术研究进展

专知会员服务

140+阅读 · 2021年2月17日

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

【华盛顿大学】用于视觉和语言导航的多视图学习，Multi-View Learning for Vision-and-Language Navigation

专知会员服务

31+阅读 · 2020年3月11日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

DeepSeek 版Claude Code，免费小白安装教程来了！

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

相关资讯

深度学习技术在自动驾驶中的应用

深度学习技术在自动驾驶中的应用

智能交通技术

26+阅读 · 2019年10月27日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

无人驾驶仿真软件

无人驾驶仿真软件

智能交通技术

22+阅读 · 2019年5月9日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

深度学习在自动驾驶感知领域的应用

深度学习在自动驾驶感知领域的应用

AI100

11+阅读 · 2019年3月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

【浅析】自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

中国自动化学会

15+阅读 · 2018年7月5日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving

AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving

Arxiv

0+阅读 · 3月18日

Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation

Arxiv

0+阅读 · 3月16日

FAR-Drive: Frame-AutoRegressive Video Generation in Closed-Loop Autonomous Driving

Arxiv

0+阅读 · 3月16日

PerlAD: Towards Enhanced Closed-loop End-to-end Autonomous Driving with Pseudo-simulation-based Reinforcement Learning

Arxiv

0+阅读 · 3月16日

\textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation

Arxiv

0+阅读 · 3月16日

AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving

Arxiv

0+阅读 · 3月16日

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Arxiv

0+阅读 · 3月16日

Wild-Drive: Off-Road Scene Captioning and Path Planning via Robust Multi-modal Routing and Efficient Large Language Model

Arxiv

0+阅读 · 2月28日

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Arxiv

0+阅读 · 2月26日

NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

Arxiv

0+阅读 · 2月24日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

应用于自动驾驶车辆环境感知系统的去雾技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

新视觉模型下非完整移动机器人同时镇定和跟踪控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

融入驾驶人感知的交通流建模方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

一种新型的基于行人检测与行走方向识别的辅助驾驶安全系统的设计与开发

国家自然科学基金

0+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员