Wild-Drive: Off-Road Scene Captioning and Path Planning via Robust Multi-modal Routing and Efficient Large Language Model - 专知论文

会员服务 ·

0

场景描述 · 模态 · 路径 · 结构 · 结构化 ·

Wild-Drive: Off-Road Scene Captioning and Path Planning via Robust Multi-modal Routing and Efficient Large Language Model

翻译：Wild-Drive：基于鲁棒多模态路由与高效大语言模型的越野场景描述与路径规划

Zihang Wang,Xu Li,Benwu Wang,Wenkai Zhu,Xieyuanli Chen,Dong Kong,Kailin Lyu,Yinan Du,Yiming Peng,Haoyang Che

Explainability and transparent decision-making are essential for the safe deployment of autonomous driving systems. Scene captioning summarizes environmental conditions and risk factors in natural language, improving transparency, safety, and human--robot interaction. However, most existing approaches target structured urban scenarios; in off-road environments, they are vulnerable to single-modality degradations caused by rain, fog, snow, and darkness, and they lack a unified framework that jointly models structured scene captioning and path planning. To bridge this gap, we propose Wild-Drive, an efficient framework for off-road scene captioning and path planning. Wild-Drive adopts modern multimodal encoders and introduces a task-conditioned modality-routing bridge, MoRo-Former, to adaptively aggregate reliable information under degraded sensing. It then integrates an efficient large language model (LLM), together with a planning token and a gate recurrent unit (GRU) decoder, to generate structured captions and predict future trajectories. We also build the OR-C2P Benchmark, which covers structured off-road scene captioning and path planning under diverse sensor corruption conditions. Experiments on OR-C2P dataset and a self-collected dataset show that Wild-Drive outperforms prior LLM-based methods and remains more stable under degraded sensing. The code and benchmark will be publicly available at https://github.com/wangzihanggg/Wild-Drive.

翻译：可解释性与透明决策对于自动驾驶系统的安全部署至关重要。场景描述以自然语言总结环境条件与风险因素，从而提升透明度、安全性及人机交互能力。然而，现有方法大多针对结构化城市场景；在越野环境中，这些方法易受雨、雾、雪、黑暗等导致的单模态退化影响，且缺乏统一框架来联合建模结构化场景描述与路径规划。为填补这一空白，我们提出Wild-Drive——一种用于越野场景描述与路径规划的高效框架。Wild-Drive采用现代多模态编码器，并引入任务条件化的模态路由桥接模块MoRo-Former，以在感知退化条件下自适应聚合可靠信息。随后，该框架集成高效大语言模型（LLM），结合规划令牌与门控循环单元（GRU）解码器，生成结构化描述并预测未来轨迹。我们还构建了OR-C2P基准数据集，涵盖多种传感器退化条件下的结构化越野场景描述与路径规划任务。在OR-C2P数据集及自采集数据集上的实验表明，Wild-Drive优于现有基于LLM的方法，并在感知退化条件下保持更高稳定性。代码与基准数据集将通过https://github.com/wangzihanggg/Wild-Drive公开。

0

相关内容

场景描述

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

27+阅读 · 2025年11月17日

自动驾驶中的基础模型：场景生成与场景分析综述

自动驾驶中的基础模型：场景生成与场景分析综述

专知会员服务

28+阅读 · 2025年6月16日

智驾地图市场研究报告（2025）

智驾地图市场研究报告（2025）

专知会员服务

13+阅读 · 2025年6月3日

端到端自动驾驶系统研究综述

端到端自动驾驶系统研究综述

专知会员服务

31+阅读 · 2024年11月29日

万字长文 | 看看GPT-4V是怎么开车的，必须围观，大模型真的大有作为！！！

万字长文 | 看看GPT-4V是怎么开车的，必须围观，大模型真的大有作为！！！

专知会员服务

48+阅读 · 2023年11月21日

【博士论文】鲁棒深度学习自动驾驶，160页pdf

【博士论文】鲁棒深度学习自动驾驶，160页pdf

专知会员服务

40+阅读 · 2022年11月17日

【行业标准】基于车路协同的高等级自动驾驶数据交互内容，117页pdf

【行业标准】基于车路协同的高等级自动驾驶数据交互内容，117页pdf

专知会员服务

59+阅读 · 2022年3月16日

自动驾驶渐行渐近，卫惯导航大有可为

专知会员服务

39+阅读 · 2021年9月7日

最新「智能车联网」综述论文，170篇文献全面概述智能车联网（VANETs）技术

专知会员服务

26+阅读 · 2021年8月9日

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

专知会员服务

13+阅读 · 2019年12月18日

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

39+阅读 · 2023年4月11日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

【未来黑科技】深度玩转行人重识别与跨境追踪

【未来黑科技】深度玩转行人重识别与跨境追踪

炼数成金订阅号

11+阅读 · 2019年4月18日

车路协同应用场景分析

车路协同应用场景分析

智能交通技术

24+阅读 · 2019年4月13日

车路协同构建“通信+计算”新体系

车路协同构建“通信+计算”新体系

智能交通技术

11+阅读 · 2019年3月26日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

上汽乘用车：智能驾驶汽车传感器介绍及布置 | 厚势

上汽乘用车：智能驾驶汽车传感器介绍及布置 | 厚势

厚势

14+阅读 · 2018年1月19日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

融合线控转向功能的汽车鲁棒滑模转向及横摆稳定性控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于车载激光点云的城市道路三维精细重建

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下公路网突发事件预警与应急决策研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于实时路况的乘用车经济环保出行路径规划方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

一种新型的基于行人检测与行走方向识别的辅助驾驶安全系统的设计与开发

国家自然科学基金

0+阅读 · 2014年12月31日

Beyond Conservative Automated Driving in Multi-Agent Scenarios via Coupled Model Predictive Control and Deep Reinforcement Learning

Arxiv

0+阅读 · 4月15日

HorizonWeaver: Generalizable Multi-Level Semantic Editing for Driving Scenes

Arxiv

0+阅读 · 4月6日

INSIGHT: Enhancing Autonomous Driving Safety through Vision-Language Models on Context-Aware Hazard Detection and Edge Case Evaluation

Arxiv

0+阅读 · 3月27日

Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving

Arxiv

0+阅读 · 3月26日

LLM4AD: Large Language Models for Autonomous Driving -- Concept, Review, Benchmark, Experiments, and Future Trends

Arxiv

0+阅读 · 3月26日

Traffic Scene Generation from Natural Language Description for Autonomous Vehicles with Large Language Model

Arxiv

0+阅读 · 3月26日

DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding

Arxiv

0+阅读 · 3月19日

Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation

Arxiv

0+阅读 · 3月16日

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Arxiv

0+阅读 · 3月16日

DriveMind: A Dual Visual Language Model-based Reinforcement Learning Framework for Autonomous Driving

DriveMind: A Dual Visual Language Model-based Reinforcement Learning Framework for Autonomous Driving

Arxiv

0+阅读 · 3月13日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

2+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

4+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

27+阅读 · 2025年11月17日

自动驾驶中的基础模型：场景生成与场景分析综述

自动驾驶中的基础模型：场景生成与场景分析综述

专知会员服务

28+阅读 · 2025年6月16日

智驾地图市场研究报告（2025）

智驾地图市场研究报告（2025）

专知会员服务

13+阅读 · 2025年6月3日

端到端自动驾驶系统研究综述

端到端自动驾驶系统研究综述

专知会员服务

31+阅读 · 2024年11月29日

万字长文 | 看看GPT-4V是怎么开车的，必须围观，大模型真的大有作为！！！

万字长文 | 看看GPT-4V是怎么开车的，必须围观，大模型真的大有作为！！！

专知会员服务

48+阅读 · 2023年11月21日

【博士论文】鲁棒深度学习自动驾驶，160页pdf

【博士论文】鲁棒深度学习自动驾驶，160页pdf

专知会员服务

40+阅读 · 2022年11月17日

【行业标准】基于车路协同的高等级自动驾驶数据交互内容，117页pdf

【行业标准】基于车路协同的高等级自动驾驶数据交互内容，117页pdf

专知会员服务

59+阅读 · 2022年3月16日

自动驾驶渐行渐近，卫惯导航大有可为

专知会员服务

39+阅读 · 2021年9月7日

最新「智能车联网」综述论文，170篇文献全面概述智能车联网（VANETs）技术

专知会员服务

26+阅读 · 2021年8月9日

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

【Google&Waymo】自动驾驶感知的可扩展性:Waymo开放数据集，23位学者联名出品

专知会员服务

13+阅读 · 2019年12月18日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

39+阅读 · 2023年4月11日

自动驾驶技术解读——自动驾驶汽车决策控制系统

自动驾驶技术解读——自动驾驶汽车决策控制系统

智能交通技术

30+阅读 · 2019年7月7日

自动驾驶车辆定位技术概述｜厚势汽车

自动驾驶车辆定位技术概述｜厚势汽车

厚势

10+阅读 · 2019年5月16日

自动驾驶汽车技术路线简介

自动驾驶汽车技术路线简介

智能交通技术

15+阅读 · 2019年4月25日

【未来黑科技】深度玩转行人重识别与跨境追踪

【未来黑科技】深度玩转行人重识别与跨境追踪

炼数成金订阅号

11+阅读 · 2019年4月18日

车路协同应用场景分析

车路协同应用场景分析

智能交通技术

24+阅读 · 2019年4月13日

车路协同构建“通信+计算”新体系

车路协同构建“通信+计算”新体系

智能交通技术

11+阅读 · 2019年3月26日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

基于计算机视觉的自动驾驶算法研究综述 | 厚势

基于计算机视觉的自动驾驶算法研究综述 | 厚势

厚势

10+阅读 · 2018年2月8日

上汽乘用车：智能驾驶汽车传感器介绍及布置 | 厚势

上汽乘用车：智能驾驶汽车传感器介绍及布置 | 厚势

厚势

14+阅读 · 2018年1月19日

相关论文

Beyond Conservative Automated Driving in Multi-Agent Scenarios via Coupled Model Predictive Control and Deep Reinforcement Learning

Arxiv

0+阅读 · 4月15日

HorizonWeaver: Generalizable Multi-Level Semantic Editing for Driving Scenes

Arxiv

0+阅读 · 4月6日

INSIGHT: Enhancing Autonomous Driving Safety through Vision-Language Models on Context-Aware Hazard Detection and Edge Case Evaluation

Arxiv

0+阅读 · 3月27日

Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving

Arxiv

0+阅读 · 3月26日

LLM4AD: Large Language Models for Autonomous Driving -- Concept, Review, Benchmark, Experiments, and Future Trends

Arxiv

0+阅读 · 3月26日

Traffic Scene Generation from Natural Language Description for Autonomous Vehicles with Large Language Model

Arxiv

0+阅读 · 3月26日

DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding

Arxiv

0+阅读 · 3月19日

Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation

Arxiv

0+阅读 · 3月16日

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Arxiv

0+阅读 · 3月16日

DriveMind: A Dual Visual Language Model-based Reinforcement Learning Framework for Autonomous Driving

DriveMind: A Dual Visual Language Model-based Reinforcement Learning Framework for Autonomous Driving

Arxiv

0+阅读 · 3月13日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

融合线控转向功能的汽车鲁棒滑模转向及横摆稳定性控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于车载激光点云的城市道路三维精细重建

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下公路网突发事件预警与应急决策研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于实时路况的乘用车经济环保出行路径规划方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于排队模型的动态车辆路径问题实时优化策略及算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

混入自动驾驶汽车的高速公路交通流微观建模与仿真方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

一种新型的基于行人检测与行走方向识别的辅助驾驶安全系统的设计与开发

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员