Explainability and transparent decision-making are essential for the safe deployment of autonomous driving systems. Scene captioning summarizes environmental conditions and risk factors in natural language, improving transparency, safety, and human--robot interaction. However, most existing approaches target structured urban scenarios; in off-road environments, they are vulnerable to single-modality degradations caused by rain, fog, snow, and darkness, and they lack a unified framework that jointly models structured scene captioning and path planning. To bridge this gap, we propose Wild-Drive, an efficient framework for off-road scene captioning and path planning. Wild-Drive adopts modern multimodal encoders and introduces a task-conditioned modality-routing bridge, MoRo-Former, to adaptively aggregate reliable information under degraded sensing. It then integrates an efficient large language model (LLM), together with a planning token and a gate recurrent unit (GRU) decoder, to generate structured captions and predict future trajectories. We also build the OR-C2P Benchmark, which covers structured off-road scene captioning and path planning under diverse sensor corruption conditions. Experiments on OR-C2P dataset and a self-collected dataset show that Wild-Drive outperforms prior LLM-based methods and remains more stable under degraded sensing. The code and benchmark will be publicly available at https://github.com/wangzihanggg/Wild-Drive.


翻译:可解释性与透明决策对于自动驾驶系统的安全部署至关重要。场景描述以自然语言总结环境条件与风险因素,从而提升透明度、安全性及人机交互能力。然而,现有方法大多针对结构化城市场景;在越野环境中,这些方法易受雨、雾、雪、黑暗等导致的单模态退化影响,且缺乏统一框架来联合建模结构化场景描述与路径规划。为填补这一空白,我们提出Wild-Drive——一种用于越野场景描述与路径规划的高效框架。Wild-Drive采用现代多模态编码器,并引入任务条件化的模态路由桥接模块MoRo-Former,以在感知退化条件下自适应聚合可靠信息。随后,该框架集成高效大语言模型(LLM),结合规划令牌与门控循环单元(GRU)解码器,生成结构化描述并预测未来轨迹。我们还构建了OR-C2P基准数据集,涵盖多种传感器退化条件下的结构化越野场景描述与路径规划任务。在OR-C2P数据集及自采集数据集上的实验表明,Wild-Drive优于现有基于LLM的方法,并在感知退化条件下保持更高稳定性。代码与基准数据集将通过https://github.com/wangzihanggg/Wild-Drive公开。

0
下载
关闭预览

相关内容

自动驾驶中的基础模型:场景生成与场景分析综述
专知会员服务
28+阅读 · 2025年6月16日
智驾地图市场研究报告(2025)
专知会员服务
13+阅读 · 2025年6月3日
端到端自动驾驶系统研究综述
专知会员服务
31+阅读 · 2024年11月29日
【博士论文】鲁棒深度学习自动驾驶,160页pdf
专知会员服务
40+阅读 · 2022年11月17日
专知会员服务
39+阅读 · 2021年9月7日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
【未来黑科技】深度玩转行人重识别与跨境追踪
炼数成金订阅号
11+阅读 · 2019年4月18日
车路协同应用场景分析
智能交通技术
24+阅读 · 2019年4月13日
车路协同构建“通信+计算”新体系
智能交通技术
11+阅读 · 2019年3月26日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关VIP内容
自动驾驶中的基础模型:场景生成与场景分析综述
专知会员服务
28+阅读 · 2025年6月16日
智驾地图市场研究报告(2025)
专知会员服务
13+阅读 · 2025年6月3日
端到端自动驾驶系统研究综述
专知会员服务
31+阅读 · 2024年11月29日
【博士论文】鲁棒深度学习自动驾驶,160页pdf
专知会员服务
40+阅读 · 2022年11月17日
专知会员服务
39+阅读 · 2021年9月7日
相关资讯
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
【未来黑科技】深度玩转行人重识别与跨境追踪
炼数成金订阅号
11+阅读 · 2019年4月18日
车路协同应用场景分析
智能交通技术
24+阅读 · 2019年4月13日
车路协同构建“通信+计算”新体系
智能交通技术
11+阅读 · 2019年3月26日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员