With the evolution of large foundation models (LFMs), data-driven autonomous driving has made significant strides. However, existing paradigms still face severe challenges in complex interaction and long-tail scenarios due to distribution shift and causal confusion. These limitations often result in a lack of human-level decision-making flexibility and safety in extreme conditions. To overcome this limitation, this paper proposes a Human-in-the-Loop Online Behavior Cloning frame work (HiL-OBC) for autonomous driving, which aims to deeply integrate the cross-modal perceptual capabilities of LFMs with the high-level driving intelligence of human experts. Specifically, HiL-OBC deployment is executed through three critical phases: policy initialization with human intervention, latent behavioral modeling with Bayesian policy adaptation, and online deploy ment and updates. Furthermore, we design a Multi-modal Online Behavior Cloning (MOBC) model, which optimizes the base driving policy online through a lightweight network architecture, a takeover trigger mechanism, and a multi-variant loss function, thereby enhancing the system's decision-making robustness in complex environments. We evaluated the HiL-OBC on the LangAuto-Human CARLA benchmark. Experimental results demonstrate that the driving policies optimized via the human-in-the-loop mechanism achieve substantial performance gains: the DS of StructNav, LFG, and LMDrive increased by 47.25%, 31.59%, and 32.12%, respectively, with a simultaneous of various experimental settings and key components highlights the advantages of human-in-the-loop learning in improving decision-making robustness and overall driving performance.


翻译:随着大型基础模型(LFMs)的发展,数据驱动的自动驾驶取得了显著进展。然而,现有范式在复杂交互和长尾场景中仍面临分布偏移和因果混淆带来的严峻挑战。这些局限性往往导致极端条件下缺乏人类水平的决策灵活性和安全性。为克服这一局限,本文提出了一种面向自动驾驶的人机协同在线行为克隆框架(HiL-OBC),旨在深度融合LFMs的跨模态感知能力与人类专家的高级驾驶智能。具体而言,HiL-OBC的部署通过三个关键阶段执行:带有人工干预的策略初始化、基于贝叶斯策略适应的潜在行为建模,以及在线部署与更新。此外,我们设计了一种多模态在线行为克隆模型(MOBC),通过轻量级网络架构、接管触发机制和多变体损失函数在线优化基础驾驶策略,从而增强系统在复杂环境中的决策鲁棒性。我们在LangAuto-Human CARLA基准上评估了HiL-OBC。实验结果表明,通过人机协同机制优化的驾驶策略实现了显著的性能提升:StructNav、LFG和LMDrive的DS分别提高了47.25%、31.59%和32.12%,同时多种实验设置和关键组件的分析凸显了人机协同学习在提升决策鲁棒性和整体驾驶性能方面的优势。

0
下载
关闭预览

相关内容

端到端自动驾驶系统研究综述
专知会员服务
31+阅读 · 2024年11月29日
【CMU博士论文】分布式强化学习自动驾驶,100页pdf
专知会员服务
37+阅读 · 2023年4月17日
自动驾驶中可解释AI的综述和未来研究方向
专知会员服务
69+阅读 · 2022年1月10日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关VIP内容
端到端自动驾驶系统研究综述
专知会员服务
31+阅读 · 2024年11月29日
【CMU博士论文】分布式强化学习自动驾驶,100页pdf
专知会员服务
37+阅读 · 2023年4月17日
自动驾驶中可解释AI的综述和未来研究方向
专知会员服务
69+阅读 · 2022年1月10日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
相关资讯
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员