Effective leveraging of real-world driving datasets is crucial for enhancing the training of autonomous driving systems. While Offline Reinforcement Learning enables training autonomous vehicles with such data, most available datasets lack meaningful reward labels. Reward labeling is essential as it provides feedback for the learning algorithm to distinguish between desirable and undesirable behaviors, thereby improving policy performance. This paper presents a novel approach for generating human-aligned reward labels. The proposed approach addresses the challenge of absent reward signals in the real-world datasets by generating labels that reflect human judgment and safety considerations. The reward function incorporates an adaptive safety component that is activated by analyzing semantic segmentation maps, enabling the autonomous vehicle to prioritize safety over efficiency in potential collision scenarios. The proposed method is applied to an occluded pedestrian crossing scenario with varying pedestrian traffic levels, using simulation data. When the generated rewards were used to train various Offline Reinforcement Learning algorithms, each model produced a meaningful policy, demonstrating the method's viability. In addition, the method was applied to a subset of the Audi Autonomous Driving Dataset, and the reward labels were compared to human-annotated reward labels. The findings show a moderate disparity between the two reward sets, and, most interestingly, the method flagged unsafe states that the human annotator missed.


翻译:有效利用真实世界驾驶数据集对于提升自动驾驶系统的训练至关重要。尽管离线强化学习能够利用此类数据训练自动驾驶车辆,但大多数可用数据集缺乏有意义的奖励标注。奖励标注至关重要,因为它为学习算法提供了区分期望与不期望行为的反馈,从而改进策略性能。本文提出了一种生成人类对齐奖励标注的新方法。该方法通过生成反映人类判断与安全考量的标注,解决了真实世界数据集中奖励信号缺失的挑战。所提出的奖励函数包含一个自适应安全组件,该组件通过分析语义分割图被激活,使得自动驾驶车辆在潜在碰撞场景中优先考虑安全而非效率。该方法被应用于具有不同行人流量水平的遮挡行人过街场景,使用了仿真数据。当生成的奖励被用于训练多种离线强化学习算法时,每个模型都产生了有意义的策略,证明了该方法的可行性。此外,该方法被应用于奥迪自动驾驶数据集的一个子集,并将生成的奖励标注与人工标注的奖励标注进行了比较。研究结果显示两组奖励标注之间存在中等程度的差异,并且最有趣的是,该方法标记出了人类标注者遗漏的不安全状态。

0
下载
关闭预览

相关内容

【CMU博士论文】分布式强化学习自动驾驶,100页pdf
专知会员服务
37+阅读 · 2023年4月17日
【CTH博士论文】基于强化学习的自动驾驶决策,149页pdf
专知会员服务
59+阅读 · 2023年2月18日
「强化学习在无人车领域」的应用与展望
专知会员服务
58+阅读 · 2022年12月8日
专知会员服务
140+阅读 · 2021年2月17日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
深度学习在自动驾驶感知领域的应用
AI100
11+阅读 · 2019年3月6日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员