Pure Pursuit (PP) is a widely used path-tracking algorithm in autonomous vehicles due to its simplicity and real-time performance. However, its effectiveness is sensitive to the choice of lookahead distance: shorter values improve cornering but can cause instability on straights, while longer values improve smoothness but reduce accuracy in curves. We propose a hybrid control framework that integrates Proximal Policy Optimization (PPO) with the classical Pure Pursuit controller to adjust the lookahead distance dynamically during racing. The PPO agent maps vehicle speed and multi-horizon curvature features to an online lookahead command. It is trained using Stable-Baselines3 in the F1TENTH Gym simulator with a KL penalty and learning-rate decay for stability, then deployed in a ROS2 environment to guide the controller. Experiments in simulation compare the proposed method against both fixed-lookahead Pure Pursuit and an adaptive Pure Pursuit baseline. Additional real-car experiments compare the learned controller against a fixed-lookahead Pure Pursuit controller. Results show that the learned policy improves lap-time performance and repeated lap completion on unseen tracks, while also transferring zero-shot to hardware. The learned controller adapts the lookahead by increasing it on straights and reducing it in curves, demonstrating effectiveness in augmenting a classical controller by online adaptation of a single interpretable parameter. On unseen tracks, the proposed method achieved 33.16 s on Montreal and 46.05 s on Yas Marina, while tolerating more aggressive speed-profile scaling than the baselines and achieving the best lap times among the tested settings. Initial real-car experiments further support sim-to-real transfer on a 1:10-scale autonomous racing platform


翻译:纯追踪(Pure Pursuit, PP)因其简单性和实时性能,广泛应用于自动驾驶车辆的路径跟踪算法。然而,其有效性对前视距离的选择高度敏感:较短的前视距离可改善弯道性能,但易在直道上引发不稳定性;较长的前视距离虽能提升平顺性,却会降低弯道精度。为解决该问题,我们提出一种混合控制框架,将近端策略优化(Proximal Policy Optimization, PPO)与经典纯追踪控制器相结合,在赛车过程中动态调整前视距离。PPO智能体将车速与多视界曲率特征映射为在线前视指令。该智能体在F1TENTH Gym模拟器中基于Stable-Baselines3框架进行训练,采用KL惩罚与学习率衰减策略确保训练稳定性,并部署于ROS2环境中以驱动控制器。仿真实验将所提方法与固定前视距离纯追踪及自适应纯追踪基线进行对比。同时,通过真实车辆实验将经过学习的控制器与固定前视距离纯追踪控制器进行比较。结果表明,该学习策略在未知赛道上显著提升了单圈时间性能与重复完赛率,并能零样本迁移至硬件平台。所学习的控制器通过增加直道前视距离并减小弯道前视距离实现动态适应,展现了一种通过在线调整单个可解释参数增强经典控制器的有效性。在未知赛道上,所提方法在蒙特利尔赛道的成绩为33.16秒,在亚斯码头赛道的成绩为46.05秒,同时比基线方法更能容忍激进的速度曲线缩放,并在测试设定中取得了最佳单圈时间。初始真实车辆实验在1:10比例自动驾驶赛车平台上进一步验证了仿真到现实的迁移能力。

0
下载
关闭预览

相关内容

自动驾驶中的轨迹预测大型基础模型:全面综述
专知会员服务
16+阅读 · 2025年9月18日
自动驾驶中的3D目标检测研究进展
专知会员服务
11+阅读 · 2025年7月20日
【CMU博士论文】分布式强化学习自动驾驶,100页pdf
专知会员服务
37+阅读 · 2023年4月17日
专知会员服务
50+阅读 · 2021年4月15日
专知会员服务
140+阅读 · 2021年2月17日
计算机视觉方向简介 | 多目标跟踪算法(附源码)
计算机视觉life
15+阅读 · 2019年6月26日
自动驾驶车辆定位技术概述|厚势汽车
厚势
10+阅读 · 2019年5月16日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
1+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员