Pure Pursuit (PP) is widely used in autonomous racing for real-time path tracking due to its efficiency and geometric clarity, yet performance is highly sensitive to how key parameters-lookahead distance and steering gain-are chosen. Standard velocity-based schedules adjust these only approximately and often fail to transfer across tracks and speed profiles. We propose a reinforcement-learning (RL) approach that jointly chooses the lookahead Ld and a steering gain g online using Proximal Policy Optimization (PPO). The policy observes compact state features (speed and curvature taps) and outputs (Ld, g) at each control step. Trained in F1TENTH Gym and deployed in a ROS 2 stack, the policy drives PP directly (with light smoothing) and requires no per-map retuning. Across simulation and real-car tests, the proposed RL-PP controller that jointly selects (Ld, g) consistently outperforms fixed-lookahead PP, velocity-scheduled adaptive PP, and an RL lookahead-only variant, and it also exceeds a kinematic MPC raceline tracker under our evaluated settings in lap time, path-tracking accuracy, and steering smoothness, demonstrating that policy-guided parameter tuning can reliably improve classical geometry-based control.


翻译:纯追踪(PP)算法因其高效性和几何清晰性,在自动驾驶赛车实时路径跟踪中被广泛采用,但其性能对关键参数——前瞻距离和转向增益——的选择高度敏感。传统的基于速度的调度方法仅对这些参数进行近似调整,且往往难以在不同赛道和速度分布间迁移。我们提出一种强化学习(RL)方法,利用近端策略优化(PPO)在线联合选择前瞻距离Ld和转向增益g。该策略在每个控制步观测紧凑的状态特征(速度与曲率采样值)并输出(Ld, g)。通过在F1TENTH Gym中训练并部署于ROS 2框架,该策略可直接驱动PP算法(辅以轻度平滑处理),且无需针对不同地图进行重新调参。在仿真与实车测试中,所提出的联合选择(Ld, g)的RL-PP控制器,在单圈用时、路径跟踪精度和转向平滑性方面,均持续优于固定前瞻距离PP、速度自适应PP以及仅优化前瞻距离的RL变体,并在评估设定下超越了基于运动学的MPC参考线跟踪器,这证明策略引导的参数调优能够可靠地改进经典的基于几何的控制方法。

0
下载
关闭预览

相关内容

自动驾驶中的轨迹预测大型基础模型:全面综述
专知会员服务
16+阅读 · 2025年9月18日
【CMU博士论文】分布式强化学习自动驾驶,100页pdf
专知会员服务
37+阅读 · 2023年4月17日
ChatGPT核心技术:强化学习PPO算法
专知会员服务
160+阅读 · 2023年2月13日
专知会员服务
50+阅读 · 2021年4月15日
专知会员服务
140+阅读 · 2021年2月17日
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
【ICLR2022顶会论文分享】PPO算法的37个Implementation细节
深度强化学习实验室
24+阅读 · 2022年5月4日
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
计算机视觉方向简介 | 多目标跟踪算法(附源码)
计算机视觉life
15+阅读 · 2019年6月26日
目标跟踪算法分类
大数据技术
13+阅读 · 2018年9月17日
深度学习的快速目标跟踪
AI研习社
13+阅读 · 2018年1月8日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
10+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关资讯
【ICLR2022顶会论文分享】PPO算法的37个Implementation细节
深度强化学习实验室
24+阅读 · 2022年5月4日
深度学习技术在自动驾驶中的应用
智能交通技术
26+阅读 · 2019年10月27日
计算机视觉方向简介 | 多目标跟踪算法(附源码)
计算机视觉life
15+阅读 · 2019年6月26日
目标跟踪算法分类
大数据技术
13+阅读 · 2018年9月17日
深度学习的快速目标跟踪
AI研习社
13+阅读 · 2018年1月8日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员