Learning high-performance control policies that remain consistent with expert behavior is a fundamental challenge in robotics. Reinforcement learning can discover high-performing strategies but often departs from desirable human behavior, whereas imitation learning is limited by demonstration quality and struggles to improve beyond expert data. We propose a behavior-constrained reinforcement learning framework that improves beyond demonstrations while explicitly controlling deviation from expert behavior. Because expert-consistent behavior in dynamic control is inherently trajectory-level, we introduce a receding-horizon predictive mechanism that models short-term future trajectories and provides look-ahead rewards during training. To account for the natural variability of human behavior under disturbances and changing conditions, we further condition the policy on reference trajectories, allowing it to represent a distribution of expert-consistent behaviors rather than a single deterministic target. Empirically, we evaluate the approach in high-fidelity race car simulation using data from professional drivers, a domain characterized by extreme dynamics and narrow performance margins. The learned policies achieve competitive lap times while maintaining close alignment with expert driving behavior, outperforming baseline methods in both performance and imitation quality. Beyond standard benchmarks, we conduct human-grounded evaluation in a driver-in-the-loop simulator and show that the learned policies reproduce setup-dependent driving characteristics consistent with the feedback of top-class professional race drivers. These results demonstrate that our method enables learning high-performance control policies that are both optimal and behavior-consistent, and can serve as reliable surrogates for human decision-making in complex control systems.


翻译:在机器人学中,学习与专家行为保持一致的、同时实现高性能的控制策略是一项基本挑战。强化学习能够发现高性能策略,但往往偏离理想的人类行为;而模仿学习则受限于示范质量,难以在专家数据基础上进一步提升。我们提出一种行为约束的强化学习框架,该框架在超越示范表现的同时,能够显式控制与专家行为的偏差。由于动态控制中与专家一致的行为本质上是轨迹层面的,我们引入了一种滚动时域预测机制,该机制对短期未来轨迹进行建模,并在训练过程中提供前瞻奖励。为了考虑人类行为在扰动和状态变化下的自然变异性,我们进一步将策略基于参考轨迹进行条件设定,使其能够表征专家一致行为的分布,而非单一的确定性目标。在实验层面,我们基于职业赛车手数据进行高保真赛车模拟环境下的评估,该领域以极端动力学和狭窄的性能裕度为特征。学习到的策略在保持与专家驾驶行为高度一致的同时,实现了具有竞争力的单圈时间,在性能和模仿质量上均优于基线方法。除标准基准测试外,我们还在驾驶员在环模拟器中进行了人类实证评估,结果表明学习到的策略再现了与顶级职业赛车手反馈一致的、依赖设置参数的驾驶特征。这些结果证明,我们的方法能够学习到既最优又行为一致的高性能控制策略,并可作为复杂控制系统中人类决策的可靠替代方案。

0
下载
关闭预览

相关内容

基于学习机制的多智能体强化学习综述
专知会员服务
63+阅读 · 2024年4月16日
「基于通信的多智能体强化学习」 进展综述
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
4+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员