Training reinforcement learning (RL) policies from scratch is costly: it requires careful reward and environment design, extensive tuning, and substantial computation. Yet many control problems already have a functional but suboptimal policy available as a baseline. This paper proposes a method for embedding such a baseline into the RL training process, simultaneously improving training efficiency relative to from-scratch methods and producing a learning policy that outperforms the baseline. At each step, the method arbitrates between the baseline policy and a trainable learning policy, initially relying strongly on the baseline policy and then progressively transferring agency to the learning policy. By the end of training, the learning policy is a standalone neural network that operates without baseline policy support. The paper formalizes what it means for the baseline policy to be functional: under this policy, the agent reaches a goal set and remains there with high probability. The proposed arbitration mechanism is designed to exploit this property during training, yielding high goal-reaching rates right from the beginning of training. A theoretical analysis provides a formal interpretation of this behavior under stated assumptions and extends it to the final baseline-free regime, where explicit lower bounds are derived for the goal-reaching probability of the standalone learning policy. Empirical results on continuous-control benchmarks show that the proposed method achieves returns that match or exceed those of competitive approaches, while maintaining the highest goal-reaching rates throughout training among the compared methods -- including in the final stage, where the learning policy operates without any baseline support.


翻译:从头开始训练强化学习(RL)策略成本高昂:需要精细的奖励与环境设计、广泛的调参以及大量计算资源。然而,许多控制问题已存在一个功能完备但次优的基线策略。本文提出一种方法,将此类基线策略嵌入RL训练过程,既能提升训练效率(相较于从头训练的方法),又能产生优于基线策略的学习策略。该方法在每一步中,在基线策略与可训练的学习策略之间进行仲裁:初始阶段强依赖基线策略,随后逐步将智能体控制权转移给学习策略。训练结束时,学习策略将成为无需基线策略支持的独立神经网络。本文形式化定义了基线策略"功能完备"的含义:在该策略下,智能体能够以高概率抵达目标集并维持在该区域。所提出的仲裁机制旨在训练中利用此特性,使得从训练初期即能实现高目标到达率。理论分析在假设条件下为这一行为提供了形式化解释,并将其推广至最终的无基线阶段——在此阶段,推导出独立学习策略目标到达概率的显式下界。在连续控制基准上的实验结果表明:所提方法在回报上达到或超越竞争性方法,同时在整个训练过程中(包括最终无基线支持阶段)维持了最高目标到达率。

0
下载
关闭预览

相关内容

《基于Transformer的智能体的战术决策解释》
专知会员服务
47+阅读 · 2025年12月28日
《基于深度强化学习的战场策略》
专知会员服务
38+阅读 · 2025年1月13日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
44+阅读 · 2023年5月30日
基于通信的多智能体强化学习进展综述
专知会员服务
112+阅读 · 2022年11月12日
专知会员服务
135+阅读 · 2021年3月13日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
《基于Transformer的智能体的战术决策解释》
专知会员服务
47+阅读 · 2025年12月28日
《基于深度强化学习的战场策略》
专知会员服务
38+阅读 · 2025年1月13日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
44+阅读 · 2023年5月30日
基于通信的多智能体强化学习进展综述
专知会员服务
112+阅读 · 2022年11月12日
专知会员服务
135+阅读 · 2021年3月13日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员