Ensembles are ubiquitous in off-policy actor-critic learning, yet their efficacy depends critically on how they are aggregated. Current methods typically rely on static rules or task-specific hyperparameters to balance overestimation bias and variance, leaving the challenge of a truly adaptive approach open. We introduce Adaptive Ensemble Aggregation (AEA), an algorithm that dynamically constructs ensemble-based targets for both critic and actor updates directly from training dynamics. We prove that AEA converges to a unique equilibrium where the aggregation parameter minimizes value estimation error within a defined stability region. Theoretically, we establish that AEA achieves a shrinkage property where the estimation bias vanishes as the total ensemble size grows. Unlike subset-based methods like REDQ, which hit an information bottleneck determined by a fixed variance floor regardless of the ensemble size, AEA exploits the full ensemble to achieve optimal variance reduction-scaling inversely with the total number of models-and maximal Fisher information. Furthermore, we provide a formal guarantee for monotonic policy improvement under this adaptive regime. Extensive evaluations on various continuous control tasks demonstrate that AEA outperforms, on the majority of tasks, state-of-the-art baselines, providing a robust and self-calibrating framework for ensemble-based reinforcement learning.


翻译:集成方法在离策略演员-评论家学习中广泛应用,但其有效性关键取决于聚合方式。当前方法通常依赖静态规则或任务特定超参数来平衡过估计偏差与方差,真正的自适应方法仍面临挑战。我们提出自适应集成聚合(AEA)算法,该算法直接从训练动态中为演员和评论家更新动态构建基于集成的目标值。我们证明AEA收敛至唯一均衡点,在此状态下聚合参数能在定义的稳定区域内最小化价值估计误差。理论分析表明,AEA具有收缩特性:当集成总规模增大时,估计偏差趋近于零。与REDQ等基于子集的方法(其信息瓶颈由固定方差下限决定,不受集成规模影响)不同,AEA通过利用完整集成实现最优方差缩减——该缩减幅度与模型总数成反比——并达到最大Fisher信息量。此外,我们提供了自适应机制下策略单调改进的严格保证。在多个连续控制任务上的广泛评估表明,AEA在绝大多数任务中超越现有最优基线方法,为基于集成的强化学习提供了鲁棒且自校准的框架。

0
下载
关闭预览

相关内容

《利用合成数据生成加强军事决策支持》
专知会员服务
43+阅读 · 2024年12月30日
【2023新书】机器学习集成方法,354页pdf
专知
40+阅读 · 2023年4月11日
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
常用的模型集成方法介绍:bagging、boosting 、stacking
推荐系统算法合集,满满都是干货(建议收藏)
七月在线实验室
17+阅读 · 2018年7月23日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
《利用合成数据生成加强军事决策支持》
专知会员服务
43+阅读 · 2024年12月30日
相关资讯
【2023新书】机器学习集成方法,354页pdf
专知
40+阅读 · 2023年4月11日
综述:军事应用中使用的一些重要算法
专知
13+阅读 · 2022年7月3日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
常用的模型集成方法介绍:bagging、boosting 、stacking
推荐系统算法合集,满满都是干货(建议收藏)
七月在线实验室
17+阅读 · 2018年7月23日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员