On error of value function inevitably causes an overestimation phenomenon and has a negative impact on the convergence of the algorithms. To mitigate the negative effects of the approximation error, we propose Error Controlled Actor-critic which ensures confining the approximation error in value function. We present an analysis of how the approximation error can hinder the optimization process of actor-critic methods.Then, we derive an upper boundary of the approximation error of Q function approximator and find that the error can be lowered by restricting on the KL-divergence between every two consecutive policies when training the policy. The results of experiments on a range of continuous control tasks demonstrate that the proposed actor-critic algorithm apparently reduces the approximation error and significantly outperforms other model-free RL algorithms.


翻译:值函数错误必然会造成高估现象,并对算法的趋同产生消极影响。 为了减轻近似差错的负面影响, 我们提议错误控制动作- 批评, 以确保将近似差错限制在值函数中。 我们分析近似差如何会阻碍动作- 批评方法的优化过程。 然后, 我们得出Q 函数相近差的上限, 并发现在培训政策时, 可以通过限制每两条连续政策之间的 KL 调整幅度来降低错误。 对一系列连续控制任务进行实验的结果显示, 拟议的动作- 批评算法显然减少了近似差, 大大优于其他无模型的 RL 算法 。

0
下载
关闭预览

相关内容

如何构建你的推荐系统?这份21页ppt教程为你讲解
专知会员服务
66+阅读 · 2021年2月12日
专知会员服务
52+阅读 · 2020年12月14日
专知会员服务
55+阅读 · 2020年9月7日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
33+阅读 · 2020年4月23日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
【新书】贝叶斯网络进展与新应用,附全书下载
专知会员服务
122+阅读 · 2019年12月9日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
282+阅读 · 2019年10月9日
最前沿:深度解读Soft Actor-Critic 算法
极市平台
55+阅读 · 2019年7月28日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
RL 真经
CreateAMind
6+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
14+阅读 · 2018年4月27日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年10月26日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
5+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
10+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
10+阅读 · 4月22日
相关VIP内容
如何构建你的推荐系统?这份21页ppt教程为你讲解
专知会员服务
66+阅读 · 2021年2月12日
专知会员服务
52+阅读 · 2020年12月14日
专知会员服务
55+阅读 · 2020年9月7日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
33+阅读 · 2020年4月23日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
【新书】贝叶斯网络进展与新应用,附全书下载
专知会员服务
122+阅读 · 2019年12月9日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
282+阅读 · 2019年10月9日
相关资讯
最前沿:深度解读Soft Actor-Critic 算法
极市平台
55+阅读 · 2019年7月28日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
RL 真经
CreateAMind
6+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
14+阅读 · 2018年4月27日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员