Two popular approaches to model-free continuous control tasks are SAC and TD3. At first glance these approaches seem rather different; SAC aims to solve the entropy-augmented MDP by minimising the KL-divergence between a stochastic proposal policy and a hypotheical energy-basd soft Q-function policy, whereas TD3 is derived from DPG, which uses a deterministic policy to perform policy gradient ascent along the value function. In reality, both approaches are remarkably similar, and belong to a family of approaches we call `Off-Policy Continuous Generalized Policy Iteration'. This illuminates their similar performance in most continuous control benchmarks, and indeed when hyperparameters are matched, their performance can be statistically indistinguishable. To further remove any difference due to implementation, we provide OffCon$^3$ (Off-Policy Continuous Control: Consolidated), a code base featuring state-of-the-art versions of both algorithms.


翻译:无模式连续控制任务的两个普遍做法是SAC和TD3。 乍一看,这两种做法似乎相当不同;SAC的目的是通过将随机建议政策与虚伪的能源基软功能政策之间的KL差异最小化,解决微小放大的MDP,而TD3则来自DPG,DPG使用确定性政策来在价值函数的同时执行政策梯度。在现实中,这两种方法都非常相似,并属于我们称之为“非政策持续通用政策循环”的一套做法。这在最连续的控制基准中说明了它们的类似性能,事实上,当超参数相匹配时,其性能在统计上是无法区分的。为了进一步消除任何因执行而产生的差异,我们提供了Offcon$3美元(非政策持续控制:合并),这是一个以两种算法的状态为特征的代码基础。

0
下载
关闭预览

相关内容

让 iOS 8 和 OS X Yosemite 无缝切换的一个新特性。 > Apple products have always been designed to work together beautifully. But now they may really surprise you. With iOS 8 and OS X Yosemite, you’ll be able to do more wonderful things than ever before.

Source: Apple - iOS 8
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
74+阅读 · 2020年8月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
MIT-深度学习Deep Learning State of the Art in 2020,87页ppt
专知会员服务
62+阅读 · 2020年2月17日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
已删除
将门创投
10+阅读 · 2019年3月6日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年3月18日
Arxiv
0+阅读 · 2021年3月18日
The Measure of Intelligence
Arxiv
9+阅读 · 2019年11月5日
VIP会员
最新内容
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
2+阅读 · 33分钟前
《压缩式分布式交互仿真标准》120页
专知会员服务
3+阅读 · 48分钟前
《电子战数据交换模型研究报告》
专知会员服务
2+阅读 · 56分钟前
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
3+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
人工智能即服务与未来战争(印度视角)
专知会员服务
5+阅读 · 4月22日
相关资讯
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
已删除
将门创投
10+阅读 · 2019年3月6日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员