RL解决'LunarLander-v2' (SOTA)

2019 年 9 月 27 日 CreateAMind


在之前的公众号文章中

RL解决'BipedalWalkerHardcore-v2' (SOTA)

RL解决'BipedalWalkerHardcore-v2' (SOTA) 更新

我们介绍了openai gym 环境'BipedalWalkerHardcore-v2'以及我们解决这个环境,达到效果和效率上的 state-of-the-art。

'BipedalWalker' 是连续控制问题,'LunarLander-v2' 是离散控制问题,我们使用maxsqn算法来解决,maxsqn是基于Q-值估计的算法,融合了double-Q learning和entropy regularization(SQL, soft Q learning)。算法的伪代码和实现可以参考我们的项目:

https://github.com/createamind/DRL

https://github.com/createamind/DRL/blob/master/video_pic/maxsqn.png


'LunarLander-v2'环境描述的是飞行器降落指定地点,根据降落的平稳程度和降落中使用的燃料来给agent打分。'LunarLander-v2'的observation是基于坐标的而不是图像,Q-network使用两个全连接层就可以解决。'LunarLander-v2'的解决要求是连续100次试验得分在200以上,我们的结果最少只需29个episodes(平均100个episodes)就能解决,比第二名快了一倍以上,learderboard链接:

https://github.com/openai/gym/wiki/Leaderboard#LunarLander-v2



另外,我们也跑了'LunarLander-v2'的连续版本'LunarLanderContinuous-v2',同样达到了state-of-the-art:

https://github.com/openai/gym/wiki/Leaderboard#lunarlandercontinuous-v2



欢迎加入或支持我们 :)


登录查看更多
62

相关内容

Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
RL解决'BipedalWalkerHardcore-v2' (SOTA)
CreateAMind
31+阅读 · 2019年7月17日
SQN算法效果及代码: Breakout-ram-v4 打砖块
CreateAMind
12+阅读 · 2019年1月21日
RL 真经
CreateAMind
6+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Precise Detection in Densely Packed Scenes
Arxiv
3+阅读 · 2019年4月8日
Arxiv
4+阅读 · 2018年10月5日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
RL解决'BipedalWalkerHardcore-v2' (SOTA)
CreateAMind
31+阅读 · 2019年7月17日
SQN算法效果及代码: Breakout-ram-v4 打砖块
CreateAMind
12+阅读 · 2019年1月21日
RL 真经
CreateAMind
6+阅读 · 2018年12月28日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员