RL解决'LunarLander-v2' (SOTA) - 专知

会员服务 ·

1

RL解决'LunarLander-v2' (SOTA)

2019 年 9 月 27 日 CreateAMind

在之前的公众号文章中

RL解决'BipedalWalkerHardcore-v2' (SOTA)

RL解决'BipedalWalkerHardcore-v2' (SOTA) 更新

我们介绍了openai gym 环境'BipedalWalkerHardcore-v2'以及我们解决这个环境，达到效果和效率上的 state-of-the-art。

'BipedalWalker' 是连续控制问题，'LunarLander-v2' 是离散控制问题，我们使用maxsqn算法来解决，maxsqn是基于Q-值估计的算法，融合了double-Q learning和entropy regularization（SQL, soft Q learning）。算法的伪代码和实现可以参考我们的项目：

https://github.com/createamind/DRL

https://github.com/createamind/DRL/blob/master/video_pic/maxsqn.png

'LunarLander-v2'环境描述的是飞行器降落指定地点，根据降落的平稳程度和降落中使用的燃料来给agent打分。'LunarLander-v2'的observation是基于坐标的而不是图像，Q-network使用两个全连接层就可以解决。'LunarLander-v2'的解决要求是连续100次试验得分在200以上，我们的结果最少只需29个episodes（平均100个episodes）就能解决，比第二名快了一倍以上，learderboard链接：

https://github.com/openai/gym/wiki/Leaderboard#LunarLander-v2

另外，我们也跑了'LunarLander-v2'的连续版本'LunarLanderContinuous-v2'，同样达到了state-of-the-art：

https://github.com/openai/gym/wiki/Leaderboard#lunarlandercontinuous-v2

欢迎加入或支持我们：）

登录查看更多

62

相关内容

SOTA

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

【北京大学】Locally Differentially Private (Contextual) Bandits Learning

【北京大学】Locally Differentially Private (Contextual) Bandits Learning

专知会员服务

13+阅读 · 2020年6月8日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

123+阅读 · 2020年5月18日

AI领域顶会AAMAS2020最佳论文出炉!《深度残差强化学习》牛津大学，Deep Residual RL

AI领域顶会AAMAS2020最佳论文出炉!《深度残差强化学习》牛津大学，Deep Residual RL

专知会员服务

45+阅读 · 2020年5月15日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【强化学习论文推荐集合】2019年必读的10篇TOP强化学习论文，My Top 10 Deep RL Papers of 2019

【强化学习论文推荐集合】2019年必读的10篇TOP强化学习论文，My Top 10 Deep RL Papers of 2019

专知会员服务

42+阅读 · 2020年1月15日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【强化学习研讨会|Microsoft Research】选择性噪声注入在强化学习应用，微软高级研究员Sam Devlin

【强化学习研讨会|Microsoft Research】选择性噪声注入在强化学习应用，微软高级研究员Sam Devlin

专知会员服务

8+阅读 · 2019年10月3日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

RL解决'BipedalWalkerHardcore-v2' (SOTA)效率效果均第一及完整源代码

RL解决'BipedalWalkerHardcore-v2' (SOTA)效率效果均第一及完整源代码

CreateAMind

19+阅读 · 2019年7月18日

RL解决'BipedalWalkerHardcore-v2' (SOTA)

RL解决'BipedalWalkerHardcore-v2' (SOTA)

CreateAMind

31+阅读 · 2019年7月17日

SQN算法效果及代码: Breakout-ram-v4 打砖块

SQN算法效果及代码: Breakout-ram-v4 打砖块

CreateAMind

12+阅读 · 2019年1月21日

RL 真经

CreateAMind

6+阅读 · 2018年12月28日

【前沿跟进】Google, OpenAI提出层次强化学习新思路

【前沿跟进】Google, OpenAI提出层次强化学习新思路

CreateAMind

13+阅读 · 2018年5月31日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

【强化学习实战】基于gym和tensorflow的强化学习算法实现

【强化学习实战】基于gym和tensorflow的强化学习算法实现

新智元

12+阅读 · 2017年9月12日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Reinforcement Learning Enhanced Quantum-inspired Algorithm for Combinatorial Optimization

Arxiv

4+阅读 · 2020年2月14日

Precise Detection in Densely Packed Scenes

Precise Detection in Densely Packed Scenes

Arxiv

3+阅读 · 2019年4月8日

Using Ternary Rewards to Reason over Knowledge Graphs with Deep Reinforcement Learning

Arxiv

3+阅读 · 2019年2月26日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

Reinforcement Learning with Perturbed Rewards

Arxiv

4+阅读 · 2018年10月5日

Relational Deep Reinforcement Learning

Relational Deep Reinforcement Learning

Arxiv

10+阅读 · 2018年6月28日

Do deep reinforcement learning agents model intentions?

Arxiv

5+阅读 · 2018年5月21日

Mem2Seq: Effectively Incorporating Knowledge Bases into End-to-End Task-Oriented Dialog Systems

Arxiv

7+阅读 · 2018年5月21日

Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

Arxiv

16+阅读 · 2018年1月31日

VIP会员

相关主题

state-of-the-art

最新内容

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

7+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

5+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

5+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

7+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

6+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

3+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

2+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

12+阅读 · 7月15日

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

专知会员服务

14+阅读 · 7月15日

《军事基地能源韧性与经济性权衡评估方法研究》

《军事基地能源韧性与经济性权衡评估方法研究》

专知会员服务

7+阅读 · 7月15日

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

专知会员服务

8+阅读 · 7月15日

综述 | 具身视觉语言导航：系统综述与真实世界评测

综述 | 具身视觉语言导航：系统综述与真实世界评测

专知会员服务

10+阅读 · 7月15日

应对第1、2类无人机威胁的推荐战术、技术与程序

应对第1、2类无人机威胁的推荐战术、技术与程序

专知会员服务

9+阅读 · 7月15日

《反制多无人机集群攻城：序贯斯塔克伯格安全博弈方法研究》59页

《反制多无人机集群攻城：序贯斯塔克伯格安全博弈方法研究》59页

专知会员服务

11+阅读 · 7月15日

博士论文 | 可扩展、自我改进的大语言模型智能体

博士论文 | 可扩展、自我改进的大语言模型智能体

专知会员服务

12+阅读 · 7月14日

相关VIP内容

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

【北京大学】Locally Differentially Private (Contextual) Bandits Learning

【北京大学】Locally Differentially Private (Contextual) Bandits Learning

专知会员服务

13+阅读 · 2020年6月8日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

123+阅读 · 2020年5月18日

AI领域顶会AAMAS2020最佳论文出炉!《深度残差强化学习》牛津大学，Deep Residual RL

AI领域顶会AAMAS2020最佳论文出炉!《深度残差强化学习》牛津大学，Deep Residual RL

专知会员服务

45+阅读 · 2020年5月15日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【强化学习论文推荐集合】2019年必读的10篇TOP强化学习论文，My Top 10 Deep RL Papers of 2019

【强化学习论文推荐集合】2019年必读的10篇TOP强化学习论文，My Top 10 Deep RL Papers of 2019

专知会员服务

42+阅读 · 2020年1月15日

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

【南洋理工大学课程】deep_reinforcement_learning（深度强化学习），109页ppt

专知会员服务

105+阅读 · 2019年11月2日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【强化学习研讨会|Microsoft Research】选择性噪声注入在强化学习应用，微软高级研究员Sam Devlin

【强化学习研讨会|Microsoft Research】选择性噪声注入在强化学习应用，微软高级研究员Sam Devlin

专知会员服务

8+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人地面战车（UGV）的崛起》报告

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

相关资讯

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

RL解决'BipedalWalkerHardcore-v2' (SOTA)效率效果均第一及完整源代码

RL解决'BipedalWalkerHardcore-v2' (SOTA)效率效果均第一及完整源代码

CreateAMind

19+阅读 · 2019年7月18日

RL解决'BipedalWalkerHardcore-v2' (SOTA)

RL解决'BipedalWalkerHardcore-v2' (SOTA)

CreateAMind

31+阅读 · 2019年7月17日

SQN算法效果及代码: Breakout-ram-v4 打砖块

SQN算法效果及代码: Breakout-ram-v4 打砖块

CreateAMind

12+阅读 · 2019年1月21日

RL 真经

CreateAMind

6+阅读 · 2018年12月28日

【前沿跟进】Google, OpenAI提出层次强化学习新思路

【前沿跟进】Google, OpenAI提出层次强化学习新思路

CreateAMind

13+阅读 · 2018年5月31日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

【强化学习实战】基于gym和tensorflow的强化学习算法实现

【强化学习实战】基于gym和tensorflow的强化学习算法实现

新智元

12+阅读 · 2017年9月12日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

相关论文

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Reinforcement Learning Enhanced Quantum-inspired Algorithm for Combinatorial Optimization

Arxiv

4+阅读 · 2020年2月14日

Precise Detection in Densely Packed Scenes

Precise Detection in Densely Packed Scenes

Arxiv

3+阅读 · 2019年4月8日

Using Ternary Rewards to Reason over Knowledge Graphs with Deep Reinforcement Learning

Arxiv

3+阅读 · 2019年2月26日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

Reinforcement Learning with Perturbed Rewards

Arxiv

4+阅读 · 2018年10月5日

Relational Deep Reinforcement Learning

Relational Deep Reinforcement Learning

Arxiv

10+阅读 · 2018年6月28日

Do deep reinforcement learning agents model intentions?

Arxiv

5+阅读 · 2018年5月21日

Mem2Seq: Effectively Incorporating Knowledge Bases into End-to-End Task-Oriented Dialog Systems

Arxiv

7+阅读 · 2018年5月21日

Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

Arxiv

16+阅读 · 2018年1月31日

大家都在搜

无人机蜂群

无人机战争

生成对抗网络GANs学习路线

微信扫码咨询专知VIP会员