在目标达成的强化学习(RL)中,最优价值函数具有特殊的几何形态,被称为准度量结构(也可参见这些工作)。本论文介绍了准度量强化学习(QRL),这是一种新的RL方法,利用准度量模型来学习最优价值函数。与先前的方法不同,QRL的目标特别为准度量设计,并提供强大的理论恢复保证。在实证方面,我们在离散化的MountainCar环境中进行了深入的分析,识别了QRL的属性及其相对于其他选择的优势。在离线和在线的目标达成基准测试中,无论是基于状态的还是基于图像的观察,QRL也展示了改善的样本效率和性能。

成为VIP会员查看完整内容
37

相关内容

【简明书】强化学习的基础,111页pdf
专知会员服务
95+阅读 · 2022年11月16日
【干货书】凸随机优化,320页pdf
专知会员服务
93+阅读 · 2022年9月16日
【经典书】贝叶斯强化学习概述,147页pdf
专知会员服务
115+阅读 · 2021年11月21日
专知会员服务
79+阅读 · 2021年7月23日
【ICML2020Tutorial】机器学习信号处理,100页ppt
专知会员服务
113+阅读 · 2020年8月15日
【简明书】强化学习的基础,111页pdf
专知
1+阅读 · 2022年11月16日
【干货书】凸随机优化,320页pdf
专知
12+阅读 · 2022年9月16日
【DeepMind】结构化数据少样本学习,51页ppt
【干货书】计算机科学离散数学,627页pdf
专知
64+阅读 · 2020年8月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
497+阅读 · 2023年3月31日
Arxiv
82+阅读 · 2023年3月26日
Arxiv
69+阅读 · 2022年9月7日
VIP会员
相关主题
相关VIP内容
【简明书】强化学习的基础,111页pdf
专知会员服务
95+阅读 · 2022年11月16日
【干货书】凸随机优化,320页pdf
专知会员服务
93+阅读 · 2022年9月16日
【经典书】贝叶斯强化学习概述,147页pdf
专知会员服务
115+阅读 · 2021年11月21日
专知会员服务
79+阅读 · 2021年7月23日
【ICML2020Tutorial】机器学习信号处理,100页ppt
专知会员服务
113+阅读 · 2020年8月15日
相关资讯
【简明书】强化学习的基础,111页pdf
专知
1+阅读 · 2022年11月16日
【干货书】凸随机优化,320页pdf
专知
12+阅读 · 2022年9月16日
【DeepMind】结构化数据少样本学习,51页ppt
【干货书】计算机科学离散数学,627页pdf
专知
64+阅读 · 2020年8月31日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
相关论文
A Survey of Large Language Models
Arxiv
497+阅读 · 2023年3月31日
Arxiv
82+阅读 · 2023年3月26日
Arxiv
69+阅读 · 2022年9月7日
微信扫码咨询专知VIP会员