近期的课程强化学习(RL)在通过提出替代任务序列来解决复杂任务方面取得了显著进展。然而,之前的方法在生成高维空间的课程目标时常常面临挑战。因此,它们通常依赖手动指定的目标空间。为了缓解这一限制并提高课程的可扩展性,我们提出了一种新的课程方法,该方法自动定义包含课程过程的关键信息的语义目标空间,并在其上建议课程目标。为了定义语义目标空间,我们的方法通过向量量化变分自动编码器(VQ-VAE)离散化连续观测,并通过图形恢复离散化观测之间的时间关系。同时,我们建议的方法考虑到不确定性和时间距离,使课程目标收敛于自动组合的目标空间上的最终目标。我们证明了所提出的方法允许在只有原始目标示例的无信息环境中进行有效的探索。此外,我们的方法在数据效率和性能方面超越了最先进的课程RL方法,即使在以自我为中心的视觉输入的各种目标达到任务中也是如此。

https://www.zhuanzhi.ai/paper/467e84cf445bb34edb7c3f138a168c58

成为VIP会员查看完整内容
25

相关内容

【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
【NeurIPS2022】VICRegL:局部视觉特征的自监督学习
专知会员服务
32+阅读 · 2022年10月6日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
22+阅读 · 2021年4月11日
专知会员服务
38+阅读 · 2021年3月29日
专知会员服务
40+阅读 · 2020年6月19日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
176+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
Arxiv
182+阅读 · 2023年3月24日
Arxiv
27+阅读 · 2023年3月17日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
0+阅读 · 7分钟前
国外海军作战管理系统与作战训练系统
专知会员服务
0+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
6+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
3+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
5+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
4+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
相关VIP内容
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
【NeurIPS2022】VICRegL:局部视觉特征的自监督学习
专知会员服务
32+阅读 · 2022年10月6日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【NAACL2021】信息解缠正则化持续学习的文本分类
专知会员服务
22+阅读 · 2021年4月11日
专知会员服务
38+阅读 · 2021年3月29日
专知会员服务
40+阅读 · 2020年6月19日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员