Learning how to reach goals in an environment is a longstanding challenge in AI, yet reasoning over long horizons remains a challenge for modern methods. The key question is how to estimate the temporal distance between pairs of observations. While temporal difference methods leverage local updates to provide optimality guarantees, they often perform worse than Monte Carlo methods that perform global updates (e.g., with multi-step returns), which lack such guarantees. We show how these approaches can be integrated into a practical offline GCRL method that fits a quasimetric distance using a multistep Monte-Carlo return. We show our method outperforms existing offline GCRL methods on long-horizon simulated tasks with up to 4000 steps, even with visual observations. We also demonstrate that our method can enable stitching in the real-world robotic manipulation domain (Bridge setup). Our approach is the first end-to-end offline GCRL method that enables multistep stitching in this real-world manipulation domain from an unlabeled offline dataset of visual observations and demonstrate robust horizon generalization.


翻译:学习如何在环境中达成目标是人工智能领域长期存在的挑战,然而现代方法在长时程推理方面仍面临困难。核心问题在于如何估计观测对之间的时间距离。虽然时序差分方法利用局部更新提供最优性保证,但其性能往往不及执行全局更新(例如使用多步回报)的蒙特卡洛方法,而后者缺乏此类保证。我们展示了如何将这些方法整合到一种实用的离线目标条件强化学习方法中,该方法使用多步蒙特卡洛回报来拟合拟度量距离。实验表明,在长达4000步的视觉观测长时程模拟任务中,我们的方法优于现有的离线目标条件强化学习方法。我们还证明了该方法能够在真实世界机器人操作领域(Bridge设置)中实现轨迹拼接。我们的方法是首个端到端的离线目标条件强化学习方法,能够基于未标注的视觉观测离线数据集,在此真实世界操作领域中实现多步轨迹拼接,并展现出鲁棒的时程泛化能力。

0
下载
关闭预览

相关内容

基于学习机制的多智能体强化学习综述
专知会员服务
61+阅读 · 2024年4月16日
《用于空战机动的分层多智能体强化学习》
专知会员服务
66+阅读 · 2023年10月5日
专知会员服务
50+阅读 · 2021年4月15日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
47+阅读 · 2020年1月23日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月16日
VIP会员
相关资讯
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员