Many real-world offline reinforcement learning (RL) problems involve continuous-time environments with delays. Such environments are characterized by two distinctive features: firstly, the state x(t) is observed at irregular time intervals, and secondly, the current action a(t) only affects the future state x(t + g) with an unknown delay g > 0. A prime example of such an environment is satellite control where the communication link between earth and a satellite causes irregular observations and delays. Existing offline RL algorithms have achieved success in environments with irregularly observed states in time or known delays. However, environments involving both irregular observations in time and unknown delays remains an open and challenging problem. To this end, we propose Neural Laplace Control, a continuous-time model-based offline RL method that combines a Neural Laplace dynamics model with a model predictive control (MPC) planner--and is able to learn from an offline dataset sampled with irregular time intervals from an environment that has a inherent unknown constant delay. We show experimentally on continuous-time delayed environments it is able to achieve near expert policy performance.


翻译:许多现实世界中的离线强化学习(RL)问题涉及具有延迟的连续时间环境。此类环境具有两个显著特征:首先,状态x(t)以不规则时间间隔被观测;其次,当前动作a(t)仅在未来未知延迟g > 0后才影响状态x(t + g)。卫星控制便是此类环境的典型示例——地球与卫星间的通信链路会导致观测不规则与延迟。现有离线RL算法已在时间上具有不规则观测状态或已知延迟的环境中取得成功,但涉及时间不规则观测与未知延迟并存的环境仍是一个开放且具挑战性的问题。为此,我们提出神经拉普拉斯控制——一种基于连续时间模型的离线RL方法,该方法将神经拉普拉斯动力学模型与模型预测控制(MPC)规划器相结合,能从具有固有未知恒定延迟且以不规则时间间隔采样的离线数据集中学习。实验表明,在连续时间延迟环境中,该方法能实现接近专家策略的性能。

0
下载
关闭预览

相关内容

专知会员服务
52+阅读 · 2020年12月14日
【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
151+阅读 · 2020年6月28日
【泡泡一分钟】通过学习轮式里程计和IMU误差的定位
泡泡机器人SLAM
133+阅读 · 2019年9月12日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Automatic sparse PCA for high-dimensional data
Arxiv
0+阅读 · 2023年5月26日
Arxiv
24+阅读 · 2022年2月4日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
4+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
相关VIP内容
专知会员服务
52+阅读 · 2020年12月14日
【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
151+阅读 · 2020年6月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员