While modern policy optimization methods can do complex manipulation from sensory data, they struggle on problems with extended time horizons and multiple sub-goals. On the other hand, task and motion planning (TAMP) methods scale to long horizons but they are computationally expensive and need to precisely track world state. We propose a method that draws on the strength of both methods: we train a policy to imitate a TAMP solver's output. This produces a feed-forward policy that can accomplish multi-step tasks from sensory data. First, we build an asynchronous distributed TAMP solver that can produce supervision data fast enough for imitation learning. Then, we propose a hierarchical policy architecture that lets us use partially trained control policies to speed up the TAMP solver. In robotic manipulation tasks with 7-DoF joint control, the partially trained policies reduce the time needed for planning by a factor of up to 2.6. Among these tasks, we can learn a policy that solves the RoboSuite 4-object pick-place task 88% of the time from object pose observations and a policy that solves the RoboDesk 9-goal benchmark 79% of the time from RGB images (averaged across the 9 disparate tasks).


翻译:虽然现代政策优化方法可以对感官数据进行复杂的操纵,但是它们会因时间跨度延长和多个子目标的问题而挣扎。 另一方面,任务和运动规划方法(TAMP)的规模会长视远视,但计算成本很高,需要精确跟踪世界状态。我们建议一种方法,利用两种方法的力量:我们训练一项政策,模仿TAMP求解器的输出。这产生了一种进化前进政策,能够完成感官数据多步任务。首先,我们建立一个分散的不同步的TAMP求解器,能够产生足够快的模拟学习的监督数据。然后,我们提出一个等级政策架构,让我们使用经过部分训练的控制政策加快TAMP求解答器的速度。在7-DoF联合控制的机器人操作任务中,经过部分训练的政策将规划所需的时间减少到2.6倍。其中,我们可以学习一项政策,解决 RoboSite 4-object 将88%的时间从对象提出观测结果和解决 RGB 9- blassk 9- basal 基准时间(RGB 9-bosk bas- bas-bal legal grational lagal gradual gradual) graphal lax imx im) ty timedudududududududustress 79)。

0
下载
关闭预览

相关内容

达摩院基于元学习的对话系统
专知会员服务
25+阅读 · 2021年1月1日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
111+阅读 · 2020年6月10日
【Manning新书】现代Java实战,592页pdf
专知会员服务
101+阅读 · 2020年5月22日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
已删除
将门创投
4+阅读 · 2018年11月15日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Imitation by Predicting Observations
Arxiv
4+阅读 · 2021年7月8日
Arxiv
3+阅读 · 2021年6月9日
Arxiv
4+阅读 · 2021年4月13日
Arxiv
5+阅读 · 2021年2月8日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
达摩院基于元学习的对话系统
专知会员服务
25+阅读 · 2021年1月1日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
111+阅读 · 2020年6月10日
【Manning新书】现代Java实战,592页pdf
专知会员服务
101+阅读 · 2020年5月22日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
已删除
将门创投
4+阅读 · 2018年11月15日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员