We present Bayesian Controller Fusion (BCF): a hybrid control strategy that combines the strengths of traditional hand-crafted controllers and model-free deep reinforcement learning (RL). BCF thrives in the robotics domain, where reliable but suboptimal control priors exist for many tasks, but RL from scratch remains unsafe and data-inefficient. By fusing uncertainty-aware distributional outputs from each system, BCF arbitrates control between them, exploiting their respective strengths. We study BCF on two real-world robotics tasks involving navigation in a vast and long-horizon environment, and a complex reaching task that involves manipulability maximisation. For both these domains, simple handcrafted controllers exist that can solve the task at hand in a risk-averse manner but do not necessarily exhibit the optimal solution given limitations in analytical modelling, controller miscalibration and task variation. As exploration is naturally guided by the prior in the early stages of training, BCF accelerates learning, while substantially improving beyond the performance of the control prior, as the policy gains more experience. More importantly, given the risk-aversity of the control prior, BCF ensures safe exploration and deployment, where the control prior naturally dominates the action distribution in states unknown to the policy. We additionally show BCF's applicability to the zero-shot sim-to-real setting and its ability to deal with out-of-distribution states in the real world. BCF is a promising approach towards combining the complementary strengths of deep RL and traditional robotic control, surpassing what either can achieve independently. The code and supplementary video material are made publicly available at https://krishanrana.github.io/bcf.


翻译:我们提出贝叶斯控制器融合(Bayesian Controller Fusion, BCF):一种结合传统手工控制器与无模型深度强化学习(RL)优势的混合控制策略。BCF在机器人领域表现出色——该领域存在可靠但次优的控制先验可应用于诸多任务,而从头开始的强化学习仍存在安全性不足与数据效率低下的问题。通过融合各系统输出的不确定性感知分布,BCF在两种控制方式之间进行仲裁,发挥其各自优势。我们在两项真实机器人任务中研究了BCF:一是在广阔且长期规划环境中的导航任务,二是涉及可操作性最大化的复杂抓取任务。在这两类场景中,虽然存在能谨慎完成任务的手工控制器,但由于解析建模的局限性、控制器失准以及任务变异性,这些控制器未必能实现最优解。随着探索过程在训练初期自然受先验知识引导,BCF在加速学习的同时,随着策略积累更多经验,其性能显著超越控制先验。更重要的是,得益于控制先验的风险规避特性,BCF确保了安全探索与部署——当策略对未知状态缺乏认知时,控制先验自然主导动作分布。我们还展示了BCF在零样本模拟到现实场景中的适用性,及其处理真实世界中分布外状态的能力。BCF为深度强化学习与传统机器人控制的优势互补提供了可行方案,其综合性能超越任一独立方法所能达到的效果。相关代码与补充视频资料已公开于https://krishanrana.github.io/bcf。

0
下载
关闭预览

相关内容

【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
专知会员服务
214+阅读 · 2019年8月30日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
12+阅读 · 2023年1月19日
VIP会员
最新内容
马赛克战:俄乌战场透析
专知会员服务
7+阅读 · 今天4:12
《利用人工智能增强军事决策》
专知会员服务
1+阅读 · 今天4:09
《自动机器学习在军事数据耕耘法中的应用》
专知会员服务
3+阅读 · 今天4:02
为何指挥所生存能力要求范式转变
专知会员服务
1+阅读 · 今天3:54
打造“新蛛网”模式与高科技动员
专知会员服务
1+阅读 · 今天3:33
“蛛网”行动一周年:远程无人机战争
专知会员服务
1+阅读 · 今天3:23
【剑桥博士论文】智能体-环境协同优化
专知会员服务
5+阅读 · 6月9日
为初级军官战术训练设计生成式人工智能平台
专知会员服务
8+阅读 · 6月9日
《美军条令:作战伤员后送保障》
专知会员服务
6+阅读 · 6月9日
相关VIP内容
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
专知会员服务
214+阅读 · 2019年8月30日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员