Reinforcement Learning (RL) has shown remarkable success in real-world applications, particularly in robotics control. However, RL adoption remains limited due to insufficient safety guarantees. We introduce Nightmare Dreamer, a model-based Safe RL algorithm that addresses safety concerns by leveraging a learned world model to predict potential safety violations and plan actions accordingly. Nightmare Dreamer achieves nearly zero safety violations while maximizing rewards. Nightmare Dreamer outperforms model-free baselines on Safety Gymnasium tasks using only image observations, achieving nearly a 20x improvement in efficiency.


翻译:强化学习(RL)在现实世界应用中展现出卓越成效,尤其在机器人控制领域。然而,由于安全保证不足,强化学习的应用推广仍受限制。本文提出噩梦编织者——一种基于模型的安全强化学习算法,该算法通过利用学习得到的世界模型预测潜在安全违规行为并据此规划动作,从而应对安全性问题。噩梦编织者在最大化奖励的同时实现了近乎零安全违规。在仅使用图像观测的Safety Gymnasium任务中,噩梦编织者优于无模型基线方法,实现了近20倍的效率提升。

0
下载
关闭预览

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
PyTorch & PyTorch Geometric图神经网络(GNN)实战
专知
10+阅读 · 2019年6月1日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关资讯
PyTorch & PyTorch Geometric图神经网络(GNN)实战
专知
10+阅读 · 2019年6月1日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员