噩梦编织者：预见不安全状态与前瞻性规划 (Nightmare Dreamer: Dreaming About Unsafe States And Planning Ahead) - 专知论文

会员服务 ·

0

算法 · 强化学习 · 机器人控制 · 安全强化学习 · 强化学习算法 ·

Nightmare Dreamer: Dreaming About Unsafe States And Planning Ahead

翻译：噩梦编织者：预见不安全状态与前瞻性规划

Oluwatosin Oseni,Shengjie Wang,Jun Zhu,Micah Corah

from arxiv, RSS'25: Multi-Objective Optimization and Planning in Robotics Workshop: 5 pages, 8 figures

Reinforcement Learning (RL) has shown remarkable success in real-world applications, particularly in robotics control. However, RL adoption remains limited due to insufficient safety guarantees. We introduce Nightmare Dreamer, a model-based Safe RL algorithm that addresses safety concerns by leveraging a learned world model to predict potential safety violations and plan actions accordingly. Nightmare Dreamer achieves nearly zero safety violations while maximizing rewards. Nightmare Dreamer outperforms model-free baselines on Safety Gymnasium tasks using only image observations, achieving nearly a 20x improvement in efficiency.

翻译：强化学习（RL）在现实世界应用中展现出卓越成效，尤其在机器人控制领域。然而，由于安全保证不足，强化学习的应用推广仍受限制。本文提出噩梦编织者——一种基于模型的安全强化学习算法，该算法通过利用学习得到的世界模型预测潜在安全违规行为并据此规划动作，从而应对安全性问题。噩梦编织者在最大化奖励的同时实现了近乎零安全违规。在仅使用图像观测的Safety Gymnasium任务中，噩梦编织者优于无模型基线方法，实现了近20倍的效率提升。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

现实世界中的统计强化学习：挑战与未来方向综述

现实世界中的统计强化学习：挑战与未来方向综述

专知会员服务

18+阅读 · 1月30日

真实世界中的统计强化学习：挑战与未来方向综述

真实世界中的统计强化学习：挑战与未来方向综述

专知会员服务

12+阅读 · 1月23日

《强化学习的应用及其在战争战术模拟技术中的扩展》

《强化学习的应用及其在战争战术模拟技术中的扩展》

专知会员服务

27+阅读 · 2025年1月14日

《基于深度强化学习的战场策略》

《基于深度强化学习的战场策略》

专知会员服务

37+阅读 · 2025年1月13日

【博士论文】安全的线上和线下强化学习，142页pdf

【博士论文】安全的线上和线下强化学习，142页pdf

专知会员服务

23+阅读 · 2024年6月12日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【新书推荐】清华最新《RL for Sequential Decision and Optimal Control》书籍

【新书推荐】清华最新《RL for Sequential Decision and Optimal Control》书籍

专知会员服务

74+阅读 · 2023年5月21日

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

58+阅读 · 2022年12月10日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

专知会员服务

59+阅读 · 2019年12月9日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【2022新书】强化学习工业应用

【2022新书】强化学习工业应用

专知

18+阅读 · 2022年2月3日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

恐怖组织网络动态演化与干预策略研究

国家自然科学基金

0+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Diversity or Precision? A Deep Dive into Next Token Prediction

Arxiv

0+阅读 · 2月5日

Beware Untrusted Simulators -- Reward-Free Backdoor Attacks in Reinforcement Learning

Arxiv

0+阅读 · 2月4日

Diversity or Precision? A Deep Dive into Next Token Prediction

Arxiv

0+阅读 · 2月4日

Can David Beat Goliath? On Multi-Hop Reasoning with Resource-Constrained Agents

Arxiv

0+阅读 · 1月29日

Smart Exploration in Reinforcement Learning using Bounded Uncertainty Models

Arxiv

0+阅读 · 1月28日

DREAMSTATE: Diffusing States and Parameters for Recurrent Large Language Models

Arxiv

0+阅读 · 1月27日

Statistical Reinforcement Learning in the Real World: A Survey of Challenges and Future Directions

Arxiv

0+阅读 · 1月21日

Environment as Policy: Learning to Race in Unseen Tracks

Arxiv

0+阅读 · 1月14日

Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error

Arxiv

0+阅读 · 1月6日

Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

机器人控制

安全强化学习

强化学习算法

相关VIP内容

现实世界中的统计强化学习：挑战与未来方向综述

现实世界中的统计强化学习：挑战与未来方向综述

专知会员服务

18+阅读 · 1月30日

真实世界中的统计强化学习：挑战与未来方向综述

真实世界中的统计强化学习：挑战与未来方向综述

专知会员服务

12+阅读 · 1月23日

《强化学习的应用及其在战争战术模拟技术中的扩展》

《强化学习的应用及其在战争战术模拟技术中的扩展》

专知会员服务

27+阅读 · 2025年1月14日

《基于深度强化学习的战场策略》

《基于深度强化学习的战场策略》

专知会员服务

37+阅读 · 2025年1月13日

【博士论文】安全的线上和线下强化学习，142页pdf

【博士论文】安全的线上和线下强化学习，142页pdf

专知会员服务

23+阅读 · 2024年6月12日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【新书推荐】清华最新《RL for Sequential Decision and Optimal Control》书籍

【新书推荐】清华最新《RL for Sequential Decision and Optimal Control》书籍

专知会员服务

74+阅读 · 2023年5月21日

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

58+阅读 · 2022年12月10日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

专知会员服务

59+阅读 · 2019年12月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【2022新书】强化学习工业应用

【2022新书】强化学习工业应用

专知

18+阅读 · 2022年2月3日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Diversity or Precision? A Deep Dive into Next Token Prediction

Arxiv

0+阅读 · 2月5日

Beware Untrusted Simulators -- Reward-Free Backdoor Attacks in Reinforcement Learning

Arxiv

0+阅读 · 2月4日

Diversity or Precision? A Deep Dive into Next Token Prediction

Arxiv

0+阅读 · 2月4日

Can David Beat Goliath? On Multi-Hop Reasoning with Resource-Constrained Agents

Arxiv

0+阅读 · 1月29日

Smart Exploration in Reinforcement Learning using Bounded Uncertainty Models

Arxiv

0+阅读 · 1月28日

DREAMSTATE: Diffusing States and Parameters for Recurrent Large Language Models

Arxiv

0+阅读 · 1月27日

Statistical Reinforcement Learning in the Real World: A Survey of Challenges and Future Directions

Arxiv

0+阅读 · 1月21日

Environment as Policy: Learning to Race in Unseen Tracks

Arxiv

0+阅读 · 1月14日

Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error

Arxiv

0+阅读 · 1月6日

Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error

Arxiv

0+阅读 · 1月5日

相关基金

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

面向社交大数据的热点事件预测

国家自然科学基金

11+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

恐怖组织网络动态演化与干预策略研究

国家自然科学基金

0+阅读 · 2014年12月31日

网络的小世界结构及其上随机游动的混合时

国家自然科学基金

1+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员