Constrained MDPs (CMDPs) are a widely adopted framework for incorporating safety into RL agents; however, the framework does not support risk-sensitive constraints. This can be problematic: For example, CMDPs allow for optimal solutions that, in order to satisfy the risk-neutral constraints, mix infrequent catastrophic behaviors and frequent, overly conservative ones. Moreover, prior empirical results suggest that enforcing stricter, risk-sensitive constraints can improve performance even under risk-neutral evaluation. The natural framework to incorporate risk-sensitive constraints is utility-constrained MDPs (UCMDPs), but no practical solutions for this problem existed. In this work, we introduce a simple yet powerful methodology for UCMDPs and constrained RL. Besides allowing for risk-sensitive constraints, our framework does not require us to fix constraint limits in advance of training the agent, provided that a sensible range is known. This increases policy flexibility and, in practice, allows for adjustments to these limits at no extra training cost. Besides benefiting from the generality of the framework, our agent shows strong performance in practice, consistently matching or outperforming existing baselines in several Safety Gymnasium benchmark tasks.


翻译:约束马尔可夫决策过程(CMDPs)是将安全性纳入强化学习智能体的广泛采用框架,然而该框架不支持风险敏感约束。这可能带来问题:例如,CMDPs允许这样的最优解——为满足风险中性约束,算法会混合罕见的灾难性行为和频繁的过度保守行为。此外,先前的实证结果表明,即使在风险中性评估下,执行更严格的风险敏感约束也能提升性能。自然适用于纳入风险敏感约束的框架是效用约束马尔可夫决策过程(UCMDPs),但此前尚无该问题的实用解决方案。在本工作中,我们提出了一种简单而强大的UCMDPs及约束强化学习方法。除支持风险敏感约束外,只要已知合理范围,我们的框架无需在训练智能体前预先固定约束限值。这增加了策略灵活性,在实际应用中允许在不增加额外训练成本的情况下调整这些限值。除了得益于该框架的通用性,我们的智能体在实践中展现出强劲性能,在多个Safety Gymnasium基准任务中始终匹配或超越现有基线。

0
下载
关闭预览

相关内容

《面向大规模决策的分布式优化架构》247页
专知会员服务
24+阅读 · 5月12日
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
29+阅读 · 2025年11月17日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
机器学习组合优化
专知会员服务
111+阅读 · 2021年2月16日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月26日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员