Real-world decision-making systems operate in environments where state transitions depend not only on the agent's actions, but also on \textbf{exogenous factors outside its control}--competing agents, environmental disturbances, or strategic adversaries--formally, $s_{h+1} = f(s_h, a_h, \bar{a}_h)+ω_h$ where $\bar{a}_h$ is the adversary/external action, $a_h$ is the agent's action, and $ω_h$ is an additive noise. Ignoring such factors can yield policies that are optimal in isolation but \textbf{fail catastrophically in deployment}, particularly when safety constraints must be satisfied. Standard Constrained MDP formulations assume the agent is the sole driver of state evolution, an assumption that breaks down in safety-critical settings. Existing robust RL approaches address this via distributional robustness over transition kernels, but do not explicitly model the \textbf{strategic interaction} between agent and exogenous factor, and rely on strong assumptions about divergence from a known nominal model. We model the exogenous factor as an \textbf{adversarial policy} $\barπ$ that co-determines state transitions, and ask how an agent can remain both optimal and safe against such an adversary. \emph{To the best of our knowledge, this is the first work to study safety-constrained RL under explicit adversarial dynamics}. We propose \textbf{Robust Hallucinated Constrained Upper-Confidence RL} (\texttt{RHC-UCRL}), a model-based algorithm that maintains optimism over both agent and adversary policies, explicitly separating epistemic from aleatoric uncertainty. \texttt{RHC-UCRL} achieves sub-linear regret and constraint violation guarantees.


翻译:现实世界的决策系统运行在状态转移不仅取决于智能体行为、还取决于\textbf{其控制之外的外生因素}——竞争智能体、环境扰动或策略性对手——的环境中,形式化表示为 $s_{h+1} = f(s_h, a_h, \bar{a}_h)+ω_h$,其中 $\bar{a}_h$ 是对手/外部动作,$a_h$ 是智能体动作,$ω_h$ 是加性噪声。忽略此类因素可能产生在孤立环境中最优、但\textbf{在部署时灾难性失败}的策略,尤其是在必须满足安全约束的情况下。标准约束马尔可夫决策过程(CMDP)假设智能体是状态演化的唯一驱动力,这一假设在安全关键场景中失效。现有鲁棒强化学习方法通过转移核的分布鲁棒性应对此问题,但未显式建模智能体与外生因素之间的\textbf{策略性交互},且依赖于与已知名义模型之间散度的强假设。我们将外生因素建模为共同决定状态转移的\textbf{对抗性策略} $\barπ$,并探究智能体如何在面对此类对手时同时保持最优性与安全性。\emph{据我们所知,这是首个研究显式对抗性动力学下安全约束强化学习的工作}。我们提出\textbf{鲁棒幻觉约束上置信界强化学习}(\texttt{RHC-UCRL}),一种基于模型、同时对智能体与对手策略保持乐观主义的算法,明确分离认知不确定性与偶然不确定性。\texttt{RHC-UCRL} 实现了亚线性遗憾值与约束违反保证。

0
下载
关闭预览

相关内容

因果决策综述
专知会员服务
51+阅读 · 2025年3月1日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
迁移自适应学习最新综述,附21页论文下载
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
122+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 4月26日
VIP会员
相关主题
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
6+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
2+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
1+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
1+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
10+阅读 · 6月24日
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关VIP内容
因果决策综述
专知会员服务
51+阅读 · 2025年3月1日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
122+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员