Robustness under latent distribution shift remains challenging in partially observable reinforcement learning. We formalize a focused setting where an adversary selects a hidden initial latent distribution before the episode, termed an adversarial latent-initial-state POMDP. Theoretically, we prove a latent minimax principle, characterize worst-case defender distributions, and derive approximate best-response certificates with finite-sample guarantees, providing formal meaning to empirical training diagnostics. Empirically, using a Battleship benchmark, we demonstrate that targeted exposure to shifted latent distributions reduces average robustness gaps between Spread and Uniform distributions from 10.3 to 3.1 shots at equal budget. Furthermore, iterative best-response training exhibits budget-sensitive behavior entirely consistent with our approximate certificate theory. Ultimately, we show that for latent-initial-state problems, our framework yields precise diagnostic principles and confirms that structured adversarial exposure effectively mitigates worst-case vulnerabilities.


翻译:在部分可观测强化学习中,潜在分布偏移下的鲁棒性仍然具有挑战性。我们形式化了一个聚焦设定:在回合开始前,对手选择一个隐藏的初始潜在分布,称为对抗性潜在初始状态POMDP。理论上,我们证明了潜在极小极大原理,刻画了最坏情况下的防御者分布,并推导出具有有限样本保证的近似最优响应证明,为经验训练诊断提供了形式化意义。在实验中,通过使用Battleship基准测试,我们证明针对偏移潜在分布的有针对性暴露,在相同预算下可将Spread分布与Uniform分布之间的平均鲁棒性差距从10.3次射击降低至3.1次射击。此外,迭代最优响应训练展现出与我们的近似证明理论完全一致的预算敏感行为。最终,我们表明对于潜在初始状态问题,我们的框架产生了精确的诊断原则,并证实结构化的对抗性暴露能有效缓解最坏情况下的脆弱性。

0
下载
关闭预览

相关内容

【博士论文】对抗鲁棒性深度学习算法
专知会员服务
16+阅读 · 2025年9月29日
【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度
面向图像分类的对抗鲁棒性评估综述
专知会员服务
59+阅读 · 2022年10月15日
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
38+阅读 · 2022年5月21日
专知会员服务
26+阅读 · 2021年4月13日
专知会员服务
26+阅读 · 2021年1月21日
模型攻击:鲁棒性联邦学习研究的最新进展
机器之心
35+阅读 · 2020年6月3日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
121+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
最新内容
【剑桥博士论文】智能体-环境协同优化
专知会员服务
3+阅读 · 今天14:33
为初级军官战术训练设计生成式人工智能平台
专知会员服务
5+阅读 · 今天6:43
《美军条令:作战伤员后送保障》
专知会员服务
4+阅读 · 今天6:38
《美空军条令出版物 4-0,维持》
专知会员服务
4+阅读 · 今天6:32
《基于仿真的空军任务规划优化》
专知会员服务
4+阅读 · 今天6:21
相关VIP内容
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
121+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员