Adversarial Latent-State Training for Robust Policies in Partially Observable Domains - 专知论文

会员服务 ·

0

潜在 · 鲁棒 · 对抗 · 样本 · 最优 ·

Adversarial Latent-State Training for Robust Policies in Partially Observable Domains

翻译：对抗性潜在状态训练：面向部分可观测领域的鲁棒策略

Angad Singh Ahuja

from arxiv, 25 pages, 3 figures

Robustness under latent distribution shift remains challenging in partially observable reinforcement learning. We formalize a focused setting where an adversary selects a hidden initial latent distribution before the episode, termed an adversarial latent-initial-state POMDP. Theoretically, we prove a latent minimax principle, characterize worst-case defender distributions, and derive approximate best-response inequalities with finite-sample concentration bounds that make the optimization and sampling terms explicit. Empirically, using a Battleship benchmark, we demonstrate that targeted exposure to shifted latent distributions reduces average robustness gaps between Spread and Uniform distributions from 10.3 to 3.1 shots at equal budget. Furthermore, iterative best-response training exhibits budget-sensitive behavior that is qualitatively consistent with the theorem-guided diagnostics once one accounts for discounted PPO surrogates and finite-sample noise. Ultimately, we show that for latent-initial-state problems, the framework yields a clean evaluation game and useful theorem-motivated diagnostics while also making clear where implementation-level surrogates and optimization limits enter.

翻译：在部分可观测强化学习中，潜在分布偏移下的鲁棒性仍然具有挑战性。我们形式化了一个聚焦设定：在回合开始前，对手选择一个隐藏的初始潜在分布，称为对抗性潜在初始状态部分可观测马尔可夫决策过程。理论上，我们证明了潜在极小极大原理，刻画了最坏情况下的防御者分布，并推导了具有有限样本集中界的最优响应近似不等式，这些不等式显式地表达了优化项与采样项。在实证研究中，通过使用海战基准测试，我们证明：在相同预算下，针对偏移潜在分布的有针对性暴露，能将Spread与Uniform分布之间的平均鲁棒性差距从10.3次射击降低至3.1次射击。此外，迭代最优响应训练展现出预算敏感行为，一旦考虑到折扣近端策略优化替代目标与有限样本噪声，该行为在性质上与定理指导的诊断结果一致。最终，我们表明对于潜在初始状态问题，该框架提供了一个清晰的评估博弈和实用的定理驱动诊断工具，同时明确了实现层面的替代目标与优化限制所在。

0

相关内容

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

专知会员服务

26+阅读 · 2025年12月9日

《多视角时空一致多模态感知目标检测的对抗鲁棒性研究》DARPA赞助最新96页技术报告

《多视角时空一致多模态感知目标检测的对抗鲁棒性研究》DARPA赞助最新96页技术报告

专知会员服务

23+阅读 · 2025年7月3日

【NTU博士论文】鲁棒和自适应的决策制定：从强化学习的视角，162页pdf

【NTU博士论文】鲁棒和自适应的决策制定：从强化学习的视角，162页pdf

专知会员服务

38+阅读 · 2024年1月17日

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

专知会员服务

24+阅读 · 2023年8月29日

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

专知会员服务

41+阅读 · 2023年4月20日

如何理解对抗鲁棒性和差分隐私？【MIT】鲁棒性意味着统计估计中的隐私，87页pdf

如何理解对抗鲁棒性和差分隐私？【MIT】鲁棒性意味着统计估计中的隐私，87页pdf

专知会员服务

17+阅读 · 2023年1月11日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

专知会员服务

28+阅读 · 2022年4月7日

【AAAI2021】属性引导对抗训练的自然扰动鲁棒性

专知会员服务

26+阅读 · 2021年1月21日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

专知

11+阅读 · 2022年9月29日

模型攻击：鲁棒性联邦学习研究的最新进展

模型攻击：鲁棒性联邦学习研究的最新进展

机器之心

35+阅读 · 2020年6月3日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

局部学习的特征选择：Local-Learning-Based Feature Selection

局部学习的特征选择：Local-Learning-Based Feature Selection

我爱读PAMI

14+阅读 · 2019年9月20日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

机器之心

15+阅读 · 2018年3月5日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

武器装备体系架构的跨领域组合决策分析与冲突消解方法

国家自然科学基金

119+阅读 · 2015年12月31日

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

低保守性自适应鲁棒优化及其在含大规模风电电网调度中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于扩展状态观测器的不确定分数阶系统镇定设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

Safe Distributionally Robust Feature Selection under Covariate Shift

Arxiv

0+阅读 · 3月17日

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Arxiv

0+阅读 · 3月10日

Non-Rectangular Average-Reward Robust MDPs: Optimal Policies and Their Transient Values

Arxiv

0+阅读 · 3月10日

Robust Transfer Learning with Side Information

Arxiv

0+阅读 · 3月9日

Sparse Offline Reinforcement Learning with Corruption Robustness

Arxiv

0+阅读 · 3月7日

Robustness of Agentic AI Systems via Adversarially-Aligned Jacobian Regularization

Arxiv

0+阅读 · 3月4日

Provable Adversarial Robustness in In-Context Learning

Arxiv

0+阅读 · 2月19日

TCRL: Temporal-Coupled Adversarial Training for Robust Constrained Reinforcement Learning in Worst-Case Scenarios

Arxiv

0+阅读 · 2月13日

Finite-State Controllers for (Hidden-Model) POMDPs using Deep Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

0+阅读 · 今天15:39

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

4+阅读 · 今天11:17

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

3+阅读 · 今天11:09

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

4+阅读 · 今天4:55

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

5+阅读 · 今天4:33

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

9+阅读 · 今天4:29

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

6+阅读 · 今天4:27

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

15+阅读 · 今天4:20

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

9+阅读 · 今天2:39

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

7+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

9+阅读 · 4月28日

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

专知会员服务

8+阅读 · 4月28日

美海警海上态势感知无人系统

美海警海上态势感知无人系统

专知会员服务

6+阅读 · 4月28日

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

专知会员服务

10+阅读 · 4月28日

《释放自主力量：将人工智能驱动无人机融入现代军事战略》

《释放自主力量：将人工智能驱动无人机融入现代军事战略》

专知会员服务

15+阅读 · 4月28日

相关VIP内容

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

专知会员服务

26+阅读 · 2025年12月9日

《多视角时空一致多模态感知目标检测的对抗鲁棒性研究》DARPA赞助最新96页技术报告

《多视角时空一致多模态感知目标检测的对抗鲁棒性研究》DARPA赞助最新96页技术报告

专知会员服务

23+阅读 · 2025年7月3日

【NTU博士论文】鲁棒和自适应的决策制定：从强化学习的视角，162页pdf

【NTU博士论文】鲁棒和自适应的决策制定：从强化学习的视角，162页pdf

专知会员服务

38+阅读 · 2024年1月17日

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度

专知会员服务

24+阅读 · 2023年8月29日

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

专知会员服务

41+阅读 · 2023年4月20日

如何理解对抗鲁棒性和差分隐私？【MIT】鲁棒性意味着统计估计中的隐私，87页pdf

如何理解对抗鲁棒性和差分隐私？【MIT】鲁棒性意味着统计估计中的隐私，87页pdf

专知会员服务

17+阅读 · 2023年1月11日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

图网络如何对抗防御？佐治亚理工最新《图脆弱性与鲁棒性》综述论文，概述图鲁棒性度量、攻击与防御

专知会员服务

28+阅读 · 2022年4月7日

【AAAI2021】属性引导对抗训练的自然扰动鲁棒性

专知会员服务

26+阅读 · 2021年1月21日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

热门VIP内容

开通专知VIP会员享更多权益服务

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

推荐！《对抗性在线学习》【译文】美国海军研究实验室项目总结报告

专知

11+阅读 · 2022年9月29日

模型攻击：鲁棒性联邦学习研究的最新进展

模型攻击：鲁棒性联邦学习研究的最新进展

机器之心

35+阅读 · 2020年6月3日

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

最新《迁移学习:域自适应理论》综述论文，128页ppt讲解迁移学习与最优传输

专知

16+阅读 · 2020年4月27日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

局部学习的特征选择：Local-Learning-Based Feature Selection

局部学习的特征选择：Local-Learning-Based Feature Selection

我爱读PAMI

14+阅读 · 2019年9月20日

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

【对抗学习综述论文】-宾西法利亚大学-统计分类中的对抗性学习:对攻击防御的全面回顾

专知

23+阅读 · 2019年4月15日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

学界 | 综述论文：对抗攻击的12种攻击方法和15种防御方法

机器之心

15+阅读 · 2018年3月5日

相关论文

Safe Distributionally Robust Feature Selection under Covariate Shift

Arxiv

0+阅读 · 3月17日

Strategically Robust Multi-Agent Reinforcement Learning with Linear Function Approximation

Arxiv

0+阅读 · 3月10日

Non-Rectangular Average-Reward Robust MDPs: Optimal Policies and Their Transient Values

Arxiv

0+阅读 · 3月10日

Robust Transfer Learning with Side Information

Arxiv

0+阅读 · 3月9日

Sparse Offline Reinforcement Learning with Corruption Robustness

Arxiv

0+阅读 · 3月7日

Robustness of Agentic AI Systems via Adversarially-Aligned Jacobian Regularization

Arxiv

0+阅读 · 3月4日

Provable Adversarial Robustness in In-Context Learning

Arxiv

0+阅读 · 2月19日

TCRL: Temporal-Coupled Adversarial Training for Robust Constrained Reinforcement Learning in Worst-Case Scenarios

Arxiv

0+阅读 · 2月13日

Finite-State Controllers for (Hidden-Model) POMDPs using Deep Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月3日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

武器装备体系架构的跨领域组合决策分析与冲突消解方法

国家自然科学基金

119+阅读 · 2015年12月31日

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

低保守性自适应鲁棒优化及其在含大规模风电电网调度中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于扩展状态观测器的不确定分数阶系统镇定设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员