Robust Exploratory Stopping under Ambiguity in Reinforcement Learning - 专知论文

会员服务 ·

0

模糊性 · 鲁棒 · 最优 · 强化学习 · 伯努利分布 ·

Robust Exploratory Stopping under Ambiguity in Reinforcement Learning

翻译：强化学习中模糊性下的鲁棒探索式停时

Junyan Ye,Hoi Ying Wong,Kyunghyun Park

from arxiv, 31 pages, 9 figures, 1 table

We propose and analyze a continuous-time robust reinforcement learning framework for optimal stopping under ambiguity. In this framework, an agent chooses a robust exploratory stopping time motivated by two objectives: robust decision-making under ambiguity and learning about the unknown environment. Here, ambiguity refers to considering multiple probability measures dominated by a reference measure, reflecting the agent's awareness that the reference measure representing her learned belief about the environment would be erroneous. Using the $g$-expectation framework, we reformulate the optimal stopping problem under ambiguity as a robust exploratory control problem with Bernoulli distributed controls. We then characterize the optimal Bernoulli distributed control via backward stochastic differential equations and, based on this, construct the robust exploratory stopping time that approximates the optimal stopping time under ambiguity. Last, we establish a policy iteration theorem and implement it as a reinforcement learning algorithm. Numerical experiments demonstrate the convergence, robustness, and scalability of our reinforcement learning algorithm across different levels of ambiguity and exploration.

翻译：我们提出并分析了一种连续时间下的模糊性最优停时鲁棒强化学习框架。在该框架中，智能体基于两个目标选择鲁棒探索式停时：模糊性下的鲁棒决策以及未知环境的探索学习。此处，模糊性指考虑由参考测度支配的多个概率测度，反映了智能体意识到代表其对环境学习信念的参考测度可能存在偏差。利用g-期望框架，我们将模糊性下的最优停时问题重新表述为带有伯努利分布控制的鲁棒探索控制问题。随后，通过倒向随机微分方程刻画最优伯努利分布控制，并在此基础上构造出逼近模糊性下最优停时的鲁棒探索式停时。最后，我们建立了策略迭代定理，并将其实现为强化学习算法。数值实验展示了该强化学习算法在不同模糊性与探索水平下的收敛性、鲁棒性与可扩展性。

0

相关内容

模糊性

【博士论文】用于排序与扩散模型的安全、高效与鲁棒强化学习

【博士论文】用于排序与扩散模型的安全、高效与鲁棒强化学习

专知会员服务

11+阅读 · 2025年10月21日

【CMU博士论文】基于课程学习的鲁棒强化学习

【CMU博士论文】基于课程学习的鲁棒强化学习

专知会员服务

20+阅读 · 2025年3月27日

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

专知会员服务

29+阅读 · 2024年8月26日

《有限时间范围鲁棒性在导弹交战中的应用》165页

《有限时间范围鲁棒性在导弹交战中的应用》165页

专知会员服务

40+阅读 · 2024年4月8日

【NTU博士论文】鲁棒和自适应的决策制定：从强化学习的视角，162页pdf

【NTU博士论文】鲁棒和自适应的决策制定：从强化学习的视角，162页pdf

专知会员服务

38+阅读 · 2024年1月17日

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

专知会员服务

42+阅读 · 2023年4月20日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

26+阅读 · 2022年11月2日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

鲁棒表示学习简述

专知会员服务

26+阅读 · 2021年4月13日

鲁棒模式识别研究进展

鲁棒模式识别研究进展

专知会员服务

41+阅读 · 2020年8月9日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

有限理性下的最优停止理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于离散化Lyapunov-Krasovskii泛函方法的时滞Markov跳变系统分析与综合

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

2+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Robust Deepfake Detection: Mitigating Spatial Attention Drift via Calibrated Complementary Ensembles

Arxiv

0+阅读 · 4月28日

Learning-Based Dynamics Modeling and Robust Control for Tendon-Driven Continuum Robots

Arxiv

0+阅读 · 4月28日

Near-Optimal Sample Complexities of Divergence-based S-rectangular Distributionally Robust Reinforcement Learning

Arxiv

0+阅读 · 4月28日

OFlow: Injecting Object-Aware Temporal Flow Matching for Robust Robotic Manipulation

Arxiv

0+阅读 · 4月20日

Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise

Arxiv

0+阅读 · 4月10日

Robust Learning of Heterogeneous Dynamic Systems

Arxiv

0+阅读 · 4月7日

Exploratory Optimal Stopping: A Singular Control Formulation

Arxiv

0+阅读 · 3月11日

Robust Provably Secure Image Steganography via Latent Iterative Optimization

Arxiv

0+阅读 · 3月10日

Sparse Offline Reinforcement Learning with Corruption Robustness

Arxiv

0+阅读 · 3月7日

Conformal Signal Temporal Logic for Robust Reinforcement Learning Control: A Case Study

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

伯努利分布

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

5+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

2+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

2+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

13+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【博士论文】用于排序与扩散模型的安全、高效与鲁棒强化学习

【博士论文】用于排序与扩散模型的安全、高效与鲁棒强化学习

专知会员服务

11+阅读 · 2025年10月21日

【CMU博士论文】基于课程学习的鲁棒强化学习

【CMU博士论文】基于课程学习的鲁棒强化学习

专知会员服务

20+阅读 · 2025年3月27日

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

专知会员服务

29+阅读 · 2024年8月26日

《有限时间范围鲁棒性在导弹交战中的应用》165页

《有限时间范围鲁棒性在导弹交战中的应用》165页

专知会员服务

40+阅读 · 2024年4月8日

【NTU博士论文】鲁棒和自适应的决策制定：从强化学习的视角，162页pdf

【NTU博士论文】鲁棒和自适应的决策制定：从强化学习的视角，162页pdf

专知会员服务

38+阅读 · 2024年1月17日

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

《网络防御中深度学习方法的鲁棒性和脆弱性测量》72页论文

专知会员服务

42+阅读 · 2023年4月20日

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

《电力系统机器学习的鲁棒性》美海军研究生院2022最新64页论文

专知会员服务

26+阅读 · 2022年11月2日

【ICML2022】鲁棒强化学习的策略梯度法

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

38+阅读 · 2022年5月21日

鲁棒表示学习简述

专知会员服务

26+阅读 · 2021年4月13日

鲁棒模式识别研究进展

鲁棒模式识别研究进展

专知会员服务

41+阅读 · 2020年8月9日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

20+阅读 · 2020年9月1日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

强化学习的两大话题之一，仍有极大探索空间

强化学习的两大话题之一，仍有极大探索空间

AI科技评论

22+阅读 · 2020年8月22日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

相关论文

Robust Deepfake Detection: Mitigating Spatial Attention Drift via Calibrated Complementary Ensembles

Arxiv

0+阅读 · 4月28日

Learning-Based Dynamics Modeling and Robust Control for Tendon-Driven Continuum Robots

Arxiv

0+阅读 · 4月28日

Near-Optimal Sample Complexities of Divergence-based S-rectangular Distributionally Robust Reinforcement Learning

Arxiv

0+阅读 · 4月28日

OFlow: Injecting Object-Aware Temporal Flow Matching for Robust Robotic Manipulation

Arxiv

0+阅读 · 4月20日

Seeing is Believing: Robust Vision-Guided Cross-Modal Prompt Learning under Label Noise

Arxiv

0+阅读 · 4月10日

Robust Learning of Heterogeneous Dynamic Systems

Arxiv

0+阅读 · 4月7日

Exploratory Optimal Stopping: A Singular Control Formulation

Arxiv

0+阅读 · 3月11日

Robust Provably Secure Image Steganography via Latent Iterative Optimization

Arxiv

0+阅读 · 3月10日

Sparse Offline Reinforcement Learning with Corruption Robustness

Arxiv

0+阅读 · 3月7日

Conformal Signal Temporal Logic for Robust Reinforcement Learning Control: A Case Study

Arxiv

0+阅读 · 2月22日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

带有随机干扰的非齐次马尔科夫跳变系统的鲁棒滤波研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

有限理性下的最优停止理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于离散化Lyapunov-Krasovskii泛函方法的时滞Markov跳变系统分析与综合

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

2+阅读 · 2015年12月31日

不确定环境下具有稀疏特征的鲁棒投资组合选择问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员