This paper explores continuous-time and state-space optimal stopping problems from a reinforcement learning perspective. We begin by formulating the stopping problem using randomized stopping times, where the decision maker's control is represented by the probability of stopping within a given time-specifically, a bounded, non-decreasing, càdlàg control process. To encourage exploration and facilitate learning, we introduce a regularized version of the problem by penalizing the performance criterion with the cumulative residual entropy of the randomized stopping time. The regularized problem takes the form of an (n+1)-dimensional degenerate singular stochastic control with finite-fuel, where the regularized free boundary becomes the graph of a function mapping the state variable of the original stopping problem into the probability of stopping. We address this singular control problem through the dynamic programming principle, which enables us to identify the unique optimal exploratory strategy. Finally, we propose both model-based and model-free reinforcement learning algorithms tailored for exploratory optimal stopping problems. We establish policy improvement guarantees for the proposed algorithms. Moreover, the model-free method is of actor-critic type and it is scalable in high-dimensions under neural network parameterization.


翻译:本文从强化学习的角度探讨连续时间与状态空间的最优停止问题。我们首先使用随机化停止时间来表述停止问题,其中决策者的控制由给定时间内停止的概率表示——具体而言,这是一个有界、非递减的右连左极控制过程。为促进探索并辅助学习,我们通过用随机化停止时间的累积残差熵惩罚性能准则,引入了该问题的正则化版本。正则化问题呈现为具有有限燃料的(n+1)维退化奇异随机控制形式,其中正则化自由边界成为将原始停止问题的状态变量映射至停止概率的函数的图像。我们通过动态规划原理处理这一奇异控制问题,从而得以识别唯一的最优探索策略。最后,我们提出了专为探索式最优停止问题设计的基于模型与无模型强化学习算法。我们为所提算法建立了策略改进保证。此外,该无模型方法属于演员-评论家类型,在神经网络参数化下具备高维可扩展性。

0
下载
关闭预览

相关内容

基于强化学习的最优控制指令模仿生成方法
专知会员服务
35+阅读 · 2023年12月2日
【Nature machine intelligence】闭型连续时间神经网络
专知会员服务
30+阅读 · 2022年11月17日
【伯克利马毅老师】强化学习与最优控制综述
专知会员服务
78+阅读 · 2022年4月26日
Kyoto大学Toshiyuki:快速复杂控制系统的实时优化,133页ppt
【干货书】凸随机优化,320页pdf
专知
12+阅读 · 2022年9月16日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
0+阅读 · 7分钟前
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
2+阅读 · 22分钟前
基于声学的无人机检测技术综述
专知会员服务
3+阅读 · 34分钟前
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
6+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员