Exploratory Optimal Stopping: A Singular Control Formulation - 专知论文

会员服务 ·

0

最优 · 正则化 · 概率 · 算法 · 状态空间 ·

Exploratory Optimal Stopping: A Singular Control Formulation

翻译：探索式最优停止：一种奇异控制表述

Jodi Dianetti,Giorgio Ferrari,Renyuan Xu

from arxiv, 49 pages, 3 figures

This paper explores continuous-time and state-space optimal stopping problems from a reinforcement learning perspective. We begin by formulating the stopping problem using randomized stopping times, where the decision maker's control is represented by the probability of stopping within a given time-specifically, a bounded, non-decreasing, càdlàg control process. To encourage exploration and facilitate learning, we introduce a regularized version of the problem by penalizing the performance criterion with the cumulative residual entropy of the randomized stopping time. The regularized problem takes the form of an (n+1)-dimensional degenerate singular stochastic control with finite-fuel, where the regularized free boundary becomes the graph of a function mapping the state variable of the original stopping problem into the probability of stopping. We address this singular control problem through the dynamic programming principle, which enables us to identify the unique optimal exploratory strategy. Finally, we propose both model-based and model-free reinforcement learning algorithms tailored for exploratory optimal stopping problems. We establish policy improvement guarantees for the proposed algorithms. Moreover, the model-free method is of actor-critic type and it is scalable in high-dimensions under neural network parameterization.

翻译：本文从强化学习的角度探讨连续时间与状态空间的最优停止问题。我们首先使用随机化停止时间来表述停止问题，其中决策者的控制由给定时间内停止的概率表示——具体而言，这是一个有界、非递减的右连左极控制过程。为促进探索并辅助学习，我们通过用随机化停止时间的累积残差熵惩罚性能准则，引入了该问题的正则化版本。正则化问题呈现为具有有限燃料的(n+1)维退化奇异随机控制形式，其中正则化自由边界成为将原始停止问题的状态变量映射至停止概率的函数的图像。我们通过动态规划原理处理这一奇异控制问题，从而得以识别唯一的最优探索策略。最后，我们提出了专为探索式最优停止问题设计的基于模型与无模型强化学习算法。我们为所提算法建立了策略改进保证。此外，该无模型方法属于演员-评论家类型，在神经网络参数化下具备高维可扩展性。

0

相关内容

基于强化学习的最优控制指令模仿生成方法

基于强化学习的最优控制指令模仿生成方法

专知会员服务

35+阅读 · 2023年12月2日

【普林斯顿博士论文】高维强化学习与最优控制问题，121页pdf

【普林斯顿博士论文】高维强化学习与最优控制问题，121页pdf

专知会员服务

51+阅读 · 2023年7月25日

【Nature machine intelligence】闭型连续时间神经网络

【Nature machine intelligence】闭型连续时间神经网络

专知会员服务

30+阅读 · 2022年11月17日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【伯克利马毅老师】强化学习与最优控制综述

【伯克利马毅老师】强化学习与最优控制综述

专知会员服务

79+阅读 · 2022年4月26日

Kyoto大学Toshiyuki：快速复杂控制系统的实时优化，133页ppt

Kyoto大学Toshiyuki：快速复杂控制系统的实时优化，133页ppt

专知会员服务

45+阅读 · 2021年12月7日

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2021ASU课程，(附书稿PDF&讲义)

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2021ASU课程，(附书稿PDF&讲义)

专知会员服务

93+阅读 · 2021年1月17日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

67+阅读 · 2020年8月22日

深度学习在自动车辆控制中的应用研究综述（A Survey of Deep Learning Applications to Autonomous Vehicle Control）

深度学习在自动车辆控制中的应用研究综述（A Survey of Deep Learning Applications to Autonomous Vehicle Control）

专知会员服务

34+阅读 · 2019年12月25日

【干货书】凸随机优化，320页pdf

【干货书】凸随机优化，320页pdf

专知

12+阅读 · 2022年9月16日

【伯克利马毅老师】强化学习与最优控制综述

【伯克利马毅老师】强化学习与最优控制综述

专知

20+阅读 · 2022年4月26日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

专知

22+阅读 · 2018年12月17日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

偏微分方程最优控制问题的高精度低阶非协调有限元方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

最优控制问题H1-Galerkin混合有限元方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

状态切换的随机时滞系统的稳定性分析与控制及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多维斜反射倒向随机微分方程及最优转换和停止问题

国家自然科学基金

0+阅读 · 2015年12月31日

基于非凸控制区域的倒向重随机控制系统最优控制必要条件的研究

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

有限理性下的最优停止理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

保险金融市场中相依风险模型的随机最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

Stochastic Resetting Accelerates Policy Convergence in Reinforcement Learning

Arxiv

0+阅读 · 3月17日

Transformers As Generalizable Optimal Controllers

Arxiv

0+阅读 · 3月16日

Bayesian Modeling of Collatz Stopping Times: A Probabilistic Machine Learning Perspective

Arxiv

0+阅读 · 3月4日

Optimal Stopping in Latent Diffusion Models

Arxiv

0+阅读 · 3月2日

Stopping Rules for Stochastic Gradient Descent via Anytime-Valid Confidence Sequences

Arxiv

0+阅读 · 2月20日

Non-Asymptotic Analysis of (Sticky) Track-and-Stop

Arxiv

0+阅读 · 2月18日

A Data-Driven Algorithm for Model-Free Control Synthesis

Arxiv

0+阅读 · 2月13日

Stopping Rules for SGD via Anytime-Valid Confidence Sequences

Arxiv

0+阅读 · 2月10日

Optimal Derivative Feedback Control for an Active Magnetic Levitation System: An Experimental Study on Data-Driven Approaches

Arxiv

0+阅读 · 2月6日

Continual Learning through Control Minimization

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

10+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

9+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

3+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

5+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

7+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

5+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

7+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

8+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

7+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

9+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

9+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

8+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

相关VIP内容

基于强化学习的最优控制指令模仿生成方法

基于强化学习的最优控制指令模仿生成方法

专知会员服务

35+阅读 · 2023年12月2日

【普林斯顿博士论文】高维强化学习与最优控制问题，121页pdf

【普林斯顿博士论文】高维强化学习与最优控制问题，121页pdf

专知会员服务

51+阅读 · 2023年7月25日

【Nature machine intelligence】闭型连续时间神经网络

【Nature machine intelligence】闭型连续时间神经网络

专知会员服务

30+阅读 · 2022年11月17日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【伯克利马毅老师】强化学习与最优控制综述

【伯克利马毅老师】强化学习与最优控制综述

专知会员服务

79+阅读 · 2022年4月26日

Kyoto大学Toshiyuki：快速复杂控制系统的实时优化，133页ppt

Kyoto大学Toshiyuki：快速复杂控制系统的实时优化，133页ppt

专知会员服务

45+阅读 · 2021年12月7日

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2021ASU课程，(附书稿PDF&讲义)

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2021ASU课程，(附书稿PDF&讲义)

专知会员服务

93+阅读 · 2021年1月17日

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

最新《模仿学习(Imitation Learning》进展报告, 加州理工Yisong Yue教授，附下载

专知会员服务

41+阅读 · 2020年12月6日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

67+阅读 · 2020年8月22日

深度学习在自动车辆控制中的应用研究综述（A Survey of Deep Learning Applications to Autonomous Vehicle Control）

深度学习在自动车辆控制中的应用研究综述（A Survey of Deep Learning Applications to Autonomous Vehicle Control）

专知会员服务

34+阅读 · 2019年12月25日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

【干货书】凸随机优化，320页pdf

【干货书】凸随机优化，320页pdf

专知

12+阅读 · 2022年9月16日

【伯克利马毅老师】强化学习与最优控制综述

【伯克利马毅老师】强化学习与最优控制综述

专知

20+阅读 · 2022年4月26日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

浅谈主动学习（Active Learning）

浅谈主动学习（Active Learning）

凡人机器学习

32+阅读 · 2020年6月18日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF&讲义)

专知

22+阅读 · 2018年12月17日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

相关论文

Stochastic Resetting Accelerates Policy Convergence in Reinforcement Learning

Arxiv

0+阅读 · 3月17日

Transformers As Generalizable Optimal Controllers

Arxiv

0+阅读 · 3月16日

Bayesian Modeling of Collatz Stopping Times: A Probabilistic Machine Learning Perspective

Arxiv

0+阅读 · 3月4日

Optimal Stopping in Latent Diffusion Models

Arxiv

0+阅读 · 3月2日

Stopping Rules for Stochastic Gradient Descent via Anytime-Valid Confidence Sequences

Arxiv

0+阅读 · 2月20日

Non-Asymptotic Analysis of (Sticky) Track-and-Stop

Arxiv

0+阅读 · 2月18日

A Data-Driven Algorithm for Model-Free Control Synthesis

Arxiv

0+阅读 · 2月13日

Stopping Rules for SGD via Anytime-Valid Confidence Sequences

Arxiv

0+阅读 · 2月10日

Optimal Derivative Feedback Control for an Active Magnetic Levitation System: An Experimental Study on Data-Driven Approaches

Arxiv

0+阅读 · 2月6日

Continual Learning through Control Minimization

Arxiv

0+阅读 · 2月4日

相关基金

偏微分方程最优控制问题的高精度低阶非协调有限元方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

最优控制问题H1-Galerkin混合有限元方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

状态切换的随机时滞系统的稳定性分析与控制及应用

国家自然科学基金

0+阅读 · 2015年12月31日

多维斜反射倒向随机微分方程及最优转换和停止问题

国家自然科学基金

0+阅读 · 2015年12月31日

基于非凸控制区域的倒向重随机控制系统最优控制必要条件的研究

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

有限理性下的最优停止理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

保险金融市场中相依风险模型的随机最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员