Simulation based solvers for optimal stopping problems must discretize the stopping decision. Under classical dynamic programming, a coarse exercise grid with only a few stopping opportunities can materially undervalue the optimal expected reward, whereas on a very fine grid, approximation errors accumulate through the backward recursion. To remove this limitation, we develop a new reinforcement-learning inspired algorithm that enables us to learn the exercise rule at arbitrarily fine time resolution. Our CARLOS (Continuous-time Adaptive Reinforcement Learning for Optimal Stopping) algorithm utilizes an aggregate deep neural network (ADNN) to learn a joint space-time decision boundary. Starting from a coarse time grid, we progressively increase the frequency of stopping opportunities, while in parallel training the ADNN to refine its timing-value estimates. We moreover design an adaptive sampling strategy that gradually concentrates training effort near the stopping boundary. Benchmarked results show that CARLOS delivers higher prices than existing Bermudan solvers, approaching the American upper bound, and achieves high computational efficiency relative to non-RL comparators.


翻译:针对最优停止问题的仿真求解器必须对停止决策进行离散化处理。在经典动态规划框架下,稀疏的停息网格仅有少量停止机会会实质性低估最优期望回报,而在极细网格上,近似误差会通过反向递归不断累积。为突破这一局限,我们提出了一种受强化学习启发的新型算法,能够在任意精细的时间分辨率下学习停止规则。我们的CARLOS(连续时间自适应强化学习最优停止)算法利用聚合深度神经网络学习联合时空决策边界。从粗时间网格出发,我们逐步增加停止机会的频率,同时并行训练ADNN以优化其时序价值估计。此外,我们设计了一种自适应采样策略,能够将训练资源逐步集中于停止边界附近。基准测试结果表明,CARLOS可获得高于现有百慕大求解器的定价,接近美式期权上界,并在计算效率上显著优于非强化学习对比方法。

0
下载
关闭预览

相关内容

基于强化学习的最优控制指令模仿生成方法
专知会员服务
35+阅读 · 2023年12月2日
【Nature machine intelligence】闭型连续时间神经网络
专知会员服务
30+阅读 · 2022年11月17日
专知会员服务
15+阅读 · 2021年9月25日
【Uber AI新论文】持续元学习,Learning to Continually Learn
专知会员服务
37+阅读 · 2020年2月27日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员