We develop a reinforcement learning (RL) framework for insurance loss reserving that formulates reserve setting as a finite-horizon sequential decision problem under claim development uncertainty, macroeconomic stress, and solvency governance. The reserving process is modeled as a Markov Decision Process (MDP) in which reserve adjustments influence future reserve adequacy, capital efficiency, and solvency outcomes. A Proximal Policy Optimization (PPO) agent is trained using a risk-sensitive reward that penalizes reserve shortfall, capital inefficiency, and breaches of a volatility-adjusted solvency floor, with tail risk explicitly controlled through Conditional Value-at-Risk (CVaR). To reflect regulatory stress-testing practice, the agent is trained under a regime-aware curriculum and evaluated using both regime-stratified simulations and fixed-shock stress scenarios. Empirical results for Workers Compensation and Other Liability illustrate how the proposed RL-CVaR policy improves tail-risk control and reduces solvency violations relative to classical actuarial reserving methods, while maintaining comparable capital efficiency. We further discuss calibration and governance considerations required to align model parameters with firm-specific risk appetite and supervisory expectations under Solvency II and Own Risk and Solvency Assessment (ORSA) frameworks.


翻译:我们提出一种面向保险损失准备金计提的强化学习(RL)框架,将准备金设定建模为在索赔发展不确定性、宏观经济压力与偿付能力治理约束下的有限期序贯决策问题。该准备金过程被形式化为马尔可夫决策过程(MDP),其中准备金调整将影响未来准备金充足性、资本效率及偿付能力结果。采用近端策略优化(PPO)智能体进行训练,其风险敏感型奖励函数对准备金短缺、资本低效以及违反波动率调整偿付能力底线的情形施加惩罚,并通过条件在险价值(CVaR)显式控制尾部风险。为反映监管压力测试实践,智能体在体制感知课程学习机制下训练,并通过体制分层模拟与固定冲击压力场景两种方式进行评估。针对劳工赔偿和其他责任险种的实证结果表明:相较于传统精算准备金方法,所提出的RL-CVaR策略能在保持相当资本效率的同时,显著改善尾部风险控制并减少偿付能力违规事件。我们进一步讨论了校准与治理考量,旨在使模型参数与Solvency II及自有风险与偿付能力评估(ORSA)框架下企业特定风险偏好与监管期望相协调。

0
下载
关闭预览

相关内容

自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
【ICML2024】悲观遇上风险:风险敏感的离线强化学习
专知会员服务
25+阅读 · 2024年7月11日
【ICML2023】在受限逆强化学习中的可识别性和泛化能力
专知会员服务
26+阅读 · 2023年6月5日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
牛津大学发布60页最新《强化学习金融应用进展》综述论文
【斯坦福经典书】强化学习在金融应用,414页pdf
专知会员服务
127+阅读 · 2021年3月30日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
量化金融强化学习论文集合
专知
14+阅读 · 2019年12月18日
548页MIT强化学习教程,收藏备用【PDF下载】
机器学习算法与Python学习
17+阅读 · 2018年10月11日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 4月28日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
3+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
3+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
3+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员