Adaptive Insurance Reserving with CVaR-Constrained Reinforcement Learning under Macroeconomic Regimes - 专知论文

会员服务 ·

0

约束 · 约束强化学习 · 自适应 · 强化学习 · 损失 ·

Adaptive Insurance Reserving with CVaR-Constrained Reinforcement Learning under Macroeconomic Regimes

翻译：宏观经济体制下基于条件在险价值约束强化学习的自适应保险准备金计提

We develop a reinforcement learning (RL) framework for insurance loss reserving that formulates reserve setting as a finite-horizon sequential decision problem under claim development uncertainty, macroeconomic stress, and solvency governance. The reserving process is modeled as a Markov Decision Process (MDP) in which reserve adjustments influence future reserve adequacy, capital efficiency, and solvency outcomes. A Proximal Policy Optimization (PPO) agent is trained using a risk-sensitive reward that penalizes reserve shortfall, capital inefficiency, and breaches of a volatility-adjusted solvency floor, with tail risk explicitly controlled through Conditional Value-at-Risk (CVaR). To reflect regulatory stress-testing practice, the agent is trained under a regime-aware curriculum and evaluated using both regime-stratified simulations and fixed-shock stress scenarios. Empirical results for Workers Compensation and Other Liability illustrate how the proposed RL-CVaR policy improves tail-risk control and reduces solvency violations relative to classical actuarial reserving methods, while maintaining comparable capital efficiency. We further discuss calibration and governance considerations required to align model parameters with firm-specific risk appetite and supervisory expectations under Solvency II and Own Risk and Solvency Assessment (ORSA) frameworks.

翻译：我们提出一种面向保险损失准备金计提的强化学习（RL）框架，将准备金设定建模为在索赔发展不确定性、宏观经济压力与偿付能力治理约束下的有限期序贯决策问题。该准备金过程被形式化为马尔可夫决策过程（MDP），其中准备金调整将影响未来准备金充足性、资本效率及偿付能力结果。采用近端策略优化（PPO）智能体进行训练，其风险敏感型奖励函数对准备金短缺、资本低效以及违反波动率调整偿付能力底线的情形施加惩罚，并通过条件在险价值（CVaR）显式控制尾部风险。为反映监管压力测试实践，智能体在体制感知课程学习机制下训练，并通过体制分层模拟与固定冲击压力场景两种方式进行评估。针对劳工赔偿和其他责任险种的实证结果表明：相较于传统精算准备金方法，所提出的RL-CVaR策略能在保持相当资本效率的同时，显著改善尾部风险控制并减少偿付能力违规事件。我们进一步讨论了校准与治理考量，旨在使模型参数与Solvency II及自有风险与偿付能力评估（ORSA）框架下企业特定风险偏好与监管期望相协调。

0

相关内容

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

【ICML2024】悲观遇上风险：风险敏感的离线强化学习

【ICML2024】悲观遇上风险：风险敏感的离线强化学习

专知会员服务

25+阅读 · 2024年7月11日

【ICML2023】在受限逆强化学习中的可识别性和泛化能力

【ICML2023】在受限逆强化学习中的可识别性和泛化能力

专知会员服务

26+阅读 · 2023年6月5日

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

专知会员服务

30+阅读 · 2023年3月6日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

48+阅读 · 2023年1月9日

牛津大学发布60页最新《强化学习金融应用进展》综述论文

牛津大学发布60页最新《强化学习金融应用进展》综述论文

专知会员服务

116+阅读 · 2021年12月12日

【斯坦福经典书】强化学习在金融应用，414页pdf

【斯坦福经典书】强化学习在金融应用，414页pdf

专知会员服务

127+阅读 · 2021年3月30日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

深度强化学习方法及其在经济学中的应用综述，Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic

深度强化学习方法及其在经济学中的应用综述，Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic

专知会员服务

52+阅读 · 2020年4月7日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

量化金融强化学习论文集合

量化金融强化学习论文集合

专知

14+阅读 · 2019年12月18日

548页MIT强化学习教程，收藏备用【PDF下载】

548页MIT强化学习教程，收藏备用【PDF下载】

机器学习算法与Python学习

17+阅读 · 2018年10月11日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于大数据的基本养老保险多主体行为演化机理与宏观效应研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构化大数据深度挖掘的非寿险保险公司经营风险模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀有事件模拟技术的金融衍生品组合风险度量及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

最优再保险理论研究及其在金融中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

随机动态系统的风险分析及其最优控制问题

国家自然科学基金

1+阅读 · 2014年12月31日

金融大数据随机建模中若干非马氏问题及其应用的研究

国家自然科学基金

1+阅读 · 2014年12月31日

保险金融市场中相依风险模型的随机最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

考虑具有风险结构的决策建模及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

Safe Reinforcement Learning with Preference-based Constraint Inference

Arxiv

0+阅读 · 5月22日

Reinforcement Learning for Exponential Utility: Algorithms and Convergence in Discounted MDPs

Arxiv

0+阅读 · 5月8日

Reinforcement Learning with Markov Risk Measures and Multipattern Risk Approximation

Arxiv

0+阅读 · 5月1日

Policy Improvement Reinforcement Learning

Arxiv

0+阅读 · 4月28日

SafeAdapt: Provably Safe Policy Updates in Deep Reinforcement Learning

Arxiv

0+阅读 · 4月10日

Constrained Policy Optimization with Cantelli-Bounded Value-at-Risk

Arxiv

0+阅读 · 4月9日

Beyond Hard Constraints: Budget-Conditioned Reachability For Safe Offline Reinforcement Learning

Arxiv

0+阅读 · 3月31日

End-to-End Efficient RL for Linear Bellman Complete MDPs with Deterministic Transitions

Arxiv

0+阅读 · 3月24日

A Hybrid Framework for Reinsurance Optimization: Integrating Generative Models and Reinforcement Learning

Arxiv

0+阅读 · 3月23日

Multi-Step First: A Lightweight Deep Reinforcement Learning Strategy for Robust Continuous Control with Partial Observability

Arxiv

0+阅读 · 3月21日

VIP会员

文章信息

相关主题

约束强化学习

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

3+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

3+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

3+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

3+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

【ICML2024】悲观遇上风险：风险敏感的离线强化学习

【ICML2024】悲观遇上风险：风险敏感的离线强化学习

专知会员服务

25+阅读 · 2024年7月11日

【ICML2023】在受限逆强化学习中的可识别性和泛化能力

【ICML2023】在受限逆强化学习中的可识别性和泛化能力

专知会员服务

26+阅读 · 2023年6月5日

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

专知会员服务

30+阅读 · 2023年3月6日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

48+阅读 · 2023年1月9日

牛津大学发布60页最新《强化学习金融应用进展》综述论文

牛津大学发布60页最新《强化学习金融应用进展》综述论文

专知会员服务

116+阅读 · 2021年12月12日

【斯坦福经典书】强化学习在金融应用，414页pdf

【斯坦福经典书】强化学习在金融应用，414页pdf

专知会员服务

127+阅读 · 2021年3月30日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

深度强化学习方法及其在经济学中的应用综述，Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic

深度强化学习方法及其在经济学中的应用综述，Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic

专知会员服务

52+阅读 · 2020年4月7日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

量化金融强化学习论文集合

量化金融强化学习论文集合

专知

14+阅读 · 2019年12月18日

548页MIT强化学习教程，收藏备用【PDF下载】

548页MIT强化学习教程，收藏备用【PDF下载】

机器学习算法与Python学习

17+阅读 · 2018年10月11日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Safe Reinforcement Learning with Preference-based Constraint Inference

Arxiv

0+阅读 · 5月22日

Reinforcement Learning for Exponential Utility: Algorithms and Convergence in Discounted MDPs

Arxiv

0+阅读 · 5月8日

Reinforcement Learning with Markov Risk Measures and Multipattern Risk Approximation

Arxiv

0+阅读 · 5月1日

Policy Improvement Reinforcement Learning

Arxiv

0+阅读 · 4月28日

SafeAdapt: Provably Safe Policy Updates in Deep Reinforcement Learning

Arxiv

0+阅读 · 4月10日

Constrained Policy Optimization with Cantelli-Bounded Value-at-Risk

Arxiv

0+阅读 · 4月9日

Beyond Hard Constraints: Budget-Conditioned Reachability For Safe Offline Reinforcement Learning

Arxiv

0+阅读 · 3月31日

End-to-End Efficient RL for Linear Bellman Complete MDPs with Deterministic Transitions

Arxiv

0+阅读 · 3月24日

A Hybrid Framework for Reinsurance Optimization: Integrating Generative Models and Reinforcement Learning

Arxiv

0+阅读 · 3月23日

Multi-Step First: A Lightweight Deep Reinforcement Learning Strategy for Robust Continuous Control with Partial Observability

Arxiv

0+阅读 · 3月21日

相关基金

基于大数据的基本养老保险多主体行为演化机理与宏观效应研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构化大数据深度挖掘的非寿险保险公司经营风险模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀有事件模拟技术的金融衍生品组合风险度量及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

最优再保险理论研究及其在金融中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

随机动态系统的风险分析及其最优控制问题

国家自然科学基金

1+阅读 · 2014年12月31日

金融大数据随机建模中若干非马氏问题及其应用的研究

国家自然科学基金

1+阅读 · 2014年12月31日

保险金融市场中相依风险模型的随机最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

考虑具有风险结构的决策建模及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员