Reinforcement Learning for Micro-Level Claims Reserving - 专知论文

会员服务 ·

0

精度 · 强化学习 · 监督 · 样本 · 偏差 ·

Reinforcement Learning for Micro-Level Claims Reserving

翻译：强化学习在微观理赔准备金评估中的应用

Benjamin Avanzi,Ronald Richman,Bernard Wong,Mario Wüthrich,Yagebu Xie

Outstanding claim liabilities are revised repeatedly as claims develop, yet most modern reserving models are trained as one-shot predictors and typically learn only from settled claims. We formulate individual claims reserving as a claim-level Markov decision process in which an agent sequentially updates outstanding claim liability (OCL) estimates over development, using continuous actions and a reward design that balances accuracy with stable reserve revisions. A key advantage of this reinforcement learning (RL) approach is that it can learn from all observed claim trajectories, including claims that remain open at valuation, thereby avoiding the reduced sample size and selection effects inherent in supervised methods trained on ultimate outcomes only. We also introduce practical components needed for actuarial use -- initialisation of new claims, temporally consistent tuning via a rolling-settlement scheme, and an importance-weighting mechanism to mitigate portfolio-level underestimation driven by the rarity of large claims. On CAS and SPLICE synthetic general insurance datasets, the proposed Soft Actor-Critic implementation delivers competitive claim-level accuracy and strong aggregate OCL performance, particularly for the immature claim segments that drive most of the liability.

翻译：未决赔款负债在理赔进展过程中会反复调整，然而大多数现代准备金评估模型均被训练为一次性预测器，且通常仅从已结案理赔中学习。本文将个体理赔准备金评估建模为一个理赔层面的马尔可夫决策过程，其中智能体在理赔进展过程中通过连续动作和平衡预测精度与准备金修订稳定性的奖励设计，顺序更新未决赔款负债估计值。该强化学习方法的一个关键优势在于，其能够从所有已观测的理赔轨迹中学习，包括在评估时点仍未结案的理赔，从而避免了仅基于最终结果训练的有监督方法中固有的样本量缩减和选择偏差问题。本文还引入了精算实务所需的实用组件——新理赔的初始化方法、通过滚动结案方案实现的时间一致性调参机制，以及用于缓解因大额理赔罕见性导致的组合层面低估问题的重要性加权机制。在CAS和SPLICE合成一般保险数据集上的实验表明，所提出的Soft Actor-Critic实施方案在理赔层面精度上具有竞争力，并在聚合未决赔款负债预测方面表现优异，尤其对于构成主要负债的未成熟理赔段效果显著。

0

相关内容

《基于深度强化学习的军用飞机失控状态改出控制设计》

《基于深度强化学习的军用飞机失控状态改出控制设计》

专知会员服务

16+阅读 · 2月10日

【NeurIPS2023】强化学习中的概率推理：正确的方法

【NeurIPS2023】强化学习中的概率推理：正确的方法

专知会员服务

28+阅读 · 2023年11月25日

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

专知会员服务

30+阅读 · 2023年3月6日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

48+阅读 · 2023年1月9日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【斯坦福经典书】强化学习在金融应用，414页pdf

【斯坦福经典书】强化学习在金融应用，414页pdf

专知会员服务

127+阅读 · 2021年3月30日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

量化金融强化学习论文集合

量化金融强化学习论文集合

专知

14+阅读 · 2019年12月18日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【智能金融】机器学习在反欺诈中应用

【智能金融】机器学习在反欺诈中应用

产业智能官

35+阅读 · 2019年3月15日

548页MIT强化学习教程，收藏备用【PDF下载】

548页MIT强化学习教程，收藏备用【PDF下载】

机器学习算法与Python学习

17+阅读 · 2018年10月11日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

操作风险动态量化方法研究：从微观机构到宏观系统

国家自然科学基金

1+阅读 · 2015年12月31日

面向金融市场走势预测的在线论坛公众情绪挖掘与演化分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维单调转移模型的变量选择及其在违约风险评估中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

悬索桥吊杆损伤的两阶段精细化诊断与性能综合评估方法

国家自然科学基金

0+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于网络传导的金融系统风险度量：理论及其应用

国家自然科学基金

2+阅读 · 2014年12月31日

考虑具有风险结构的决策建模及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

Rationality Measurement and Theory for Reinforcement Learning Agents

Arxiv

0+阅读 · 2月4日

Stochastic Decision Horizons for Constrained Reinforcement Learning

Arxiv

0+阅读 · 2月4日

Reinforcement Learning for Durable Algorithmic Recourse

Arxiv

0+阅读 · 2月2日

Efficient Reinforcement Finetuning via Adaptive Curriculum Learning

Arxiv

0+阅读 · 2月2日

A Relative-Budget Theory for Reinforcement Learning with Verifiable Rewards in Large Language Model Reasoning

Arxiv

0+阅读 · 2月2日

Reinforcement Learning with Multi-Step Lookahead Information Via Adaptive Batching

Arxiv

0+阅读 · 1月15日

Provably Safe Reinforcement Learning using Entropy Regularizer

Arxiv

0+阅读 · 1月13日

Negative binomial models for development triangles of counts

Arxiv

0+阅读 · 1月9日

Microeconomic Foundations of Multi-Agent Learning

Arxiv

0+阅读 · 1月6日

Reinforcement Learning via Conservative Agent for Environments with Random Delays

Arxiv

0+阅读 · 1月4日

VIP会员

文章信息

相关主题

最新内容

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

13+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

5+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

8+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

6+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

7+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

6+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

13+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

4+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

6+阅读 · 4月24日

相关VIP内容

《基于深度强化学习的军用飞机失控状态改出控制设计》

《基于深度强化学习的军用飞机失控状态改出控制设计》

专知会员服务

16+阅读 · 2月10日

【NeurIPS2023】强化学习中的概率推理：正确的方法

【NeurIPS2023】强化学习中的概率推理：正确的方法

专知会员服务

28+阅读 · 2023年11月25日

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

专知会员服务

30+阅读 · 2023年3月6日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

48+阅读 · 2023年1月9日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【斯坦福经典书】强化学习在金融应用，414页pdf

【斯坦福经典书】强化学习在金融应用，414页pdf

专知会员服务

127+阅读 · 2021年3月30日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《军事模拟：将军事条令与目标融入AI智能体》

非对称优势：美海军开发低成本反无人机技术

《美战争部小企业创新研究（SBIR）计划》

相关资讯

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

量化金融强化学习论文集合

量化金融强化学习论文集合

专知

14+阅读 · 2019年12月18日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【智能金融】机器学习在反欺诈中应用

【智能金融】机器学习在反欺诈中应用

产业智能官

35+阅读 · 2019年3月15日

548页MIT强化学习教程，收藏备用【PDF下载】

548页MIT强化学习教程，收藏备用【PDF下载】

机器学习算法与Python学习

17+阅读 · 2018年10月11日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Rationality Measurement and Theory for Reinforcement Learning Agents

Arxiv

0+阅读 · 2月4日

Stochastic Decision Horizons for Constrained Reinforcement Learning

Arxiv

0+阅读 · 2月4日

Reinforcement Learning for Durable Algorithmic Recourse

Arxiv

0+阅读 · 2月2日

Efficient Reinforcement Finetuning via Adaptive Curriculum Learning

Arxiv

0+阅读 · 2月2日

A Relative-Budget Theory for Reinforcement Learning with Verifiable Rewards in Large Language Model Reasoning

Arxiv

0+阅读 · 2月2日

Reinforcement Learning with Multi-Step Lookahead Information Via Adaptive Batching

Arxiv

0+阅读 · 1月15日

Provably Safe Reinforcement Learning using Entropy Regularizer

Arxiv

0+阅读 · 1月13日

Negative binomial models for development triangles of counts

Arxiv

0+阅读 · 1月9日

Microeconomic Foundations of Multi-Agent Learning

Arxiv

0+阅读 · 1月6日

Reinforcement Learning via Conservative Agent for Environments with Random Delays

Arxiv

0+阅读 · 1月4日

相关基金

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

操作风险动态量化方法研究：从微观机构到宏观系统

国家自然科学基金

1+阅读 · 2015年12月31日

面向金融市场走势预测的在线论坛公众情绪挖掘与演化分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维单调转移模型的变量选择及其在违约风险评估中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

悬索桥吊杆损伤的两阶段精细化诊断与性能综合评估方法

国家自然科学基金

0+阅读 · 2015年12月31日

正倒向随机微分方程与两类衍生模型的统计推断及金融中的应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于网络传导的金融系统风险度量：理论及其应用

国家自然科学基金

2+阅读 · 2014年12月31日

考虑具有风险结构的决策建模及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员