Predictive models play a pivotal role in credit risk management, guiding critical decisions through accurate estimation of default probabilities and losses. Extensive research has introduced new modeling techniques, complemented by large-scale benchmarking studies consolidating the state-of-the-art. Today, quasi-standards such as gradient-boosting models paired with SHAP explainers have emerged, yet continuous improvement of risk models remains a top priority. Concurrently, rapid advancements in AI, most notably large language models, have disrupted predictive modeling paradigms. Foundation models, pretrained on extensive datasets from diverse domains, have demonstrated remarkable performance by leveraging prior knowledge. While prevalent in natural language processing and computer vision, foundation models for tabular data have only recently emerged. We conjecture that pretraining on out-of-domain data is particularly beneficial in small-data settings, such as SME lending or specialized corporate portfolios, and may help address longstanding challenges including low default portfolios and class imbalance. This paper benchmarks recently proposed tabular foundation models against a broad set of competitors, including established and advanced machine learning techniques, across two core tasks: PD and LGD modeling. Our evaluation encompasses various datasets, performance indicators, and experimental conditions. We find that tabular foundation models generally perform best across datasets and tasks. Moreover, they offer significant improvement in predictive performance as dataset size shrinks. These results are remarkable given that the models are tested out-of-the-box, without hyperparameter tuning, ensuring ease of use and mitigating computational costs.


翻译:预测模型在信用风险管理中扮演着关键角色,通过精确估计违约概率和损失来指导重要决策。大量研究引入了新的建模技术,并辅以整合当前最优方法的大规模基准测试研究。如今,梯度提升模型结合SHAP解释器已成为准标准,但风险模型的持续改进仍是首要任务。与此同时,人工智能的快速发展,尤其是大语言模型,已颠覆了预测建模范式。基础模型通过在海量跨领域数据集上进行预训练,凭借利用先验知识展现出卓越性能。虽然基础模型在自然语言处理和计算机视觉领域已广泛应用,但针对表格数据的基础模型直到近期才出现。我们推测,在小样本数据场景(如中小企业贷款或专业企业组合)中,跨领域数据的预训练尤为有效,并可能帮助解决低违约组合和类别不平衡等长期挑战。本文对近期提出的表格基础模型进行了基准测试,将其与包括传统和先进机器学习技术在内的广泛对手进行了比较,涵盖PD和LGD建模两大核心任务。我们的评估涉及多种数据集、性能指标和实验条件。研究发现,表格基础模型在不同数据集和任务中普遍表现最佳。此外,随着数据集规模缩小,它们在预测性能上提供了显著提升。这些结果尤为引人注目,因为模型未经超参数调优即可直接使用,既确保了易用性又降低了计算成本。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【博士论文】小型和大型模型的不确定性估计
专知会员服务
21+阅读 · 2025年7月11日
决策智能中的时间序列预测大模型
专知会员服务
33+阅读 · 2025年5月8日
面向金融风险预测的时序图神经网络综述
专知会员服务
24+阅读 · 2024年11月14日
智能金融稳步前行:构建负责任的可信大模型
专知会员服务
22+阅读 · 2024年10月8日
大模型在金融领域的应用技术与安全白皮书2024
专知会员服务
60+阅读 · 2024年4月10日
浅谈最广泛应用的金融风控算法-评分卡
凡人机器学习
10+阅读 · 2020年8月3日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
互联网金融中的交易反欺诈模型
炼数成金订阅号
14+阅读 · 2018年3月9日
15款免费预测分析软件!收藏好,别丢了!
七月在线实验室
11+阅读 · 2018年2月27日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关资讯
浅谈最广泛应用的金融风控算法-评分卡
凡人机器学习
10+阅读 · 2020年8月3日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
互联网金融中的交易反欺诈模型
炼数成金订阅号
14+阅读 · 2018年3月9日
15款免费预测分析软件!收藏好,别丢了!
七月在线实验室
11+阅读 · 2018年2月27日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员