This work presents the first large-scale neutral benchmark experiment focused on single-event, right-censored, low-dimensional survival data. Benchmark experiments are essential in methodological research to scientifically compare new and existing model classes through proper empirical evaluation. Existing benchmarks in the survival literature are smaller in scale regarding the number of used datasets and extent of empirical evaluation. They often lack appropriate tuning or evaluation procedures, while other comparison studies focus on qualitative reviews rather than quantitative comparisons. This comprehensive study aims to fill the gap by neutrally evaluating a broad range of methods and providing generalizable guidelines for practitioners. We benchmark 19 models, ranging from classical statistical approaches to many common machine learning methods, on 34 publicly available datasets. The benchmark tunes models using both a discrimination measure (Harrell's C-index) and a scoring rule (Integrated Survival Brier Score), and evaluates them across six metrics covering discrimination, calibration, and overall predictive performance. Despite superior average ranks in overall predictive performance from individual learners like oblique random survival forests and likelihood-based boosting, and better discrimination rankings from multiple boosting- and tree-based methods as well as parametric survival models, no method significantly outperforms the commonly used Cox proportional hazards model for either tuning measure. We conclude that for predictive purposes in the standard survival analysis setting of low-dimensional, right-censored data, the Cox Proportional Hazards model remains a simple and robust method, sufficient for most practitioners. All code, data, and results are publicly available on GitHub https://github.com/slds-lmu/paper_2023_survival_benchmark


翻译:本研究首次提出了针对单事件、右删失、低维生存数据的大规模中立基准实验。基准实验在方法学研究中至关重要,能够通过适当的实证评估科学地比较新旧模型类别。现有生存分析文献中的基准实验在数据集数量和实证评估范围上规模较小,通常缺乏适当的调参或评估流程,而其他比较研究则侧重于定性综述而非定量比较。这项综合性研究旨在通过中立评估广泛的方法并为实践者提供可推广的指导原则来填补这一空白。我们在34个公开数据集上对19个模型进行了基准测试,涵盖从经典统计方法到多种常见机器学习方法。该基准使用区分度指标(Harrell's C-index)和评分规则(Integrated Survival Brier Score)对模型进行调参,并通过涵盖区分度、校准度和整体预测性能的六个指标进行评估。尽管斜随机生存森林和基于似然的提升等个体学习器在整体预测性能上具有优越的平均排名,多种基于提升和树的方法以及参数化生存模型在区分度排名上表现更佳,但没有方法在任一调参指标上显著优于常用的Cox比例风险模型。我们得出结论:在低维右删失数据的标准生存分析场景中,出于预测目的,Cox比例风险模型仍然是一种简单而稳健的方法,足以满足大多数实践者的需求。所有代码、数据和结果已在GitHub上公开:https://github.com/slds-lmu/paper_2023_survival_benchmark

0
下载
关闭预览

相关内容

低比特大语言模型综述:基础、系统与算法
专知会员服务
28+阅读 · 2024年10月6日
【斯坦福博士论文】基础模型的数据分布视角,321页pdf
专知会员服务
42+阅读 · 2024年7月8日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
最新内容
《控制对手感知:电子战愿景与赋能技术》
专知会员服务
0+阅读 · 6分钟前
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
7+阅读 · 4月6日
“史诗狂怒行动”中的海军动态
专知会员服务
9+阅读 · 4月5日
大语言模型同策略蒸馏研究综述
专知会员服务
9+阅读 · 4月5日
无人机蜂群:研究、挑战、未来发展方向
专知会员服务
12+阅读 · 4月4日
【博士论文】已对齐 AI 系统的持续脆弱性
专知会员服务
8+阅读 · 4月3日
潜空间综述:基础、演化、机制、能力与展望
专知会员服务
14+阅读 · 4月3日
《人工智能时代的国防工业政策》
专知会员服务
11+阅读 · 4月3日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员