Background: Determining an adequate sample size is essential for developing reliable and generalisable clinical prediction models, yet practical guidance on selecting appropriate methods remains limited. Existing analytical and simulation-based approaches often rely on restrictive assumptions and focus on mean-based criteria. We present and validate pmsims, an R package that uses Gaussian process surrogate modelling to provide a flexible and computationally efficient simulation-based framework for sample size determination across diverse prediction settings. Methods: We conducted a comprehensive simulation study with two aims. First, we compared three search engines implemented in pmsims: a Gaussian process-based adaptive method, a deterministic bisection method, and a hybrid approach, across binary, continuous, and survival outcomes. Second, we benchmarked the best-performing pmsims engine against existing analytical (pmsampsize) and simulation-based (samplesizedev) methods, evaluating recommended sample sizes, computational time, and achieved performance on large independent validation datasets. Results: The Gaussian process-based method consistently produced the most stable sample size estimates, particularly in low-signal, high-dimensional settings. In benchmarking, pmsims achieved performance close to prespecified targets across all outcome types, matching simulation-based approaches and outperforming analytical methods in more challenging scenarios. Conclusions: pmsims provides an efficient and flexible framework for principled sample size planning in clinical prediction modelling, requiring fewer model evaluations than non-adaptive simulation approaches.


翻译:背景:确定充足的样本量对于开发可靠且具有泛化能力的临床预测模型至关重要,然而关于如何选择合适方法的实践指南仍然有限。现有分析和模拟方法通常依赖严格假设且聚焦于均值标准。我们提出并验证了pmsims R包,该包利用高斯过程代理建模提供灵活且计算高效的模拟框架,适用于多样化预测场景下的样本量确定。方法:我们开展了两项综合模拟研究。首先,在二分类、连续和生存结局下比较了pmsims中三种搜索策略:基于高斯过程的适应性方法、确定性二分法及混合方法。其次,将最优pmsims引擎与现有分析(pmsampsize)和模拟(samplesizedev)方法进行基准测试,评估推荐样本量、计算时间及在大规模独立验证数据集上的性能表现。结果:基于高斯过程的方法持续生成最稳定的样本量估计值,尤其在低信号、高维场景中表现突出。基准测试中,pmsims在所有结局类型中均达到预设目标性能,与模拟方法水平相当,并在更具挑战性的场景中优于分析方法。结论:pmsims为临床预测建模中的原则性样本量规划提供了高效灵活的框架,所需模型评估次数低于非自适应模拟方法。

0
下载
关闭预览

相关内容

【NTU博士论文】基础模型的高效适配
专知会员服务
15+阅读 · 3月24日
【NeurIPS2024】通过方差减少实现零样本模型的稳健微调
专知会员服务
19+阅读 · 2024年11月12日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
针对预训练视觉模型的参数高效微调
专知会员服务
22+阅读 · 2024年2月7日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月24日
VIP会员
相关主题
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
3+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
5+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员