High-dimensional biomedical studies require models that are simultaneously accurate, sparse, and interpretable, yet exact best subset selection for generalized linear models is computationally intractable. We develop a scalable method that combines a continuous Boolean relaxation of the subset problem with a Frank--Wolfe algorithm driven by envelope gradients. The resulting method, which we refer to as COMBSS-GLM, is simple to implement, requires one penalized generalized linear model fit per iteration, and produces sparse models along a model-size path. Theoretically, we identify a curvature-based parameter regime in which the relaxed objective is concave in the selection weights, implying that global minimizers occur at binary corners. Empirically, in logistic and multinomial simulations across low- and high-dimensional correlated settings, the proposed method consistently improves variable-selection quality relative to established penalised likelihood competitors while maintaining strong predictive performance. In biomedical applications, it recovers established loci in a binary-outcome rice genome-wide association study and achieves perfect multiclass test accuracy on the Khan SRBCT cancer dataset using a small subset of genes. Open-source implementations are available in R at https://github.com/benoit-liquet/COMBSS-GLM-R and in Python at https://github.com/saratmoka/COMBSS-GLM-Python.


翻译:高维生物医学研究需要同时具备准确性、稀疏性和可解释性的模型,然而广义线性模型的精确最优子集选择在计算上难以实现。我们提出一种可扩展方法,将子集问题的连续布尔松弛与基于包络梯度的Frank-Wolfe算法相结合。该方法称为COMBSS-GLM,实现简便,每次迭代仅需拟合一次带惩罚的广义线性模型,并能沿模型规模路径生成稀疏模型。理论上,我们识别了一种基于曲率的参数区间,在该区间内松弛目标函数在选择权重上呈凹性,这意味着全局最优解出现在二元角点。实证方面,在低维和高维相关场景的逻辑回归与多项模拟中,所提方法相较于传统惩罚似然竞争方法持续提升变量选择质量,同时保持强劲的预测性能。在生物医学应用中,该方法在一项二分类水稻全基因组关联研究中恢复了已知遗传位点,并在Khan SRBCT癌症数据集上使用少量基因实现了完美的多类测试准确率。开源实现可于R语言(https://github.com/benoit-liquet/COMBSS-GLM-R)和Python语言(https://github.com/saratmoka/COMBSS-GLM-Python)获取。

0
下载
关闭预览

相关内容

具有动能的生命体。
专知会员服务
54+阅读 · 2021年10月1日
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
关于GANs在医学图像领域应用的总结
人工智能前沿讲习班
31+阅读 · 2019年6月4日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
图神经网络综述:模型与应用
PaperWeekly
198+阅读 · 2018年12月26日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月13日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
专知会员服务
54+阅读 · 2021年10月1日
相关资讯
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
关于GANs在医学图像领域应用的总结
人工智能前沿讲习班
31+阅读 · 2019年6月4日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
图神经网络综述:模型与应用
PaperWeekly
198+阅读 · 2018年12月26日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员