Background: High-dimensional genomic data exhibit strong group correlation structures that challenge conventional feature selection methods, which often assume feature independence or rely on pre-defined pathways and are sensitive to outliers and model misspecification. Methods: We propose the Dorfman screening framework, a multi-stage procedure that forms data-driven variable groups via hierarchical clustering, performs group and within-group hypothesis testing, and refines selection using elastic net or adaptive elastic net. Robust variants incorporate OGK-based covariance estimation, rank-based correlation, and Huber-weighted regression to handle contaminated and non-normal data. Results: In simulations, Dorfman-Sparse-Adaptive-EN performed best under normal conditions, while Robust-OGK-Dorfman-Adaptive-EN showed clear advantages under data contamination, outperforming classical Dorfman and competing methods. Applied to NSCLC gene expression data for trametinib response, robust Dorfman methods achieved the lowest prediction errors and enriched recovery of clinically relevant genes. Conclusions: The Dorfman framework provides an efficient and robust approach to genomic feature selection. Robust-OGK-Dorfman-Adaptive-EN offers strong performance under both ideal and contaminated conditions and scales to ultra-high-dimensional settings, making it well suited for modern genomic biomarker discovery.


翻译:背景:高维基因组数据呈现出强烈的组相关结构,这对传统的特征选择方法提出了挑战。传统方法通常假设特征独立或依赖预定义的生物学通路,并且对异常值和模型设定错误敏感。方法:我们提出了Dorfman筛选框架,这是一种多阶段流程,通过层次聚类形成数据驱动的变量组,执行组内及组间假设检验,并利用弹性网络或自适应弹性网络进行选择优化。其稳健变体整合了基于OGK的协方差估计、基于秩的相关性以及Huber加权回归,以处理受污染和非正态数据。结果:在模拟实验中,Dorfman-Sparse-Adaptive-EN在正态条件下表现最佳,而Robust-OGK-Dorfman-Adaptive-EN在数据受污染条件下显示出明显优势,其性能超越了经典的Dorfman方法及其他竞争方法。应用于非小细胞肺癌曲美替尼响应的基因表达数据时,稳健的Dorfman方法实现了最低的预测误差,并富集恢复了具有临床相关性的基因。结论:Dorfman框架为基因组特征选择提供了一种高效且稳健的方法。Robust-OGK-Dorfman-Adaptive-EN在理想条件和受污染条件下均表现出色,并能扩展到超高维场景,因此非常适用于现代基因组生物标志物的发现。

0
下载
关闭预览

相关内容

高光谱异常检测方法:综述与比较研究
专知会员服务
7+阅读 · 2025年7月11日
具有组合结构的统计推断和在线算法
专知会员服务
12+阅读 · 2022年12月13日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
高光谱异常检测方法:综述与比较研究
专知会员服务
7+阅读 · 2025年7月11日
具有组合结构的统计推断和在线算法
专知会员服务
12+阅读 · 2022年12月13日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员