The rapid advancement of high-throughput sequencing has led to large, high-dimensional omics datasets. Deep unsupervised learning architectures, particularly Autoencoders (AEs), are increasingly used for dimensionality reduction and representation learning in this domain. However, AEs are highly sensitive to architectural choices and hyperparameters, and unsupervised optimization typically relies on reconstruction loss, which may be a poor proxy for downstream utility. Exhaustive hyperparameter optimization (HPO) is computationally expensive, leading researchers to frequently rely on suboptimal default configurations. To democratize access to large-scale unsupervised HPO research, we introduce $\textbf{BBOmix}$, the first open-source tabular benchmark for unsupervised representation learning on real-world biological data. Our benchmark includes 105,000 evaluations across four AE architectures and seven multi-omics modalities from the TCGA and SCHC datasets. We quantify the correlation between reconstruction loss and downstream task performance and provide an extensive evaluation of state-of-the-art single-fidelity, multi-fidelity, and transfer learning HPO methods, establishing a rigorous baseline for future research in unsupervised biological representation learning.


翻译:高通量测序技术的快速发展催生了大规模、高维度的组学数据集。深度无监督学习架构(尤其是自编码器)在该领域被广泛用于降维和表征学习。然而,自编码器对架构选择和超参数高度敏感,且无监督优化通常依赖重构损失,该指标可能无法有效反映下游任务的实用价值。穷举式超参数优化(HPO)计算成本高昂,导致研究者常采用次优的默认配置。为促进大规模无监督HPO研究的可及性,我们推出$\textbf{BBOmix}$——首个面向真实生物数据无监督表征学习的开源表格型基准测试。该基准包含TCGA与SCHC数据集中四种自编码器架构及七种多组学模态的105,000次评估。我们量化了重构损失与下游任务性能的关联性,并对当前最优的单保真度、多保真度及迁移学习HPO方法进行了全面评估,为无监督生物表征学习的未来研究建立了严格的基线。

0
下载
关闭预览

相关内容

《机器学习超参数优化》最新综述
专知会员服务
39+阅读 · 2024年10月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
《机器学习超参数优化》最新综述
专知会员服务
39+阅读 · 2024年10月31日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员