Biclustering is an essential unsupervised machine learning technique for simultaneously clustering rows and columns of a data matrix, with widespread applications in genomics, transcriptomics, and other high-dimensional omics data. Despite its importance, existing biclustering methods struggle to meet the demands of modern large-scale datasets. The challenges stem from the accumulation of noise in high-dimensional features, the limitations of non-convex optimization formulations, and the computational complexity of identifying meaningful biclusters. These issues often result in reduced accuracy and stability as the size of the dataset increases. To overcome these challenges, we propose Sparse Convex Biclustering (SpaCoBi), a novel method that penalizes noise during the biclustering process to improve both accuracy and robustness. By adopting a convex optimization framework and introducing a stability-based tuning criterion, SpaCoBi achieves an optimal balance between cluster fidelity and sparsity. Comprehensive numerical studies, including simulations and an application to mouse olfactory bulb data, demonstrate that SpaCoBi significantly outperforms state-of-the-art methods in accuracy. These results highlight SpaCoBi as a robust and efficient solution for biclustering in high-dimensional and large-scale datasets.


翻译:双聚类是一种重要的无监督机器学习技术,用于同时对数据矩阵的行和列进行聚类,在基因组学、转录组学及其他高维组学数据中具有广泛应用。尽管其重要性显著,现有的双聚类方法难以满足现代大规模数据集的需求。这些挑战源于高维特征中噪声的累积、非凸优化公式的局限性以及识别有意义双聚类的计算复杂性。随着数据集规模的增大,这些问题通常导致准确性和稳定性下降。为克服这些挑战,我们提出了稀疏凸双聚类(SpaCoBi),这是一种在双聚类过程中惩罚噪声以提高准确性和鲁棒性的新方法。通过采用凸优化框架并引入基于稳定性的调优准则,SpaCoBi实现了聚类保真度与稀疏性之间的最优平衡。包括模拟实验和小鼠嗅球数据应用在内的综合数值研究表明,SpaCoBi在准确性上显著优于现有最先进方法。这些结果凸显了SpaCoBi作为高维大规模数据集双聚类的鲁棒且高效的解决方案。

0
下载
关闭预览

相关内容

CoLiDR: 使用聚合解缠表示进行概念学习
专知会员服务
15+阅读 · 2024年8月21日
【KDD2024】CoLiDR:使用聚合的解缠表示进行概念学习
专知会员服务
18+阅读 · 2024年7月30日
【ICML2024】超图增强的双半监督图分类
专知会员服务
15+阅读 · 2024年5月9日
专知会员服务
15+阅读 · 2021年7月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月1日
VIP会员
相关VIP内容
CoLiDR: 使用聚合解缠表示进行概念学习
专知会员服务
15+阅读 · 2024年8月21日
【KDD2024】CoLiDR:使用聚合的解缠表示进行概念学习
专知会员服务
18+阅读 · 2024年7月30日
【ICML2024】超图增强的双半监督图分类
专知会员服务
15+阅读 · 2024年5月9日
专知会员服务
15+阅读 · 2021年7月4日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员