Clustering mixed-type data remains a major challenge in biomedical research to uncover clinically meaningful subgroups within heterogeneous patient populations. Most existing clustering methods impose restrictive assumptions like local independence, fail to accommodate censored biomarkers, or unable to quantify variable importance. We propose a Bayesian finite mixture model (BFMM) clustering framework that addresses these limitations. BFMM flexibly models both continuous and categorical variables, incorporates three covariance structures to capture cluster-specific dependencies among continuous features, and handles censored observations through likelihood-based imputation. To facilitate feature prioritization, BFMM uses spike-and-slab priors to estimate variable importance on a continuous 0-1 scale. Simulation studies demonstrate that BFMM outperforms existing methods in clustering accuracy, particularly given strong within-cluster correlation or censored variables, and reliably distinguishes informative features from noise under varying conditions. We applied BFMM to two real-world datasets: (1) the SENECA cohort integrating electronic health records from patients with Sepsis; and (2) the EDEN randomized trial of patients with acute lung injury. In both settings, BFMM identified clinically interpretable phenotypes and revealed variable-specific contributions to subgroup differentiation. In the EDEN trial, it also uncovered evidence of treatment heterogeneity. These findings validate BFMM as an effective, interpretable, and practically useful clustering tool for complex biomedical datasets.


翻译:在生物医学研究中,对混合型数据进行聚类以揭示异质性患者群体中具有临床意义的亚组仍是一项重大挑战。现有的大多数聚类方法施加了诸如局部独立性等限制性假设,无法处理删失的生物标志物,或难以量化变量重要性。我们提出了一种贝叶斯有限混合模型(BFMM)聚类框架来解决这些局限性。BFMM能够灵活地对连续型和分类变量进行建模,融合了三种协方差结构以捕捉连续特征间的簇特异性依赖关系,并通过基于似然的插补来处理删失观测值。为促进特征排序,BFMM使用尖峰-平板先验在连续的0-1尺度上估计变量重要性。模拟研究表明,BFMM在聚类准确性方面优于现有方法,尤其是在存在强簇内相关性或删失变量的情况下,并且能在不同条件下可靠地区分信息特征与噪声。我们将BFMM应用于两个真实世界数据集:(1)整合了脓毒症患者电子健康记录的SENECA队列;(2)针对急性肺损伤患者的EDEN随机试验。在这两种场景中,BFMM均识别出临床可解释的表型,并揭示了各变量对亚组分化的具体贡献。在EDEN试验中,它还发现了治疗异质性的证据。这些发现验证了BFMM作为一种针对复杂生物医学数据集的有效、可解释且实用的聚类工具。

0
下载
关闭预览

相关内容

《面相混合威胁建模的贝叶斯网络方法》最新报告
专知会员服务
25+阅读 · 2025年7月30日
【CVPR2024】贝叶斯扩散模型用于三维形状重建
专知会员服务
34+阅读 · 2024年3月12日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
一文读懂贝叶斯分类算法(附学习资源)
大数据文摘
12+阅读 · 2017年12月14日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月17日
Arxiv
0+阅读 · 3月16日
VIP会员
相关主题
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
《面相混合威胁建模的贝叶斯网络方法》最新报告
专知会员服务
25+阅读 · 2025年7月30日
【CVPR2024】贝叶斯扩散模型用于三维形状重建
专知会员服务
34+阅读 · 2024年3月12日
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
一文读懂贝叶斯分类算法(附学习资源)
大数据文摘
12+阅读 · 2017年12月14日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员