Count-compositional data arise in many different fields, including high-throughput microbiome sequencing and palynology experiments, where a common, important goal is to understand how covariates relate to the observed compositions. Existing methods often fail to simultaneously address key challenges inherent in such data, namely: overdispersion, an excess of zeros, cross-sample heterogeneity, and nonlinear covariate effects. To address these concerns, we propose novel Bayesian models based on ensembles of regression trees. Specifically, we leverage the recently introduced zero-and-$N$-inflated multinomial distribution and assign independent nonparametric Bayesian additive regression tree (BART) priors to both the compositional and structural zero probability components of our model, to flexibly capture covariate effects. We further extend this by adding latent random effects to capture overdispersion and more general dependence structures among the categories. We develop an efficient inferential algorithm combining recent data augmentation schemes with established BART sampling routines. We evaluate our proposed models in simulation studies and illustrate their applicability with two case studies in microbiome and palaeoclimate modelling.


翻译:计数组合数据广泛存在于高通量微生物组测序和孢粉学实验等多个研究领域,其核心分析目标通常是探究协变量如何影响观测到的组合结构。现有方法往往难以同时处理此类数据固有的关键挑战,包括过度离散性、零值过量、样本间异质性以及协变量非线性效应。为解决这些问题,我们提出了基于回归树集成的新型贝叶斯模型。具体而言,我们采用最新提出的零与N膨胀多项分布,并在模型的组合分量与结构零概率分量上分别赋予独立的非参数贝叶斯可加回归树(BART)先验,从而灵活捕捉协变量效应。我们进一步扩展该模型,通过引入潜随机效应来捕捉类别间的过度离散性及更一般的依赖结构。结合新兴的数据扩充方案与成熟的BART采样流程,我们开发了高效的推断算法。通过模拟研究评估了所提模型的性能,并借助微生物组与古气候建模的两个案例研究展示了其实际应用价值。

0
下载
关闭预览

相关内容

【牛津大学博士论文】流形假设下的贝叶斯非参数估计
专知会员服务
19+阅读 · 2025年5月1日
【干货书】贝叶斯统计分析方法,697页pdf
专知会员服务
124+阅读 · 2021年12月18日
【Nature】贝叶斯统计与建模综述,26页pdf
专知会员服务
77+阅读 · 2021年1月21日
常用的模型集成方法介绍:bagging、boosting 、stacking
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
统计学常用数据类型
论智
19+阅读 · 2018年7月6日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【牛津大学博士论文】流形假设下的贝叶斯非参数估计
专知会员服务
19+阅读 · 2025年5月1日
【干货书】贝叶斯统计分析方法,697页pdf
专知会员服务
124+阅读 · 2021年12月18日
【Nature】贝叶斯统计与建模综述,26页pdf
专知会员服务
77+阅读 · 2021年1月21日
相关资讯
常用的模型集成方法介绍:bagging、boosting 、stacking
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
统计学常用数据类型
论智
19+阅读 · 2018年7月6日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员