The ratio of two densities provides a direct characterization of their differences. We consider the two-sample comparison problem by estimating this ratio given i.i.d. observations from two distributions. To this end, we propose additive tree models for density ratio estimation along with efficient algorithms using a new loss function, the balancing loss. The loss allows tree-based models to be trained using several algorithms originally designed for supervised learning, such as forward-stagewise optimization and gradient boosting. Moreover, the balancing loss resembles an exponential family kernel, and it can serve as a pseudo-likelihood with conjugate priors. This property enables generalized Bayesian inference on the density ratio using backfitting samplers designed for Bayesian additive regression trees (BART). Our Bayesian strategy provides uncertainty quantification for the inferred density ratio, which is critical for applications involving high-dimensional and data-limited distributions with potentially substantial uncertainty. We further show connections of the balancing loss to the exponential loss in binary classification and to the variational form of f-divergence, particularly the squared Hellinger distance. Numerical experiments demonstrate that our method achieves both accuracy and computational efficiency, while uniquely providing uncertainty quantification. Finally, we demonstrate its application to assessing the quality of generative models for microbiome compositional data.


翻译:两个密度之比直接刻画了它们之间的差异。我们通过估计来自两个独立同分布观测样本的密度比来研究双样本比较问题。为此,我们提出用于密度比估计的加性树模型,并设计基于新型损失函数——平衡损失的高效算法。该损失函数使基于树的模型能够利用最初为监督学习设计的多种算法(如前向分步优化和梯度提升)进行训练。此外,平衡损失具有指数族核的性质,可作为共轭先验下的伪似然函数。这一特性使得我们能利用为贝叶斯加性回归树(BART)设计的回拟合采样器,对密度比进行广义贝叶斯推断。我们的贝叶斯策略为推断密度比提供了不确定性量化,这对涉及高维数据受限分布且可能存在显著不确定性的应用至关重要。我们进一步揭示了平衡损失与二分类中的指数损失以及f-散度的变分形式(特别是平方Hellinger距离)之间的关联。数值实验表明,我们的方法在实现准确性和计算效率的同时,独具不确定性量化能力。最后,我们将其应用于评估微生物组成分数据的生成模型质量。

0
下载
关闭预览

相关内容

《基于智能体模型的军事行动比例性评估》
专知会员服务
34+阅读 · 1月19日
WSDM'22「百度」考虑行为多样性的对比元学习
专知会员服务
24+阅读 · 2022年2月21日
专知会员服务
26+阅读 · 2021年9月9日
专知会员服务
75+阅读 · 2020年9月1日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
75+阅读 · 2020年4月24日
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
《基于智能体模型的军事行动比例性评估》
专知会员服务
34+阅读 · 1月19日
WSDM'22「百度」考虑行为多样性的对比元学习
专知会员服务
24+阅读 · 2022年2月21日
专知会员服务
26+阅读 · 2021年9月9日
专知会员服务
75+阅读 · 2020年9月1日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
75+阅读 · 2020年4月24日
相关资讯
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
数据分析师应该知道的16种回归方法:泊松回归
数萃大数据
35+阅读 · 2018年9月13日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员