Two-sample comparison through additive tree models for density ratios - 专知论文

会员服务 ·

0

损失 · 样本 · 设计 · 贝叶斯 · 不确定 ·

Two-sample comparison through additive tree models for density ratios

翻译：基于加性树模型的密度比双样本比较方法

Naoki Awaya,Yuliang Xu,Li Ma

The ratio of two densities provides a direct characterization of their differences. We consider the two-sample comparison problem by estimating this ratio given i.i.d. observations from two distributions. To this end, we propose additive tree models for density ratio estimation along with efficient algorithms using a new loss function, the balancing loss. The loss allows tree-based models to be trained using several algorithms originally designed for supervised learning, such as forward-stagewise optimization and gradient boosting. Moreover, the balancing loss resembles an exponential family kernel, and it can serve as a pseudo-likelihood with conjugate priors. This property enables generalized Bayesian inference on the density ratio using backfitting samplers designed for Bayesian additive regression trees (BART). Our Bayesian strategy provides uncertainty quantification for the inferred density ratio, which is critical for applications involving high-dimensional and data-limited distributions with potentially substantial uncertainty. We further show connections of the balancing loss to the exponential loss in binary classification and to the variational form of f-divergence, particularly the squared Hellinger distance. Numerical experiments demonstrate that our method achieves both accuracy and computational efficiency, while uniquely providing uncertainty quantification. Finally, we demonstrate its application to assessing the quality of generative models for microbiome compositional data.

翻译：两个密度之比直接刻画了它们之间的差异。我们通过估计来自两个独立同分布观测样本的密度比来研究双样本比较问题。为此，我们提出用于密度比估计的加性树模型，并设计基于新型损失函数——平衡损失的高效算法。该损失函数使基于树的模型能够利用最初为监督学习设计的多种算法（如前向分步优化和梯度提升）进行训练。此外，平衡损失具有指数族核的性质，可作为共轭先验下的伪似然函数。这一特性使得我们能利用为贝叶斯加性回归树（BART）设计的回拟合采样器，对密度比进行广义贝叶斯推断。我们的贝叶斯策略为推断密度比提供了不确定性量化，这对涉及高维数据受限分布且可能存在显著不确定性的应用至关重要。我们进一步揭示了平衡损失与二分类中的指数损失以及f-散度的变分形式（特别是平方Hellinger距离）之间的关联。数值实验表明，我们的方法在实现准确性和计算效率的同时，独具不确定性量化能力。最后，我们将其应用于评估微生物组成分数据的生成模型质量。

0

相关内容

《基于智能体模型的军事行动比例性评估》

《基于智能体模型的军事行动比例性评估》

专知会员服务

34+阅读 · 1月19日

对比学习需要哪样的数据？UCLA最新ICML2023论文《数据高效对比学习：简单样本贡献最大》，探究量化样本对SSL的贡献度

对比学习需要哪样的数据？UCLA最新ICML2023论文《数据高效对比学习：简单样本贡献最大》，探究量化样本对SSL的贡献度

专知会员服务

37+阅读 · 2023年5月14日

对比学习如何深入理解? MIT-Yonglong Tian博士论文《基于多视图对比学习的通用视觉研究》，227页pdf全面剖析

对比学习如何深入理解? MIT-Yonglong Tian博士论文《基于多视图对比学习的通用视觉研究》，227页pdf全面剖析

专知会员服务

65+阅读 · 2023年4月28日

WSDM'22「百度」考虑行为多样性的对比元学习

WSDM'22「百度」考虑行为多样性的对比元学习

专知会员服务

24+阅读 · 2022年2月21日

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

专知会员服务

48+阅读 · 2021年12月22日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

【ICML2021】用于对比表示学习的分解互信息估计

专知会员服务

26+阅读 · 2021年9月9日

KDD2020 | 对比学习和负采样技术专题

专知会员服务

75+阅读 · 2020年9月1日

【Google】监督对比学习，Supervised Contrastive Learning

【Google】监督对比学习，Supervised Contrastive Learning

专知会员服务

75+阅读 · 2020年4月24日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

对比自监督学习

对比自监督学习

深度学习自然语言处理

35+阅读 · 2020年7月15日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

深度学习模型不确定性方法对比

深度学习模型不确定性方法对比

PaperWeekly

20+阅读 · 2020年2月10日

数据分析师应该知道的16种回归方法：泊松回归

数据分析师应该知道的16种回归方法：泊松回归

数萃大数据

35+阅读 · 2018年9月13日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

带加法噪声高维密度的最优小波点态估计

国家自然科学基金

0+阅读 · 2015年12月31日

作物生长模型和遥感数据同化的双尺度作物氮素预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于多尺度分析的森林群落木本植物种-面积关系区域分异及其影响因素研究

国家自然科学基金

0+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

Comparing Variable Selection and Model Averaging Methods for Logistic Regression

Arxiv

0+阅读 · 5月1日

Data Balancing Strategies: A Systematic Survey of Resampling and Augmentation Methods

Arxiv

0+阅读 · 4月28日

Double Robust Weighted Regression with Missing Confounders

Arxiv

0+阅读 · 4月22日

Distribution-free two-sample testing with blurred total variation distance

Arxiv

0+阅读 · 4月10日

Maximum-of-Differences Test for Comparing Multivariate K-Sample Distributions

Arxiv

0+阅读 · 4月10日

Relative Density Ratio Optimization for Stable and Statistically Consistent Model Alignment

Arxiv

0+阅读 · 4月6日

Relative Contrastive Learning for Sequential Recommendation with Similarity-based Positive Pair Selection

Arxiv

0+阅读 · 4月3日

Relative Contrastive Learning for Sequential Recommendation with Similarity-based Positive Pair Selection

Arxiv

0+阅读 · 4月2日

Dual Contrastive Network for Few-Shot Remote Sensing Image Scene Classification

Arxiv

0+阅读 · 3月24日

Riesz Regression As Direct Density Ratio Estimation

Arxiv

0+阅读 · 3月24日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

8+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

19+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

《基于智能体模型的军事行动比例性评估》

《基于智能体模型的军事行动比例性评估》

专知会员服务

34+阅读 · 1月19日

对比学习需要哪样的数据？UCLA最新ICML2023论文《数据高效对比学习：简单样本贡献最大》，探究量化样本对SSL的贡献度

对比学习需要哪样的数据？UCLA最新ICML2023论文《数据高效对比学习：简单样本贡献最大》，探究量化样本对SSL的贡献度

专知会员服务

37+阅读 · 2023年5月14日

对比学习如何深入理解? MIT-Yonglong Tian博士论文《基于多视图对比学习的通用视觉研究》，227页pdf全面剖析

对比学习如何深入理解? MIT-Yonglong Tian博士论文《基于多视图对比学习的通用视觉研究》，227页pdf全面剖析

专知会员服务

65+阅读 · 2023年4月28日

WSDM'22「百度」考虑行为多样性的对比元学习

WSDM'22「百度」考虑行为多样性的对比元学习

专知会员服务

24+阅读 · 2022年2月21日

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

专知会员服务

48+阅读 · 2021年12月22日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

【ICML2021】用于对比表示学习的分解互信息估计

专知会员服务

26+阅读 · 2021年9月9日

KDD2020 | 对比学习和负采样技术专题

专知会员服务

75+阅读 · 2020年9月1日

【Google】监督对比学习，Supervised Contrastive Learning

【Google】监督对比学习，Supervised Contrastive Learning

专知会员服务

75+阅读 · 2020年4月24日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

【AAAI2023】用于图对比学习的谱特征增强

【AAAI2023】用于图对比学习的谱特征增强

专知

20+阅读 · 2022年12月11日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

对比自监督学习

对比自监督学习

深度学习自然语言处理

35+阅读 · 2020年7月15日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

深度学习模型不确定性方法对比

深度学习模型不确定性方法对比

PaperWeekly

20+阅读 · 2020年2月10日

数据分析师应该知道的16种回归方法：泊松回归

数据分析师应该知道的16种回归方法：泊松回归

数萃大数据

35+阅读 · 2018年9月13日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Comparing Variable Selection and Model Averaging Methods for Logistic Regression

Arxiv

0+阅读 · 5月1日

Data Balancing Strategies: A Systematic Survey of Resampling and Augmentation Methods

Arxiv

0+阅读 · 4月28日

Double Robust Weighted Regression with Missing Confounders

Arxiv

0+阅读 · 4月22日

Distribution-free two-sample testing with blurred total variation distance

Arxiv

0+阅读 · 4月10日

Maximum-of-Differences Test for Comparing Multivariate K-Sample Distributions

Arxiv

0+阅读 · 4月10日

Relative Density Ratio Optimization for Stable and Statistically Consistent Model Alignment

Arxiv

0+阅读 · 4月6日

Relative Contrastive Learning for Sequential Recommendation with Similarity-based Positive Pair Selection

Arxiv

0+阅读 · 4月3日

Relative Contrastive Learning for Sequential Recommendation with Similarity-based Positive Pair Selection

Arxiv

0+阅读 · 4月2日

Dual Contrastive Network for Few-Shot Remote Sensing Image Scene Classification

Arxiv

0+阅读 · 3月24日

Riesz Regression As Direct Density Ratio Estimation

Arxiv

0+阅读 · 3月24日

相关基金

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

带加法噪声高维密度的最优小波点态估计

国家自然科学基金

0+阅读 · 2015年12月31日

作物生长模型和遥感数据同化的双尺度作物氮素预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于多尺度分析的森林群落木本植物种-面积关系区域分异及其影响因素研究

国家自然科学基金

0+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员