Two-sample comparison through additive tree models for density ratios - 专知论文

会员服务 ·

0

损失 · 样本 · 贝叶斯 · 不确定 · 设计 ·

Two-sample comparison through additive tree models for density ratios

翻译：基于可加树模型的密度比双样本比较方法

Naoki Awaya,Yuliang Xu,Li Ma

The ratio of two densities provides a direct characterization of their differences. We consider the two-sample comparison problem by estimating this ratio given i.i.d. observations from two distributions. To this end, we propose additive tree models for density ratio estimation along with efficient algorithms using a new loss function, the balancing loss. The loss allows tree-based models to be trained using several algorithms originally designed for supervised learning, such as forward-stagewise optimization and gradient boosting. Moreover, the balancing loss resembles an exponential family kernel, and it can serve as a pseudo-likelihood with conjugate priors. This property enables generalized Bayesian inference on the density ratio using backfitting samplers designed for Bayesian additive regression trees (BART). Our Bayesian strategy provides uncertainty quantification for the inferred density ratio, which is critical for applications involving high-dimensional and data-limited distributions with potentially substantial uncertainty. We further show connections of the balancing loss to the exponential loss in binary classification and to the variational form of f-divergence, particularly the squared Hellinger distance. Numerical experiments demonstrate that our method achieves both accuracy and computational efficiency, while uniquely providing uncertainty quantification. Finally, we demonstrate its application to assessing the quality of generative models for microbiome compositional data.

翻译：两个密度函数的比值能够直接刻画它们之间的差异。给定来自两个分布的独立同分布观测样本，我们通过估计该密度比来研究双样本比较问题。为此，我们提出了一种用于密度比估计的可加树模型，并采用一种新的损失函数——平衡损失，设计了高效的估计算法。该损失函数使得基于树的模型能够使用多种原本为监督学习设计的算法进行训练，例如前向逐步优化和梯度提升。此外，平衡损失类似于指数族核函数，并且可以作为具有共轭先验的伪似然函数。这一特性使得我们能够利用为贝叶斯可加回归树（BART）设计的回拟合采样器，对密度比进行广义贝叶斯推断。我们的贝叶斯策略为推断出的密度比提供了不确定性量化，这对于涉及高维、数据有限且可能存在显著不确定性的分布的应用至关重要。我们进一步揭示了平衡损失与二分类中的指数损失之间的联系，以及与f-散度（特别是平方Hellinger距离）的变分形式之间的关联。数值实验表明，我们的方法在保证计算效率的同时实现了较高的准确性，并且独特地提供了不确定性量化。最后，我们展示了该方法在评估微生物组组成数据生成模型质量中的应用。

0

相关内容

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

专知会员服务

18+阅读 · 2024年12月7日

对比学习需要哪样的数据？UCLA最新ICML2023论文《数据高效对比学习：简单样本贡献最大》，探究量化样本对SSL的贡献度

对比学习需要哪样的数据？UCLA最新ICML2023论文《数据高效对比学习：简单样本贡献最大》，探究量化样本对SSL的贡献度

专知会员服务

37+阅读 · 2023年5月14日

【WWW2023教程】多模态推荐系统:解决稀疏性、可比性和可解释性

【WWW2023教程】多模态推荐系统:解决稀疏性、可比性和可解释性

专知会员服务

42+阅读 · 2023年5月5日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

WSDM'22「百度」考虑行为多样性的对比元学习

WSDM'22「百度」考虑行为多样性的对比元学习

专知会员服务

24+阅读 · 2022年2月21日

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

专知会员服务

48+阅读 · 2021年12月22日

【ICML2021】用于对比表示学习的分解互信息估计

专知会员服务

26+阅读 · 2021年9月9日

KDD2020 | 对比学习和负采样技术专题

专知会员服务

75+阅读 · 2020年9月1日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【深度估计| 2019最新综述】单目深度估计方法综述（Monocular Depth Estimation: A Survey）

专知会员服务

69+阅读 · 2019年11月23日

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

对比自监督学习

对比自监督学习

深度学习自然语言处理

35+阅读 · 2020年7月15日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

数据分析师应该知道的16种回归方法：负二项回归

数据分析师应该知道的16种回归方法：负二项回归

数萃大数据

74+阅读 · 2018年9月16日

数据分析师应该知道的16种回归方法：泊松回归

数据分析师应该知道的16种回归方法：泊松回归

数萃大数据

35+阅读 · 2018年9月13日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

带加法噪声高维密度的最优小波点态估计

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

作物生长模型和遥感数据同化的双尺度作物氮素预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

基于多尺度分析的森林群落木本植物种-面积关系区域分异及其影响因素研究

国家自然科学基金

0+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

A two-sample test for symmetric positive definite matrix distributions using Wishart kernel density estimators

Arxiv

0+阅读 · 3月14日

Estimation of relative risk, odds ratio and their logarithms with guaranteed accuracy and controlled sample size ratio

Arxiv

0+阅读 · 3月5日

Towards Computing Average Merge Tree Based on the Interleaving Distance

Arxiv

0+阅读 · 2月28日

Flow-Based Density Ratio Estimation for Intractable Distributions with Applications in Genomics

Arxiv

0+阅读 · 2月27日

Density Ratio-based Causal Discovery from Bivariate Continuous-Discrete Data

Arxiv

0+阅读 · 2月26日

Dual-Tree LLM-Enhanced Negative Sampling for Implicit Collaborative Filtering

Arxiv

0+阅读 · 2月20日

Gradient Testing and Estimation by Comparisons

Arxiv

0+阅读 · 2月19日

Ratio Covers of Convex Sets and Optimal Mixture Density Estimation

Arxiv

0+阅读 · 2月18日

Partition Trees: Conditional Density Estimation over General Outcome Spaces

Arxiv

0+阅读 · 2月3日

Don't Forget Its Variance! The Minimum Path Variance Principle for Accurate and Stable Score-Based Density Ratio Estimation

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

0+阅读 · 11分钟前

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

0+阅读 · 13分钟前

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

0+阅读 · 20分钟前

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

10+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

4+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

8+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

6+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

10+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

21+阅读 · 4月29日

相关VIP内容

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

【NeurIPS2024】用于缺失值数据集的可解释广义加性模型

专知会员服务

18+阅读 · 2024年12月7日

对比学习需要哪样的数据？UCLA最新ICML2023论文《数据高效对比学习：简单样本贡献最大》，探究量化样本对SSL的贡献度

对比学习需要哪样的数据？UCLA最新ICML2023论文《数据高效对比学习：简单样本贡献最大》，探究量化样本对SSL的贡献度

专知会员服务

37+阅读 · 2023年5月14日

【WWW2023教程】多模态推荐系统:解决稀疏性、可比性和可解释性

【WWW2023教程】多模态推荐系统:解决稀疏性、可比性和可解释性

专知会员服务

42+阅读 · 2023年5月5日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

WSDM'22「百度」考虑行为多样性的对比元学习

WSDM'22「百度」考虑行为多样性的对比元学习

专知会员服务

24+阅读 · 2022年2月21日

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

专知会员服务

48+阅读 · 2021年12月22日

【ICML2021】用于对比表示学习的分解互信息估计

专知会员服务

26+阅读 · 2021年9月9日

KDD2020 | 对比学习和负采样技术专题

专知会员服务

75+阅读 · 2020年9月1日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【深度估计| 2019最新综述】单目深度估计方法综述（Monocular Depth Estimation: A Survey）

专知会员服务

69+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

面向具身智能与机器人仿真的三维生成：综述

《人工智能在全球军事与武器工业中的应用、方法论与影响》

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

相关资讯

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

对比自监督学习

对比自监督学习

深度学习自然语言处理

35+阅读 · 2020年7月15日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

数据分析师应该知道的16种回归方法：负二项回归

数据分析师应该知道的16种回归方法：负二项回归

数萃大数据

74+阅读 · 2018年9月16日

数据分析师应该知道的16种回归方法：泊松回归

数据分析师应该知道的16种回归方法：泊松回归

数萃大数据

35+阅读 · 2018年9月13日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

A two-sample test for symmetric positive definite matrix distributions using Wishart kernel density estimators

Arxiv

0+阅读 · 3月14日

Estimation of relative risk, odds ratio and their logarithms with guaranteed accuracy and controlled sample size ratio

Arxiv

0+阅读 · 3月5日

Towards Computing Average Merge Tree Based on the Interleaving Distance

Arxiv

0+阅读 · 2月28日

Flow-Based Density Ratio Estimation for Intractable Distributions with Applications in Genomics

Arxiv

0+阅读 · 2月27日

Density Ratio-based Causal Discovery from Bivariate Continuous-Discrete Data

Arxiv

0+阅读 · 2月26日

Dual-Tree LLM-Enhanced Negative Sampling for Implicit Collaborative Filtering

Arxiv

0+阅读 · 2月20日

Gradient Testing and Estimation by Comparisons

Arxiv

0+阅读 · 2月19日

Ratio Covers of Convex Sets and Optimal Mixture Density Estimation

Arxiv

0+阅读 · 2月18日

Partition Trees: Conditional Density Estimation over General Outcome Spaces

Arxiv

0+阅读 · 2月3日

Don't Forget Its Variance! The Minimum Path Variance Principle for Accurate and Stable Score-Based Density Ratio Estimation

Arxiv

0+阅读 · 1月31日

相关基金

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

带加法噪声高维密度的最优小波点态估计

国家自然科学基金

0+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

作物生长模型和遥感数据同化的双尺度作物氮素预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

考虑不确定性和方向性的结构随机极值和疲劳风致响应及抗风可靠性评价理论

国家自然科学基金

0+阅读 · 2014年12月31日

基于多尺度分析的森林群落木本植物种-面积关系区域分异及其影响因素研究

国家自然科学基金

0+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员