Maximum-of-Differences Test for Comparing Multivariate K-Sample Distributions - 专知论文

会员服务 ·

0

样本 · 多变量 · 概率 · 检验方法 · 方差 ·

Maximum-of-Differences Test for Comparing Multivariate K-Sample Distributions

翻译：最大差值检验用于比较多变量K样本分布

Wei Lan,Long Feng,Runze Li,Chih-Ling Tsai

Comparing $K$-sample distributions is a fundamental problem in data science that arises in a wide variety of fields and applications. In this article, we introduce a maximum-of-differences approach to make such comparisons. Specifically, we first calculate the pairwise distances from the pooled observations of the $K$ samples. We then define the two observations as connected if their distance is less than a pre-specified threshold value. For each observation, we next calculate the ``within" and the ``between" probabilities associated with these two types of connections for the given observation, i.e., with other observations within the same sample and between the given observation and the observations in other samples. Subsequently, we propose a maximum-of-differences (MOD) test that finds the maximum value among the standardized squared differences between the ``within" and the ``between" probabilities of all observations. Accordingly, the proposed test is not only applicable to multivariate data with $K$ samples, but can also be extended to multivariate regression models. Furthermore, we obtain the covariance-adjusted (CA) version of the MOD (CA-MOD) test, which converges to the Type I extreme value distribution under some conditions. Moreover, we demonstrate the asymptotic properties of the two tests under both the null and alternative hypotheses. The performance and usefulness of the tests are illustrated via simulation studies and real examples.

翻译：比较$K$样本分布是数据科学中的一个基本问题，广泛应用于各个领域。本文提出一种基于最大差值的检验方法来进行此类比较。具体而言，我们首先计算$K$个样本合并观测值之间的两两距离，随后将距离小于预设阈值的两个观测值定义为"相连"。针对每个观测值，我们进一步计算其与同一样本内其他观测值的"内部"连接概率，以及与其他样本观测值的"之间"连接概率。基于此，我们提出最大差值检验，通过计算所有观测值标准化平方差中"内部"与"之间"概率的最大值进行检验。该方法不仅适用于多变量$K$样本数据，还可扩展至多变量回归模型。此外，我们推导了协方差调整版本的最大差值检验，该检验在特定条件下收敛于第一类极值分布。同时，我们在原假设和备择假设下证明了两种检验的渐近性质。通过模拟研究与实际案例分析验证了该检验方法的性能与实用性。

0

相关内容

《多层网络PageRank算法在国防关键基础设施分析中的应用》最新报告

《多层网络PageRank算法在国防关键基础设施分析中的应用》最新报告

专知会员服务

16+阅读 · 2025年6月22日

分布外如何检测？东大等最新《视觉语言模型时代的广义异常检测及其拓展》综述

分布外如何检测？东大等最新《视觉语言模型时代的广义异常检测及其拓展》综述

专知会员服务

25+阅读 · 2024年8月2日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

16+阅读 · 2022年4月11日

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

专知会员服务

48+阅读 · 2021年12月22日

【ICML2021】用于对比表示学习的分解互信息估计

专知会员服务

26+阅读 · 2021年9月9日

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

专知会员服务

15+阅读 · 2020年9月30日

KDD2020 | 对比学习和负采样技术专题

专知会员服务

75+阅读 · 2020年9月1日

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

专知会员服务

65+阅读 · 2020年3月5日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

专知

22+阅读 · 2020年1月16日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

什么是最大似然估计、最大后验估计以及贝叶斯参数估计

什么是最大似然估计、最大后验估计以及贝叶斯参数估计

数盟

16+阅读 · 2018年4月20日

入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计

入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计

机器之心

11+阅读 · 2018年4月15日

学界 | CVPR 2018论文解读：让神经网络学习比较来实现少样本学习

学界 | CVPR 2018论文解读：让神经网络学习比较来实现少样本学习

AI科技评论

14+阅读 · 2018年4月5日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

多重假设检验中的k-FWER控制

国家自然科学基金

0+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

高维数据下多样本均值检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

大口径平面镜子孔径拼接检测中表面中高频误差的检测误差处理方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

适定的多元样条逼近方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多重比较中控制FDR的有效检验方法

国家自然科学基金

0+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

Testing Support Size More Efficiently Than Learning Histograms

Arxiv

0+阅读 · 5月20日

Sample-efficient evidence estimation of score based priors for model selection

Arxiv

0+阅读 · 4月30日

A semiparametric two-sample homogeneity test with nonignorable nonresponse using callback data

Arxiv

0+阅读 · 4月23日

Two-sample comparison through additive tree models for density ratios

Arxiv

0+阅读 · 4月22日

Constant-Factor Approximations for Doubly Constrained Fair k-Center, k-Median and k-Means

Arxiv

0+阅读 · 4月17日

Distribution-free two-sample testing with blurred total variation distance

Arxiv

0+阅读 · 4月10日

A test for normality based on self-similarity

Arxiv

0+阅读 · 4月4日

Generalizing Fair Top-$k$ Selection: An Integrative Approach

Arxiv

0+阅读 · 3月30日

Achieving Optimal Sample Complexity for a Broader Class of Signals in Sparse Phase Retrieval

Arxiv

0+阅读 · 3月27日

On the universal calibration of heavy-tailed combination tests

Arxiv

0+阅读 · 3月23日

VIP会员

文章信息

相关主题

最新内容

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

3+阅读 · 今天6:30

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

4+阅读 · 今天6:18

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

4+阅读 · 今天6:08

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

4+阅读 · 今天5:54

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

4+阅读 · 今天5:22

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

5+阅读 · 今天5:15

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

5+阅读 · 今天3:42

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

4+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

3+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

9+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

8+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

6+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

8+阅读 · 6月24日

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

7+阅读 · 6月24日

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

6+阅读 · 6月24日

相关VIP内容

《多层网络PageRank算法在国防关键基础设施分析中的应用》最新报告

《多层网络PageRank算法在国防关键基础设施分析中的应用》最新报告

专知会员服务

16+阅读 · 2025年6月22日

分布外如何检测？东大等最新《视觉语言模型时代的广义异常检测及其拓展》综述

分布外如何检测？东大等最新《视觉语言模型时代的广义异常检测及其拓展》综述

专知会员服务

25+阅读 · 2024年8月2日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

16+阅读 · 2022年4月11日

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

专知会员服务

48+阅读 · 2021年12月22日

【ICML2021】用于对比表示学习的分解互信息估计

专知会员服务

26+阅读 · 2021年9月9日

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

专知会员服务

15+阅读 · 2020年9月30日

KDD2020 | 对比学习和负采样技术专题

专知会员服务

75+阅读 · 2020年9月1日

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

网络流量监测与分析大数据综述，A Survey on Big Data for Network Traffic Monitoring and Analysis

专知会员服务

65+阅读 · 2020年3月5日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

热门VIP内容

开通专知VIP会员享更多权益服务

网状网络及其在军事领域的运用

无美国参与的欧洲战争方式（万字长文）

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

相关资讯

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

【新书】使用基于python的深度学习开始异常检测，Pytorch与Keras, 427页pdf

专知

22+阅读 · 2020年1月16日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

什么是最大似然估计、最大后验估计以及贝叶斯参数估计

什么是最大似然估计、最大后验估计以及贝叶斯参数估计

数盟

16+阅读 · 2018年4月20日

入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计

入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计

机器之心

11+阅读 · 2018年4月15日

学界 | CVPR 2018论文解读：让神经网络学习比较来实现少样本学习

学界 | CVPR 2018论文解读：让神经网络学习比较来实现少样本学习

AI科技评论

14+阅读 · 2018年4月5日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Testing Support Size More Efficiently Than Learning Histograms

Arxiv

0+阅读 · 5月20日

Sample-efficient evidence estimation of score based priors for model selection

Arxiv

0+阅读 · 4月30日

A semiparametric two-sample homogeneity test with nonignorable nonresponse using callback data

Arxiv

0+阅读 · 4月23日

Two-sample comparison through additive tree models for density ratios

Arxiv

0+阅读 · 4月22日

Constant-Factor Approximations for Doubly Constrained Fair k-Center, k-Median and k-Means

Arxiv

0+阅读 · 4月17日

Distribution-free two-sample testing with blurred total variation distance

Arxiv

0+阅读 · 4月10日

A test for normality based on self-similarity

Arxiv

0+阅读 · 4月4日

Generalizing Fair Top-$k$ Selection: An Integrative Approach

Arxiv

0+阅读 · 3月30日

Achieving Optimal Sample Complexity for a Broader Class of Signals in Sparse Phase Retrieval

Arxiv

0+阅读 · 3月27日

On the universal calibration of heavy-tailed combination tests

Arxiv

0+阅读 · 3月23日

相关基金

多重假设检验中的k-FWER控制

国家自然科学基金

0+阅读 · 2015年12月31日

半参数回归模型中随机误差分布的检验问题

国家自然科学基金

2+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

高维数据下多样本均值检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

大口径平面镜子孔径拼接检测中表面中高频误差的检测误差处理方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

适定的多元样条逼近方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多重比较中控制FDR的有效检验方法

国家自然科学基金

0+阅读 · 2014年12月31日

高维稀疏统计模型中的变量选择与检验

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员