Comparing $K$-sample distributions is a fundamental problem in data science that arises in a wide variety of fields and applications. In this article, we introduce a maximum-of-differences approach to make such comparisons. Specifically, we first calculate the pairwise distances from the pooled observations of the $K$ samples. We then define the two observations as connected if their distance is less than a pre-specified threshold value. For each observation, we next calculate the ``within" and the ``between" probabilities associated with these two types of connections for the given observation, i.e., with other observations within the same sample and between the given observation and the observations in other samples. Subsequently, we propose a maximum-of-differences (MOD) test that finds the maximum value among the standardized squared differences between the ``within" and the ``between" probabilities of all observations. Accordingly, the proposed test is not only applicable to multivariate data with $K$ samples, but can also be extended to multivariate regression models. Furthermore, we obtain the covariance-adjusted (CA) version of the MOD (CA-MOD) test, which converges to the Type I extreme value distribution under some conditions. Moreover, we demonstrate the asymptotic properties of the two tests under both the null and alternative hypotheses. The performance and usefulness of the tests are illustrated via simulation studies and real examples.


翻译:比较$K$样本分布是数据科学中的一个基本问题,广泛应用于各个领域。本文提出一种基于最大差值的检验方法来进行此类比较。具体而言,我们首先计算$K$个样本合并观测值之间的两两距离,随后将距离小于预设阈值的两个观测值定义为"相连"。针对每个观测值,我们进一步计算其与同一样本内其他观测值的"内部"连接概率,以及与其他样本观测值的"之间"连接概率。基于此,我们提出最大差值检验,通过计算所有观测值标准化平方差中"内部"与"之间"概率的最大值进行检验。该方法不仅适用于多变量$K$样本数据,还可扩展至多变量回归模型。此外,我们推导了协方差调整版本的最大差值检验,该检验在特定条件下收敛于第一类极值分布。同时,我们在原假设和备择假设下证明了两种检验的渐近性质。通过模拟研究与实际案例分析验证了该检验方法的性能与实用性。

0
下载
关闭预览

相关内容

专知会员服务
26+阅读 · 2021年9月9日
专知会员服务
75+阅读 · 2020年9月1日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
网状网络及其在军事领域的运用
专知会员服务
4+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
4+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
5+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
3+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
8+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
6+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
8+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
6+阅读 · 6月24日
相关VIP内容
专知会员服务
26+阅读 · 2021年9月9日
专知会员服务
75+阅读 · 2020年9月1日
相关资讯
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
使用 Canal 实现数据异构
性能与架构
20+阅读 · 2019年3月4日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员