Quantifying the similarity of two or more datasets has widespread applications in statistics and machine learning. The method choice is, however, difficult due to the abundance of proposed methods and the lack of neutral comparison studies, especially for categorical data. Here, the most promising methods are compared concerning their ability to detect certain differences between datasets and their resource consumption. The results show that the edge count tests perform well when comparing two datasets (i.e., the two-sample case). For certain scenarios, the constrained minimum (CM) distance performs even better. For categorical data consisting of variables with five categories each, the best method depends on the type of difference between the distributions, with either the CM distance and certain graph-based tests performing best, or the classifier-based tests (C2ST). This tendency is even clearer for multiple datasets. Overall, the Friedman-Rafsky test can be recommended for two samples as a compromise of high performance, acceptable resource consumption, and computational error occurrences. For the multi-sample case, the Multi-Sample Mahalanobis Cross-Match (MMCM) test can be recommended due to its comparably good performance and low resource consumption.


翻译:量化两个或多个数据集之间的相似性在统计学和机器学习领域具有广泛的应用。然而,由于现有方法众多且缺乏中立的比较研究(特别是针对分类数据),方法选择十分困难。本文比较了最有前景的方法在检测数据集间特定差异方面的能力及其资源消耗。结果表明,当比较两个数据集(即双样本情况)时,边计数检验表现良好。在某些场景下,约束最小距离(CM)表现更优。对于由每个变量包含五个类别的分类数据,最佳方法取决于分布差异的类型——要么是CM距离和某些基于图的检验表现最佳,要么是基于分类器的检验(C2ST)。这一趋势在多个数据集的场景中更为明显。总体而言,弗里德曼-拉夫斯检验作为双样本场景下高性能、可接受的资源消耗和计算误差发生率之间的折中方案值得推荐。对于多样本场景,鉴于其相对较好的性能和低资源消耗,多样本马氏交叉匹配检验(MMCM)值得推荐。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【博士论文】大数据相似查询关键技术研究
专知会员服务
24+阅读 · 2021年12月2日
专知会员服务
26+阅读 · 2021年9月9日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
统计学常用数据类型
论智
19+阅读 · 2018年7月6日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月27日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
0+阅读 · 15分钟前
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
0+阅读 · 31分钟前
在人工智能加速决策环境中拓展OODA循环
专知会员服务
0+阅读 · 41分钟前
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
0+阅读 · 56分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
相关VIP内容
【博士论文】大数据相似查询关键技术研究
专知会员服务
24+阅读 · 2021年12月2日
专知会员服务
26+阅读 · 2021年9月9日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员