The two-sample problem consists in testing whether two independent samples are drawn from the same (unknown) probability distribution. It finds applications in many areas, ranging from clinical trials to data attribute matching. Its study in high-dimension is the subject of much attention, in particular as the information acquisition processes can involve various sources being often poorly controlled, possibly leading to datasets with strong sampling bias that may jeopardize their statistical analysis. While classic methods relying on a discrepancy measure between empirical versions of the distributions face the curse of dimensionality, we develop an alternative approach based on statistical learning and extending rank tests, known to be asymptotically optimal for univariate data when appropriately designed. Overcoming the lack of natural order on high-dimension, it is implemented in two steps. Assigning a label to each sample, and dividing them into two halves, a preorder on the feature space defined by a real-valued scoring function is learned by a bipartite ranking algorithm applied to the first halves. Next, a two-sample homogeneity rank test is applied to the (univariate) scores of the remaining observations. Because it learns how to map the data onto the real line like (any monotone transform of) the likelihood ratio between the original multivariate distributions, the approach is not affected by the dimensionality, ignores ranking model bias issues, and preserves the asymptotic optimality of univariate R-tests, capable of detecting small departures from the null assumption. Beyond a theoretical analysis establishing nonasymptotic bounds for the two types of error of the method based on recent concentration results for two-sample linear R-processes, an extensive experimental study shows higher performance of the proposed method compared to classic ones.


翻译:双样本问题旨在检验两个独立样本是否来自同一(未知)概率分布。该问题在临床试验至数据属性匹配等多个领域均有应用。高维情形下的研究备受关注,尤其当信息采集过程涉及多种来源且常缺乏有效控制时,可能导致数据集存在显著采样偏差,从而威胁统计分析的可靠性。针对经典方法依赖经验分布间差异度量而面临维度灾难的困境,本文提出一种基于统计学习且扩展了秩检验的替代方案——秩检验在单变量数据中经合理设计可达渐近最优性。通过克服高维自然排序缺失问题,该方法分两步实现:首先为每个样本分配标签并均分为两半,利用二分排序算法对特征空间进行预排序(由实值评分函数定义);随后对剩余观测值的(单变量)评分执行双样本同质性秩检验。由于该方法如同原始多变量分布似然比(的任意单调变换)般学习如何将数据映射至实直线,故不受维度影响、忽略排序模型偏差问题,并保留了单变量R检验的渐近最优性,能检测出对零假设的微小偏离。除基于双样本线性R过程的最新集中度结果建立方法两类错误的非渐近界理论分析外,大量实验研究证明:与经典方法相比,所提方法性能更优。

0
下载
关闭预览

相关内容

因果图,Causal Graphs,52页ppt
专知会员服务
254+阅读 · 2020年4月19日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
全球首个GNN为主的AI创业公司,募资$18.5 million!
图与推荐
1+阅读 · 2022年4月16日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年3月29日
Arxiv
0+阅读 · 2023年3月25日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 15分钟前
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
6+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关VIP内容
因果图,Causal Graphs,52页ppt
专知会员服务
254+阅读 · 2020年4月19日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
全球首个GNN为主的AI创业公司,募资$18.5 million!
图与推荐
1+阅读 · 2022年4月16日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员