Are two distributions close to each other with statistical significance? Distribution closeness testing (DCT) formalizes this question by testing whether the distance between a distribution pair is at least epsilon-far. Existing DCT methods mainly measure discrepancies between distribution pairs defined on discrete spaces, for example using total variation, which limits their application to complex data such as images. To extend DCT to more types of data, a natural idea is to introduce maximum mean discrepancy (MMD), a powerful measure of distributional discrepancy between complex distributions, into DCT scenarios. However, empirical results indicate that many distribution pairs can have the same MMD value despite having different norms in the same reproducing kernel Hilbert space (RKHS). These pairs may exhibit different finite-sample distinguishability and reflect different practical closeness levels, making MMD less informative for DCT. To mitigate this issue, we design a new measure of distributional discrepancy, norm-adaptive MMD (NAMMD), which scales the MMD value using the RKHS norms of distributions. Based on the asymptotic distribution of NAMMD, we propose NAMMD-based DCT to assess the closeness level of a distribution pair. Theoretically, we prove that NAMMD-based DCT has higher test power than MMD-based DCT while maintaining bounded type-I error. This is further validated by extensive experiments on multiple types of data, including synthetic noise and real images. Our code is available at https://github.com/zhijianzhouml/NAMMD.


翻译:两个分布在统计显著性上是否相互接近?分布接近性检验(DCT)通过检验分布对之间的距离是否至少为ε-远,形式化了这一提问。现有DCT方法主要衡量定义在离散空间上的分布对之间的差异,例如使用全变差,这限制了其在图像等复杂数据上的应用。为将DCT扩展到更多类型的数据,一个自然的想法是将最大均值差异(MMD)——一种衡量复杂分布之间分布差异的强大指标——引入DCT场景。然而,实证结果表明,许多分布对在同一个再生核希尔伯特空间(RKHS)中虽然具有不同的范数,却可能具有相同的MMD值。这些对可能表现出不同的有限样本可区分性,并反映不同的实际接近程度,从而使得MMD在DCT中信息量不足。为缓解这一问题,我们设计了一种新的分布差异衡量指标,即范数自适应MMD(NAMMD),它利用分布的RKHS范数对MMD值进行缩放。基于NAMMD的渐近分布,我们提出了基于NAMMD的DCT来评估分布对的接近程度。理论上,我们证明了基于NAMMD的DCT相比基于MMD的DCT具有更高的检验功效,同时保持有界的I类错误率。这一点进一步通过多种数据类型(包括合成噪声和真实图像)上的大量实验得到验证。我们的代码可在 https://github.com/zhijianzhouml/NAMMD 获取。

0
下载
关闭预览

相关内容

分布外OOD检测的最新进展:问题与方法
专知会员服务
22+阅读 · 2024年9月23日
专知会员服务
38+阅读 · 2021年8月27日
干货 | 视频显著性目标检测(文末附有完整源码)
计算机视觉战队
38+阅读 · 2019年9月3日
【资源】图像分割/显著性检测数据集列表
专知
13+阅读 · 2019年5月22日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
统计学常用数据类型
论智
19+阅读 · 2018年7月6日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
0+阅读 · 14分钟前
定向能反无人机系统最新发展动态
专知会员服务
3+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
2+阅读 · 今天13:33
相关资讯
干货 | 视频显著性目标检测(文末附有完整源码)
计算机视觉战队
38+阅读 · 2019年9月3日
【资源】图像分割/显著性检测数据集列表
专知
13+阅读 · 2019年5月22日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
统计学常用数据类型
论智
19+阅读 · 2018年7月6日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员