A New Robust Partial $p$-Wasserstein-Based Metric for Comparing Distributions

The $2$-Wasserstein distance is sensitive to minor geometric differences between distributions, making it a very powerful dissimilarity metric. However, due to this sensitivity, a small outlier mass can also cause a significant increase in the $2$-Wasserstein distance between two similar distributions. Similarly, sampling discrepancy can cause the empirical $2$-Wasserstein distance on $n$ samples in $\mathbb{R}^2$ to converge to the true distance at a rate of $n^{-1/4}$, which is significantly slower than the rate of $n^{-1/2}$ for $1$-Wasserstein distance. We introduce a new family of distances parameterized by $k \ge 0$, called $k$-RPW, that is based on computing the partial $2$-Wasserstein distance. We show that (1) $k$-RPW satisfies the metric properties, (2) $k$-RPW is robust to small outlier mass while retaining the sensitivity of $2$-Wasserstein distance to minor geometric differences, and (3) when $k$ is a constant, $k$-RPW distance between empirical distributions on $n$ samples in $\mathbb{R}^2$ converges to the true distance at a rate of $n^{-1/3}$, which is faster than the convergence rate of $n^{-1/4}$ for the $2$-Wasserstein distance. Using the partial $p$-Wasserstein distance, we extend our distance to any $p \in [1,\infty]$. By setting parameters $k$ or $p$ appropriately, we can reduce our distance to the total variation, $p$-Wasserstein, and the L\'evy-Prokhorov distances. Experiments show that our distance function achieves higher accuracy in comparison to the $1$-Wasserstein, $2$-Wasserstein, and TV distances for image retrieval tasks on noisy real-world data sets.

翻译：$2$-Wasserstein距离对分布间的微小几何差异高度敏感，因此成为非常有效的差异性度量。然而，由于这种敏感性，少量异常质量也可能导致两个相似分布之间的$2$-Wasserstein距离显著增大。同样，采样差异会导致$\mathbb{R}^2$中$n$个样本的经验$2$-Wasserstein距离以$n^{-1/4}$的速率收敛到真实距离，这明显慢于$1$-Wasserstein距离的$n^{-1/2}$收敛速率。我们引入了一族以$k \ge 0$为参数的新距离——$k$-RPW，该距离基于部分$2$-Wasserstein距离计算。我们证明了：(1) $k$-RPW满足度量性质；(2) $k$-RPW对少量异常质量具有鲁棒性，同时保留$2$-Wasserstein距离对微小几何差异的敏感性；(3) 当$k$为常数时，$\mathbb{R}^2$中$n$个样本的经验分布之间的$k$-RPW距离以$n^{-1/3}$的速率收敛到真实距离，这比$2$-Wasserstein距离的$n^{-1/4}$收敛速率更快。利用部分$p$-Wasserstein距离，我们将该距离扩展至任意$p \in [1,\infty]$。通过适当设置参数$k$或$p$，该距离可退化为全变差距离、$p$-Wasserstein距离和Lévy-Prokhorov距离。实验表明，在含噪真实数据集的图像检索任务中，与$1$-Wasserstein、$2$-Wasserstein和TV距离相比，我们的距离函数实现了更高的准确率。