The Gromov-Wasserstein (GW) distance quantifies dissimilarity between metric measure spaces and provides a meaningful figure of merit for applications involving heterogeneous data. While computational aspects of the GW distance have been widely studied, a strong duality theory and fundamental statistical questions concerning empirical convergence rates remained obscure. This work closes these gaps for the $(2,2)$-GW distance (namely, with quadratic cost) over Euclidean spaces of different dimensions $d_x$ and $d_y$. We consider both the standard GW and the entropic GW (EGW) distances, derive their dual forms, and use them to analyze expected empirical convergence rates. The resulting rates are $n^{-2/\max\{d_x,d_y,4\}}$ (up to a log factor when $\max\{d_x,d_y\}=4$) and $n^{-1/2}$ for the two-sample GW and EGW problems, respectively, which matches the corresponding rates for standard and entropic optimal transport distances. We also study stability of EGW in the entropic regularization parameter and establish approximation and continuity results for the cost and optimal couplings. Lastly, the duality is leveraged to shed new light on the open problem of the one-dimensional GW distance between uniform distributions on $n$ points, illuminating why the identity and anti-identity permutations may not be optimal. Our results serve as a first step towards a comprehensive statistical theory as well as computational advancements for GW distances, based on the discovered dual formulation.


翻译:Gromov-Wasserstein(GW)距离度量度量空间之间的不相似性,并为涉及异构数据的应用提供了有意义的性能指标。尽管GW距离的计算方面已被广泛研究,但其强对偶理论以及关于经验收敛速率的基本统计问题仍不清晰。本文针对不同维度$d_x$和$d_y$的欧氏空间中的$(2,2)$-GW距离(即二次成本函数)填补了这些空白。我们分别考虑了标准GW距离和熵GW(EGW)距离,推导了它们的对偶形式,并利用这些形式分析了期望的经验收敛速率。得到的速率分别为:双样本GW问题的$n^{-2/\max\{d_x,d_y,4\}}$(当$\max\{d_x,d_y\}=4$时存在对数因子)和EGW问题的$n^{-1/2}$,这与标准最优传输距离和熵最优传输距离对应的速率一致。我们还研究了EGW在熵正则化参数下的稳定性,并建立了成本函数和最优耦合的逼近与连续性结果。最后,利用对偶性为一维GW距离中$n$个点上的均匀分布之间的开放问题提供了新见解,阐明了为什么恒等排列和反恒等排列可能不是最优的。基于发现的对偶形式,我们的结果为GW距离的全面统计理论以及计算进展迈出了第一步。

1
下载
关闭预览

相关内容

在数学,统计学和计算机科学中,尤其是在机器学习和逆问题中,正则化是添加信息以解决不适定问题或防止过度拟合的过程。 正则化适用于不适定的优化问题中的目标函数。
【硬核书】稀疏多项式优化:理论与实践,220页pdf
专知会员服务
73+阅读 · 2022年9月30日
【2022新书】谱图理论,Spectral Graph Theory,100页pdf
专知会员服务
76+阅读 · 2022年4月15日
【硬核书】树与网络上的概率,716页pdf
专知会员服务
77+阅读 · 2021年12月8日
专知会员服务
52+阅读 · 2020年12月14日
专知会员服务
63+阅读 · 2020年3月4日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
【论文笔记】ICLR 2018 Wasserstein自编码器
专知
32+阅读 · 2018年6月29日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月17日
VIP会员
最新内容
《多域战场上反制小型无人机系统》150页
专知会员服务
14+阅读 · 6月11日
战场人工智能:增强陆地作战能力的发现与要求
以人工智能为中心的指挥控制
专知会员服务
3+阅读 · 6月11日
《基于深度强化学习的反无人机技术研究》178页
专知会员服务
13+阅读 · 6月10日
“史诗怒火”行动与“AI中心战”模式的浮现
专知会员服务
15+阅读 · 6月10日
【CVPR2026教程】扩散模型的解析理解
专知会员服务
6+阅读 · 6月10日
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
【论文笔记】ICLR 2018 Wasserstein自编码器
专知
32+阅读 · 2018年6月29日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员