We develop a new approach for clustering non-spherical (i.e., arbitrary component covariances) Gaussian mixture models via a subroutine, based on the sum-of-squares method, that finds a low-dimensional separation-preserving projection of the input data. Our method gives a non-spherical analog of the classical dimension reduction, based on singular value decomposition, that, among several other applications, forms a key component of the celebrated spherical clustering algorithm of Vempala and Wang [VW04]. As applications, we obtain an algorithm to (1) cluster an arbitrary total-variation separated mixture of $k$ centered (i.e., zero-mean) Gaussians with $n\geq \operatorname{poly}(d) f(w_{\min}^{-1})$ samples and $\operatorname{poly}(n)$ time, and (2) cluster an arbitrary total-variation separated mixture of $k$ Gaussians with identical but arbitrary unknown covariance with $n \geq d^{O(\log w_{\min}^{-1})} f(w_{\min}^{-1})$ samples and $n^{O(\log w_{\min}^{-1})}$ time. Here, $w_{\min}$ is the minimum mixing weight of the input mixture, and $f$ does not depend on the dimension $d$. Our algorithms naturally extend to tolerating a dimension-independent fraction of arbitrary outliers. Before this work, the techniques in the state-of-the-art non-spherical clustering algorithms needed $d^{O(k)} f(w_{\min}^{-1})$ samples and time for clustering such mixtures. Our results may come as a surprise in the context of the $d^{Ω(k)}$ statistical query and sum-of-squares lower bounds [DKS17, DKPP24] for clustering non-spherical Gaussian mixtures. While these results are usually thought to rule out $d^{o(k)}$ cost algorithms for the problem, our results show that the lower bounds can in fact be circumvented for a remarkably general class of Gaussian mixtures.


翻译:我们提出了一种新的非球形(即任意分量协方差)高斯混合模型聚类方法,该方法通过一个基于平方和技术的子程序,寻找输入数据的低维保分离投影。该方法为经典基于奇异值分解的降维方法提供了非球形模拟,后者在众多应用中构成Vempala和Wang [VW04] 经典球形聚类算法的关键组件。作为应用,我们实现了以下算法:(1) 对任意全变差分离的$k$个中心化(即零均值)高斯混合模型进行聚类,所需样本量为$n\geq \operatorname{poly}(d) f(w_{\min}^{-1})$,时间复杂度为$\operatorname{poly}(n)$;(2) 对任意全变差分离的$k$个具有相同但未知协方差的高斯混合模型进行聚类,所需样本量为$n \geq d^{O(\log w_{\min}^{-1})} f(w_{\min}^{-1})$,时间复杂度为$n^{O(\log w_{\min}^{-1})}$。其中$w_{\min}$为输入混合分布的最小混合权重,$f$与维度$d$无关。我们的算法天然支持容忍与维度无关比例的任意异常值。在此工作之前,最先进非球形聚类算法需要$d^{O(k)} f(w_{\min}^{-1})$的样本量和时间复杂度才能完成此类聚类。我们的结果可能出乎意料,因为针对非球形高斯混合聚类的$d^{Ω(k)}$统计查询和平方和下界[DKS17, DKPP24]通常被认为排除了该问题的$d^{o(k)}$复杂度算法,而我们的研究表明,对于一类非常广泛的高斯混合模型,这些下界实际上可以被规避。

0
下载
关闭预览

相关内容

【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月29日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员