Kernel power $k$-means (KPKM) leverages a family of means to mitigate local minima issues in kernel $k$-means. However, KPKM faces two key limitations: (1) the computational burden of the full kernel matrix restricts its use on extensive data, and (2) the lack of authentic centroid-sample assignment learning reduces its noise robustness. To overcome these challenges, we propose RFF-KPKM, introducing the first approximation theory for applying random Fourier features (RFF) to KPKM. RFF-KPKM employs RFF to generate efficient, low-dimensional feature maps, bypassing the need for the whole kernel matrix. Crucially, we are the first to establish strong theoretical guarantees for this combination: (1) an excess risk bound of $\mathcal{O}(\sqrt{k^3/n})$, (2) strong consistency with membership values, and (3) a $(1+\varepsilon)$ relative error bound achievable using the RFF of dimension $\mathrm{poly}(\varepsilon^{-1}\log k)$. Furthermore, to improve robustness and the ability to learn multiple kernels, we propose IP-RFF-MKPKM, an improved possibilistic RFF-based multiple kernel power $k$-means. IP-RFF-MKPKM ensures the scalability of MKPKM via RFF and refines cluster assignments by combining the merits of the possibilistic membership and fuzzy membership. Experiments on large-scale datasets demonstrate the superior efficiency and clustering accuracy of the proposed methods compared to the state-of-the-art alternatives.


翻译:核幂K均值(KPKM)通过引入均值族来缓解核K均值中的局部极小值问题。然而,KPKM存在两个关键局限:(1)完整核矩阵的计算负担限制了其在大规模数据上的应用;(2)缺乏真实的质心-样本分配学习机制降低了其对噪声的鲁棒性。为克服这些挑战,我们提出RFF-KPKM方法,首次建立了将随机傅里叶特征(RFF)应用于KPKM的近似理论。RFF-KPKM利用RFF生成高效的低维特征映射,从而避免使用完整核矩阵。关键的是,我们首次为该组合建立了严格的理论保证:(1)超额风险界为$\mathcal{O}(\sqrt{k^3/n})$,(2)与隶属度值的强一致性,以及(3)通过维度为$\mathrm{poly}(\varepsilon^{-1}\log k)$的RFF可实现$(1+\varepsilon)$相对误差界。此外,为提升鲁棒性与多核学习能力,我们提出IP-RFF-MKPKM——一种改进的基于可能性RFF的多核幂K均值方法。该方法通过RFF确保MKPKM的可扩展性,并融合可能性隶属度与模糊隶属度的优势以优化聚类分配。在大规模数据集上的实验表明,相较于现有先进方法,所提方法具有更优的效率和聚类精度。

0
下载
关闭预览

相关内容

UnHiPPO:面向不确定性的状态空间模型初始化方法
专知会员服务
11+阅读 · 2025年6月6日
【NeurIPS 2024 Oral】用于多条件分子生成的图扩散Transformer
专知会员服务
16+阅读 · 2024年10月5日
【AAAI2024】KAM-CoT: 知识增强的多模态思维链推理
专知会员服务
45+阅读 · 2024年1月24日
【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移
【NeurIPS2022】基于最大熵编码的自监督学习
专知会员服务
27+阅读 · 2022年10月23日
NeurIPS 2021 | 寻找用于变分布泛化的隐式因果因子
专知会员服务
17+阅读 · 2021年12月7日
【NeurIPS 2021】类比进化算法:设计统一的序列模型
专知会员服务
16+阅读 · 2021年10月30日
专知会员服务
12+阅读 · 2021年7月13日
专知会员服务
23+阅读 · 2021年6月22日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2024年12月27日
Arxiv
175+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
VIP会员
相关VIP内容
UnHiPPO:面向不确定性的状态空间模型初始化方法
专知会员服务
11+阅读 · 2025年6月6日
【NeurIPS 2024 Oral】用于多条件分子生成的图扩散Transformer
专知会员服务
16+阅读 · 2024年10月5日
【AAAI2024】KAM-CoT: 知识增强的多模态思维链推理
专知会员服务
45+阅读 · 2024年1月24日
【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移
【NeurIPS2022】基于最大熵编码的自监督学习
专知会员服务
27+阅读 · 2022年10月23日
NeurIPS 2021 | 寻找用于变分布泛化的隐式因果因子
专知会员服务
17+阅读 · 2021年12月7日
【NeurIPS 2021】类比进化算法:设计统一的序列模型
专知会员服务
16+阅读 · 2021年10月30日
专知会员服务
12+阅读 · 2021年7月13日
专知会员服务
23+阅读 · 2021年6月22日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员