Fast $k$-means Seeding Under The Manifold Hypothesis - 专知论文

会员服务 ·

0

均值 · 流形 · 流形假设 · 初始化 · 最坏情况 ·

Fast $k$-means Seeding Under The Manifold Hypothesis

翻译：流形假设下的快速 $k$-means 种子初始化

Poojan Shah,Shashwat Agrawal,Ragesh Jaiswal

We study beyond worst case analysis for the $k$-means problem where the goal is to model typical instances of $k$-means arising in practice. Existing theoretical approaches provide guarantees under certain assumptions on the optimal solutions to $k$-means, making them difficult to validate in practice. We propose the manifold hypothesis, where data obtained in ambient dimension $D$ concentrates around a low dimensional manifold of intrinsic dimension $d$, as a reasonable assumption to model real world clustering instances. We identify key geometric properties of datasets which have theoretically predictable scaling laws depending on the quantization exponent $\varepsilon = 2/d$ using techniques from optimum quantization theory. We show how to exploit these regularities to design a fast seeding method called $\operatorname{Qkmeans}$ which provides $O(ρ^{-2} \log k)$ approximate solutions to the $k$-means problem in time $O(nD) + \widetilde{O}(\varepsilon^{1+ρ}ρ^{-1}k^{1+γ})$; where the exponent $γ= \varepsilon + ρ$ for an input parameter $ρ< 1$. This allows us to obtain new runtime - quality tradeoffs. We perform a large scale empirical study across various domains to validate our theoretical predictions and algorithm performance to bridge theory and practice for beyond worst case data clustering.

翻译：我们研究 $k$-means 问题的超越最坏情况分析，其目标是对实践中出现的典型 $k$-means 实例进行建模。现有的理论方法在 $k$-means 最优解的某些假设下提供保证，这使得这些假设在实践中难以验证。我们提出流形假设，即环境维度 $D$ 中获取的数据集中在内在维度 $d$ 的低维流形周围，作为对现实世界聚类实例建模的合理假设。利用最优量化理论的技术，我们识别了数据集的关键几何特性，这些特性具有理论上可预测的标度律，其依赖于量化指数 $\varepsilon = 2/d$。我们展示了如何利用这些规律性来设计一种名为 $\operatorname{Qkmeans}$ 的快速种子初始化方法，该方法能在 $O(nD) + \widetilde{O}(\varepsilon^{1+ρ}ρ^{-1}k^{1+γ})$ 时间内为 $k$-means 问题提供 $O(ρ^{-2} \log k)$ 近似解；其中指数 $γ= \varepsilon + ρ$，$ρ< 1$ 为输入参数。这使我们能够获得新的运行时间与质量权衡。我们在多个领域进行了大规模实证研究，以验证我们的理论预测和算法性能，从而为超越最坏情况的数据聚类架起理论与实践的桥梁。

0

相关内容

SORA底层模型用好了也能赚钱！DiffsFormer：基于扩散模型的股票因子生成

SORA底层模型用好了也能赚钱！DiffsFormer：基于扩散模型的股票因子生成

专知会员服务

36+阅读 · 2024年2月29日

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

专知会员服务

34+阅读 · 2023年9月13日

【2023新书】光滑流形上的优化引论，368页pdf

【2023新书】光滑流形上的优化引论，368页pdf

专知会员服务

56+阅读 · 2023年8月7日

几何观点下的深度学习

几何观点下的深度学习

专知会员服务

36+阅读 · 2022年12月13日

【斯坦福大学博士论文】凸优化和图算法的新基元，404页pdf

【斯坦福大学博士论文】凸优化和图算法的新基元，404页pdf

专知会员服务

63+阅读 · 2022年8月18日

【开放书】《矩阵流形优化算法》，241页pdf

【开放书】《矩阵流形优化算法》，241页pdf

专知会员服务

96+阅读 · 2021年7月3日

【经典书】矩阵流形优化算法，237页pdf，普林斯顿大学出版社

【经典书】矩阵流形优化算法，237页pdf，普林斯顿大学出版社

专知会员服务

115+阅读 · 2021年3月3日

124页哈佛数学系本科论文，带你了解流形学习的数学基础

124页哈佛数学系本科论文，带你了解流形学习的数学基础

专知会员服务

45+阅读 · 2020年12月23日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

初学者的 Keras：实现卷积神经网络

初学者的 Keras：实现卷积神经网络

Python程序员

24+阅读 · 2019年9月8日

初学者系列：基于Keras的Faster-RCNN的代码学习

初学者系列：基于Keras的Faster-RCNN的代码学习

专知

17+阅读 · 2019年8月9日

深度学习工程化神器Keras教程：《Keras深度学习进阶》随书代码

深度学习工程化神器Keras教程：《Keras深度学习进阶》随书代码

专知

23+阅读 · 2019年7月12日

你的TextGAN调出来了么？来看看人在怎么调的

你的TextGAN调出来了么？来看看人在怎么调的

专知

85+阅读 · 2019年6月6日

基于 Keras 用深度学习预测时间序列

基于 Keras 用深度学习预测时间序列

R语言中文社区

23+阅读 · 2018年7月27日

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

产业智能官

10+阅读 · 2018年6月23日

手把手教你用Python库Keras做预测（附代码）

手把手教你用Python库Keras做预测（附代码）

数据派THU

14+阅读 · 2018年5月30日

基于Keras进行迁移学习

基于Keras进行迁移学习

论智

12+阅读 · 2018年5月6日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

时滞微分差分系统的最小周期问题--天元数学交流项目

国家自然科学基金

0+阅读 · 2017年12月31日

近Kenmotsu流形的曲率与Ricci孤立子

国家自然科学基金

0+阅读 · 2015年12月31日

Choquet期望下极限定理及其收敛速度的刻画

国家自然科学基金

0+阅读 · 2015年12月31日

分数次椭圆型方程解的集中现象

国家自然科学基金

0+阅读 · 2015年12月31日

关于全空间上一类Kirchhoff型方程正解的存在性和多重性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

一些几何发展方程中的渐近分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

Generalizing Fair Top-$k$ Selection: An Integrative Approach

Arxiv

0+阅读 · 3月5日

All Constant Mutation Rates for the $(1+1)$ Evolutionary Algorithm

Arxiv

0+阅读 · 2月22日

Computing k-mers in Graphs

Arxiv

0+阅读 · 2月19日

CounterFlowNet: From Minimal Changes to Meaningful Counterfactual Explanations

Arxiv

0+阅读 · 2月19日

Sequential Monte Carlo approximations of Wasserstein--Fisher--Rao gradient flows

Arxiv

0+阅读 · 2月10日

Incremental (k, z)-Clustering on Graphs

Arxiv

0+阅读 · 2月9日

Submodular Maximization over a Matroid $k$-Intersection: Multiplicative Improvement over Greedy

Arxiv

0+阅读 · 2月9日

A Formal Analysis of Capacity Scaling Algorithms for Minimum-Cost Flows

Arxiv

0+阅读 · 2月3日

KVzap: Fast, Adaptive, and Faithful KV Cache Pruning

Arxiv

0+阅读 · 2月3日

On Densest $k$-Subgraph Mining and Diagonal Loading: Optimization Landscape and Finite-Step Exact Convergence Analysis

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

4+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

6+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

4+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

3+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

10+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

7+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

5+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

3+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

7+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

3+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

3+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

6+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

11+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

相关VIP内容

SORA底层模型用好了也能赚钱！DiffsFormer：基于扩散模型的股票因子生成

SORA底层模型用好了也能赚钱！DiffsFormer：基于扩散模型的股票因子生成

专知会员服务

36+阅读 · 2024年2月29日

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

Transformer为什么有效？Google最新《揭示变换器中的台阶优化算法》解释

专知会员服务

34+阅读 · 2023年9月13日

【2023新书】光滑流形上的优化引论，368页pdf

【2023新书】光滑流形上的优化引论，368页pdf

专知会员服务

56+阅读 · 2023年8月7日

几何观点下的深度学习

几何观点下的深度学习

专知会员服务

36+阅读 · 2022年12月13日

【斯坦福大学博士论文】凸优化和图算法的新基元，404页pdf

【斯坦福大学博士论文】凸优化和图算法的新基元，404页pdf

专知会员服务

63+阅读 · 2022年8月18日

【开放书】《矩阵流形优化算法》，241页pdf

【开放书】《矩阵流形优化算法》，241页pdf

专知会员服务

96+阅读 · 2021年7月3日

【经典书】矩阵流形优化算法，237页pdf，普林斯顿大学出版社

【经典书】矩阵流形优化算法，237页pdf，普林斯顿大学出版社

专知会员服务

115+阅读 · 2021年3月3日

124页哈佛数学系本科论文，带你了解流形学习的数学基础

124页哈佛数学系本科论文，带你了解流形学习的数学基础

专知会员服务

45+阅读 · 2020年12月23日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

初学者的 Keras：实现卷积神经网络

初学者的 Keras：实现卷积神经网络

Python程序员

24+阅读 · 2019年9月8日

初学者系列：基于Keras的Faster-RCNN的代码学习

初学者系列：基于Keras的Faster-RCNN的代码学习

专知

17+阅读 · 2019年8月9日

深度学习工程化神器Keras教程：《Keras深度学习进阶》随书代码

深度学习工程化神器Keras教程：《Keras深度学习进阶》随书代码

专知

23+阅读 · 2019年7月12日

你的TextGAN调出来了么？来看看人在怎么调的

你的TextGAN调出来了么？来看看人在怎么调的

专知

85+阅读 · 2019年6月6日

基于 Keras 用深度学习预测时间序列

基于 Keras 用深度学习预测时间序列

R语言中文社区

23+阅读 · 2018年7月27日

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

【深度学习】深度学习的几何观点：流形分布定律、学习能力的上限、概率变换的几何观点

产业智能官

10+阅读 · 2018年6月23日

手把手教你用Python库Keras做预测（附代码）

手把手教你用Python库Keras做预测（附代码）

数据派THU

14+阅读 · 2018年5月30日

基于Keras进行迁移学习

基于Keras进行迁移学习

论智

12+阅读 · 2018年5月6日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

相关论文

Generalizing Fair Top-$k$ Selection: An Integrative Approach

Arxiv

0+阅读 · 3月5日

All Constant Mutation Rates for the $(1+1)$ Evolutionary Algorithm

Arxiv

0+阅读 · 2月22日

Computing k-mers in Graphs

Arxiv

0+阅读 · 2月19日

CounterFlowNet: From Minimal Changes to Meaningful Counterfactual Explanations

Arxiv

0+阅读 · 2月19日

Sequential Monte Carlo approximations of Wasserstein--Fisher--Rao gradient flows

Arxiv

0+阅读 · 2月10日

Incremental (k, z)-Clustering on Graphs

Arxiv

0+阅读 · 2月9日

Submodular Maximization over a Matroid $k$-Intersection: Multiplicative Improvement over Greedy

Arxiv

0+阅读 · 2月9日

A Formal Analysis of Capacity Scaling Algorithms for Minimum-Cost Flows

Arxiv

0+阅读 · 2月3日

KVzap: Fast, Adaptive, and Faithful KV Cache Pruning

Arxiv

0+阅读 · 2月3日

On Densest $k$-Subgraph Mining and Diagonal Loading: Optimization Landscape and Finite-Step Exact Convergence Analysis

Arxiv

0+阅读 · 1月30日

相关基金

时滞微分差分系统的最小周期问题--天元数学交流项目

国家自然科学基金

0+阅读 · 2017年12月31日

近Kenmotsu流形的曲率与Ricci孤立子

国家自然科学基金

0+阅读 · 2015年12月31日

Choquet期望下极限定理及其收敛速度的刻画

国家自然科学基金

0+阅读 · 2015年12月31日

分数次椭圆型方程解的集中现象

国家自然科学基金

0+阅读 · 2015年12月31日

关于全空间上一类Kirchhoff型方程正解的存在性和多重性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

一些几何发展方程中的渐近分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向进化基因组学的高通量测序数据流形建模

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员