Metric $k$-clustering using only Weak Comparison Oracles - 专知论文

会员服务 ·

0

度量 · 噪声 · 算法 · 聚类算法 · 度量空间 ·

Metric $k$-clustering using only Weak Comparison Oracles

翻译：仅使用弱比较预言机的度量$k$聚类

Rahul Raychaudhury,Aryan Esmailpour,Sainyam Galhotra,Stavros Sintos

Clustering is a fundamental primitive in unsupervised learning. However, classical algorithms for $k$-clustering (such as $k$-median and $k$-means) assume access to exact pairwise distances -- an unrealistic requirement in many modern applications. We study clustering in the \emph{Rank-model (R-model)}, where access to distances is entirely replaced by a \emph{quadruplet oracle} that provides only relative distance comparisons. In practice, such an oracle can represent learned models or human feedback, and is expected to be noisy and entail an access cost. Given a metric space with $n$ input items, we design randomized algorithms that, using only a noisy quadruplet oracle, compute a set of $O(k \cdot \mathsf{polylog}(n))$ centers along with a mapping from the input items to the centers such that the clustering cost of the mapping is at most constant times the optimum $k$-clustering cost. Our method achieves a query complexity of $O(n\cdot k \cdot \mathsf{polylog}(n))$ for arbitrary metric spaces and improves to $O((n+k^2) \cdot \mathsf{polylog}(n))$ when the underlying metric has bounded doubling dimension. When the metric has bounded doubling dimension we can further improve the approximation from constant to $1+\varepsilon$, for any arbitrarily small constant $\varepsilon\in(0,1)$, while preserving the same asymptotic query complexity. Our framework demonstrates how noisy, low-cost oracles, such as those derived from large language models, can be systematically integrated into scalable clustering algorithms.

翻译：聚类是无监督学习中的基本原语。然而，经典的$k$聚类算法（如$k$-中位数和$k$-均值）假设能够访问精确的成对距离——这在许多现代应用中是不切实际的要求。我们研究在\emph{排序模型（R模型）}中的聚类问题，其中对距离的访问完全被一个仅提供相对距离比较的\emph{四元组预言机}所取代。在实践中，这样的预言机可以代表学习到的模型或人类反馈，并且预期存在噪声并涉及访问成本。给定一个包含$n$个输入项的度量空间，我们设计了随机算法，仅使用一个带噪声的四元组预言机，计算一组$O(k \cdot \mathsf{polylog}(n))$中心点以及从输入项到这些中心点的映射，使得该映射的聚类成本至多是最优$k$聚类成本的常数倍。我们的方法在任意度量空间下实现了$O(n\cdot k \cdot \mathsf{polylog}(n))$的查询复杂度，并在底层度量具有有界倍增维度时改进为$O((n+k^2) \cdot \mathsf{polylog}(n))$。当度量具有有界倍增维度时，我们还可以将近似比从常数进一步改进为$1+\varepsilon$，对于任意小的常数$\varepsilon\in(0,1)$，同时保持相同的渐近查询复杂度。我们的框架展示了如何将带噪声、低成本的预言机（例如源自大型语言模型的预言机）系统地集成到可扩展的聚类算法中。

0

相关内容

【CIKM2023教程】深度聚类算法的应用，94页ppt

【CIKM2023教程】深度聚类算法的应用，94页ppt

专知会员服务

53+阅读 · 2023年11月8日

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

专知会员服务

43+阅读 · 2023年10月21日

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

专知会员服务

21+阅读 · 2023年1月5日

【KDD2022教程】在线聚类:算法、评估、指标、应用和基准，附75页ppt

【KDD2022教程】在线聚类:算法、评估、指标、应用和基准，附75页ppt

专知会员服务

60+阅读 · 2022年8月22日

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

专知会员服务

132+阅读 · 2022年6月20日

美国空军技术学院博士论文《用于气象聚类和预测的深度学习》

美国空军技术学院博士论文《用于气象聚类和预测的深度学习》

专知会员服务

54+阅读 · 2022年4月17日

【Alex Nowak-Vila博士论文】有理论保证的结构化预测， Structured Prediction with Theoretical Guarantees

【Alex Nowak-Vila博士论文】有理论保证的结构化预测， Structured Prediction with Theoretical Guarantees

专知会员服务

13+阅读 · 2022年3月15日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

Classic Clustering Algorithms to Live By [ 熊辉，罗格斯－新泽西州立大学教授] 2019年中国计算机大会计算机经典算法回顾与展望——机器学习与数据挖掘论坛

Classic Clustering Algorithms to Live By [ 熊辉，罗格斯－新泽西州立大学教授] 2019年中国计算机大会计算机经典算法回顾与展望——机器学习与数据挖掘论坛

专知会员服务

10+阅读 · 2019年10月26日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

博客 | 度量学习笔记(一) | Metric Learning for text categorization

博客 | 度量学习笔记(一) | Metric Learning for text categorization

AI研习社

21+阅读 · 2019年3月15日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

专知

13+阅读 · 2018年6月18日

手把手教你用Python库Keras做预测（附代码）

手把手教你用Python库Keras做预测（附代码）

数据派THU

14+阅读 · 2018年5月30日

【干货】Python无监督学习的4大聚类算法

【干货】Python无监督学习的4大聚类算法

新智元

14+阅读 · 2018年5月26日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

机器学习之确定最佳聚类数目的10种方法

机器学习之确定最佳聚类数目的10种方法

炼数成金订阅号

13+阅读 · 2017年10月12日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

基于量子随机行走智能处理的理论和方法

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

具有簇间分离特性的簇中心平面和子空间聚类方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

Improved Approximation Algorithms for Relational Clustering

Arxiv

0+阅读 · 2月17日

A Pragmatic Method for Comparing Clusterings with Overlaps and Outliers

Arxiv

0+阅读 · 2月16日

Incremental (k, z)-Clustering on Graphs

Arxiv

0+阅读 · 2月9日

How to Achieve the Intended Aim of Deep Clustering Now, without Deep Learning

Arxiv

0+阅读 · 2月5日

Tight FPT Approximations for Fair $k$-center with Outliers

Arxiv

0+阅读 · 2月5日

Sparse clustering via the Deterministic Information Bottleneck algorithm

Arxiv

0+阅读 · 1月28日

Communication-Avoiding Linear Algebraic Kernel K-Means on GPUs

Arxiv

0+阅读 · 1月28日

Communication-Avoiding Linear Algebraic Kernel K-Means on GPUs

Arxiv

0+阅读 · 1月23日

Improved Streaming Algorithm for Fair $k$-Center Clustering

Arxiv

0+阅读 · 1月16日

Decoder-only Clustering in Graphs with Dynamic Attributes

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

3+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

4+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

2+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

1+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

3+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

2+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

2+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

13+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

8+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

相关VIP内容

【CIKM2023教程】深度聚类算法的应用，94页ppt

【CIKM2023教程】深度聚类算法的应用，94页ppt

专知会员服务

53+阅读 · 2023年11月8日

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

【博士论文】无监督深度图聚类中的自适应表示学习，144页pdf

专知会员服务

43+阅读 · 2023年10月21日

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

【爱丁堡大学博士论文】图聚类结构的学习，164页pdf

专知会员服务

21+阅读 · 2023年1月5日

【KDD2022教程】在线聚类:算法、评估、指标、应用和基准，附75页ppt

【KDD2022教程】在线聚类:算法、评估、指标、应用和基准，附75页ppt

专知会员服务

60+阅读 · 2022年8月22日

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

专知会员服务

132+阅读 · 2022年6月20日

美国空军技术学院博士论文《用于气象聚类和预测的深度学习》

美国空军技术学院博士论文《用于气象聚类和预测的深度学习》

专知会员服务

54+阅读 · 2022年4月17日

【Alex Nowak-Vila博士论文】有理论保证的结构化预测， Structured Prediction with Theoretical Guarantees

【Alex Nowak-Vila博士论文】有理论保证的结构化预测， Structured Prediction with Theoretical Guarantees

专知会员服务

13+阅读 · 2022年3月15日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

Classic Clustering Algorithms to Live By [ 熊辉，罗格斯－新泽西州立大学教授] 2019年中国计算机大会计算机经典算法回顾与展望——机器学习与数据挖掘论坛

Classic Clustering Algorithms to Live By [ 熊辉，罗格斯－新泽西州立大学教授] 2019年中国计算机大会计算机经典算法回顾与展望——机器学习与数据挖掘论坛

专知会员服务

10+阅读 · 2019年10月26日

热门VIP内容

开通专知VIP会员享更多权益服务

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

相关资讯

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

博客 | 度量学习笔记(一) | Metric Learning for text categorization

博客 | 度量学习笔记(一) | Metric Learning for text categorization

AI研习社

21+阅读 · 2019年3月15日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

【Python实战】无监督学习—聚类、层次聚类、t-SNE，DBSCAN

专知

13+阅读 · 2018年6月18日

手把手教你用Python库Keras做预测（附代码）

手把手教你用Python库Keras做预测（附代码）

数据派THU

14+阅读 · 2018年5月30日

【干货】Python无监督学习的4大聚类算法

【干货】Python无监督学习的4大聚类算法

新智元

14+阅读 · 2018年5月26日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

机器学习之确定最佳聚类数目的10种方法

机器学习之确定最佳聚类数目的10种方法

炼数成金订阅号

13+阅读 · 2017年10月12日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Improved Approximation Algorithms for Relational Clustering

Arxiv

0+阅读 · 2月17日

A Pragmatic Method for Comparing Clusterings with Overlaps and Outliers

Arxiv

0+阅读 · 2月16日

Incremental (k, z)-Clustering on Graphs

Arxiv

0+阅读 · 2月9日

How to Achieve the Intended Aim of Deep Clustering Now, without Deep Learning

Arxiv

0+阅读 · 2月5日

Tight FPT Approximations for Fair $k$-center with Outliers

Arxiv

0+阅读 · 2月5日

Sparse clustering via the Deterministic Information Bottleneck algorithm

Arxiv

0+阅读 · 1月28日

Communication-Avoiding Linear Algebraic Kernel K-Means on GPUs

Arxiv

0+阅读 · 1月28日

Communication-Avoiding Linear Algebraic Kernel K-Means on GPUs

Arxiv

0+阅读 · 1月23日

Improved Streaming Algorithm for Fair $k$-Center Clustering

Arxiv

0+阅读 · 1月16日

Decoder-only Clustering in Graphs with Dynamic Attributes

Arxiv

0+阅读 · 1月14日

相关基金

基于量子随机行走智能处理的理论和方法

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

具有簇间分离特性的簇中心平面和子空间聚类方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员