Fast and explainable clustering in the Manhattan and Tanimoto distance - 专知论文

会员服务 ·

0

算法 · 曼哈顿距离 · 数据点 · 排序 · 搜索 ·

Fast and explainable clustering in the Manhattan and Tanimoto distance

翻译：快速且可解释的曼哈顿距离与谷本距离聚类

Stefan Güttel,Kaustubh Roy

The CLASSIX algorithm is a fast and explainable approach to data clustering. In its original form, this algorithm exploits the sorting of the data points by their first principal component to truncate the search for nearby data points, with nearness being defined in terms of the Euclidean distance. Here we extend CLASSIX to other distance metrics, including the Manhattan distance and the Tanimoto distance. Instead of principal components, we use an appropriate norm of the data vectors as the sorting criterion, combined with the triangle inequality for search termination. In the case of Tanimoto distance, a provably sharper intersection inequality is used to further boost the performance of the new algorithm. On a real-world chemical fingerprint benchmark, CLASSIX Tanimoto is about 30 times faster than the Taylor--Butina algorithm, and about 80 times faster than DBSCAN, while computing higher-quality clusters in both cases.

翻译：CLASSIX算法是一种快速且可解释的数据聚类方法。在其原始形式中，该算法通过对数据点按其第一主成分排序来截断对邻近数据点的搜索，邻近性由欧几里得距离定义。本文我们将CLASSIX扩展到其他距离度量，包括曼哈顿距离和谷本距离。我们使用数据向量的适当范数作为排序标准，并结合三角不等式进行搜索终止，以替代主成分。在谷本距离的情况下，采用可证明更严格的交集不等式来进一步提升新算法的性能。在真实世界的化学指纹基准测试中，CLASSIX Tanimoto算法比Taylor–Butina算法快约30倍，比DBSCAN快约80倍，同时在两种情况下均计算出更高质量的聚类。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

可解释聚类综述

可解释聚类综述

专知会员服务

38+阅读 · 2024年9月8日

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

专知会员服务

39+阅读 · 2023年5月27日

电子科大最新《深度聚类》全面综述，20页pdf涵盖260篇文献全面阐述深度聚类方法

电子科大最新《深度聚类》全面综述，20页pdf涵盖260篇文献全面阐述深度聚类方法

专知会员服务

109+阅读 · 2022年10月16日

【KDD2022教程】在线聚类:算法、评估、指标、应用和基准，附75页ppt

【KDD2022教程】在线聚类:算法、评估、指标、应用和基准，附75页ppt

专知会员服务

60+阅读 · 2022年8月22日

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

专知会员服务

132+阅读 · 2022年6月20日

在线哈希算法研究综述

专知会员服务

19+阅读 · 2021年5月16日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

专知会员服务

27+阅读 · 2020年3月9日

【WWW2020-北邮】结构深度聚类网络，Structural Deep Clustering Network

【WWW2020-北邮】结构深度聚类网络，Structural Deep Clustering Network

专知会员服务

94+阅读 · 2020年2月14日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

文本分析 | 常用距离/相似度一览

文本分析 | 常用距离/相似度一览

数说工作室

26+阅读 · 2017年10月12日

文本聚类：从非结构化数据快速获取见解

文本聚类：从非结构化数据快速获取见解

Datartisan数据工匠

15+阅读 · 2017年10月12日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

图的距离矩阵的惯性及极端负特征值的研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

具有簇间分离特性的簇中心平面和子空间聚类方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

距离正则图的谱理论

国家自然科学基金

1+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

距离正则图研究的若干代数方法

国家自然科学基金

0+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

A Pragmatic Method for Comparing Clusterings with Overlaps and Outliers

Arxiv

0+阅读 · 2月16日

Fast Evaluation of Truncated Neumann Series by Low-Product Radix Kernels

Arxiv

0+阅读 · 2月12日

Minimum distance classification for nonlinear dynamical systems

Arxiv

0+阅读 · 2月12日

Understanding Generalization in Diffusion Distillation via Probability Flow Distance

Arxiv

0+阅读 · 2月12日

Chamfer-Linkage for Hierarchical Agglomerative Clustering

Arxiv

0+阅读 · 2月11日

Fast-Convergent Proximity Graphs for Approximate Nearest Neighbor Search

Arxiv

0+阅读 · 2月4日

Graph Max Shift: A Hill-Climbing Method for Graph Clustering

Arxiv

0+阅读 · 2月1日

Approximation theory for distant Bang calculus

Arxiv

0+阅读 · 1月28日

Dynamic networks clustering via mirror distance

Arxiv

0+阅读 · 1月20日

Kantorovich Distance via Spanning Trees: Properties and Algorithms

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

曼哈顿距离

最新内容

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

1+阅读 · 今天15:19

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

1+阅读 · 今天15:17

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

2+阅读 · 今天13:58

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

2+阅读 · 今天13:36

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

专知会员服务

2+阅读 · 今天13:33

《无人水面艇文献综述与结构设计》135页

《无人水面艇文献综述与结构设计》135页

专知会员服务

10+阅读 · 6月13日

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

专知会员服务

9+阅读 · 6月13日

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

专知会员服务

2+阅读 · 6月13日

智能体时间序列系统全景综述：架构、可靠性与研究前沿

智能体时间序列系统全景综述：架构、可靠性与研究前沿

专知会员服务

10+阅读 · 6月13日

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

专知会员服务

8+阅读 · 6月12日

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

专知会员服务

22+阅读 · 6月12日

乌克兰战场背后的新武器

乌克兰战场背后的新武器

专知会员服务

7+阅读 · 6月12日

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

专知会员服务

12+阅读 · 6月12日

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

专知会员服务

9+阅读 · 6月12日

基于博弈论的陆军人机协同（长文报告）

基于博弈论的陆军人机协同（长文报告）

专知会员服务

13+阅读 · 6月12日

相关VIP内容

可解释聚类综述

可解释聚类综述

专知会员服务

38+阅读 · 2024年9月8日

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

专知会员服务

39+阅读 · 2023年5月27日

电子科大最新《深度聚类》全面综述，20页pdf涵盖260篇文献全面阐述深度聚类方法

电子科大最新《深度聚类》全面综述，20页pdf涵盖260篇文献全面阐述深度聚类方法

专知会员服务

109+阅读 · 2022年10月16日

【KDD2022教程】在线聚类:算法、评估、指标、应用和基准，附75页ppt

【KDD2022教程】在线聚类:算法、评估、指标、应用和基准，附75页ppt

专知会员服务

60+阅读 · 2022年8月22日

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

浙江大学等最新《深度聚类》综述，，35页pdf涵盖246篇文献概述深度聚类体系挑战与未来方向

专知会员服务

132+阅读 · 2022年6月20日

在线哈希算法研究综述

专知会员服务

19+阅读 · 2021年5月16日

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知会员服务

78+阅读 · 2021年1月30日

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

【北大-阿里巴巴】深度哈希方法综述，23页pdf，A Survey on Deep Hashing Methods

专知会员服务

27+阅读 · 2020年3月9日

【WWW2020-北邮】结构深度聚类网络，Structural Deep Clustering Network

【WWW2020-北邮】结构深度聚类网络，Structural Deep Clustering Network

专知会员服务

94+阅读 · 2020年2月14日

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

【元学习 | 论文】元学习聚类，Meta-Learning to Cluster，哥伦比亚大学

专知会员服务

42+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

俄乌战场地面机器人如何改写战争规则

相关资讯

【AAAI2021】对比聚类，Contrastive Clustering

【AAAI2021】对比聚类，Contrastive Clustering

专知

26+阅读 · 2021年1月30日

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知

21+阅读 · 2020年5月30日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

深度自进化聚类：Deep Self-Evolution Clustering

深度自进化聚类：Deep Self-Evolution Clustering

我爱读PAMI

15+阅读 · 2019年4月13日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

干货：基于用户画像的聚类分析

干货：基于用户画像的聚类分析

数据分析

22+阅读 · 2018年5月17日

最新｜深度离散哈希算法，可用于图像检索！

最新｜深度离散哈希算法，可用于图像检索！

全球人工智能

14+阅读 · 2017年12月15日

文本分析 | 常用距离/相似度一览

文本分析 | 常用距离/相似度一览

数说工作室

26+阅读 · 2017年10月12日

文本聚类：从非结构化数据快速获取见解

文本聚类：从非结构化数据快速获取见解

Datartisan数据工匠

15+阅读 · 2017年10月12日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

A Pragmatic Method for Comparing Clusterings with Overlaps and Outliers

Arxiv

0+阅读 · 2月16日

Fast Evaluation of Truncated Neumann Series by Low-Product Radix Kernels

Arxiv

0+阅读 · 2月12日

Minimum distance classification for nonlinear dynamical systems

Arxiv

0+阅读 · 2月12日

Understanding Generalization in Diffusion Distillation via Probability Flow Distance

Arxiv

0+阅读 · 2月12日

Chamfer-Linkage for Hierarchical Agglomerative Clustering

Arxiv

0+阅读 · 2月11日

Fast-Convergent Proximity Graphs for Approximate Nearest Neighbor Search

Arxiv

0+阅读 · 2月4日

Graph Max Shift: A Hill-Climbing Method for Graph Clustering

Arxiv

0+阅读 · 2月1日

Approximation theory for distant Bang calculus

Arxiv

0+阅读 · 1月28日

Dynamic networks clustering via mirror distance

Arxiv

0+阅读 · 1月20日

Kantorovich Distance via Spanning Trees: Properties and Algorithms

Arxiv

0+阅读 · 1月13日

相关基金

图的距离矩阵的惯性及极端负特征值的研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异构信息网络中实体归类的模糊聚类

国家自然科学基金

1+阅读 · 2015年12月31日

具有簇间分离特性的簇中心平面和子空间聚类方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

1+阅读 · 2014年12月31日

距离正则图的谱理论

国家自然科学基金

1+阅读 · 2014年12月31日

几类扩散过程的逼近及应用

国家自然科学基金

1+阅读 · 2014年12月31日

距离正则图研究的若干代数方法

国家自然科学基金

0+阅读 · 2014年12月31日

时间序列数据挖掘中的聚类模型与算法研究

国家自然科学基金

14+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员