Clustering plays a crucial role in computer science, facilitating data analysis and problem-solving across numerous fields. By partitioning large datasets into meaningful groups, clustering reveals hidden structures and relationships within the data, aiding tasks such as unsupervised learning, classification, anomaly detection, and recommendation systems. Particularly in relational databases, where data is distributed across multiple tables, efficient clustering is essential yet challenging due to the computational complexity of joining tables. This paper addresses this challenge by introducing efficient algorithms for $k$-median and $k$-means clustering on relational data without the need for pre-computing the join query results. For the relational $k$-median clustering, we propose the first efficient relative approximation algorithm. For the relational $k$-means clustering, our algorithm significantly improves both the approximation factor and the running time of the known relational $k$-means clustering algorithms, which suffer either from large constant approximation factors, or expensive running time. Given a join query $Q$ and a database instance $D$ of $O(N)$ tuples, for both $k$-median and $k$-means clustering on the results of $Q$ on $D$, we propose randomized $(1+\varepsilon)γ$-approximation algorithms that run in roughly $O(k^2N^{\mathsf{fhw}})+T_γ(k^2)$ time, where $\varepsilon\in (0,1)$ is a constant parameter decided by the user, $\mathsf{fhw}$ is the fractional hyper-tree width of $Q$, while $γ$ and $T_γ(x)$ are respectively the approximation factor and the running time of a traditional clustering algorithm in the standard computational setting over $x$ points.


翻译:聚类在计算机科学中扮演着关键角色,在众多领域促进数据分析和问题解决。通过将大型数据集划分为有意义的组别,聚类能够揭示数据中隐藏的结构与关联,辅助无监督学习、分类、异常检测和推荐系统等任务。尤其在关系型数据库中,数据分布在多个表中,由于连接表的计算复杂性,高效聚类至关重要且具有挑战性。本文通过引入无需预先计算连接查询结果的关系型数据$k$-中位数与$k$-均值聚类高效算法来应对这一挑战。针对关系型$k$-中位数聚类,我们提出了首个高效的相对近似算法。对于关系型$k$-均值聚类,我们的算法显著改进了现有关系型$k$-均值聚类算法的近似因子与运行时间——现有算法或存在较大常数近似因子,或具有高昂的时间复杂度。给定连接查询$Q$和包含$O(N)$个元组的数据库实例$D$,针对$Q$在$D$上结果集的$k$-中位数与$k$-均值聚类,我们提出了随机化$(1+\varepsilon)γ$-近似算法,其运行时间约为$O(k^2N^{\mathsf{fhw}})+T_γ(k^2)$,其中$\varepsilon\in (0,1)$为用户决定的常数参数,$\mathsf{fhw}$为$Q$的分数超树宽度,而$γ$和$T_γ(x)$分别表示标准计算环境下对$x$个点进行传统聚类时的近似因子与运行时间。

0
下载
关闭预览

相关内容

【CIKM2023教程】深度聚类算法的应用,94页ppt
专知会员服务
53+阅读 · 2023年11月8日
【爱丁堡大学博士论文】图聚类结构的学习,164页pdf
专知会员服务
39+阅读 · 2023年1月5日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
基于图神经网络的聚类研究与应用
THU数据派
10+阅读 · 2020年5月29日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
推荐系统算法合集,满满都是干货(建议收藏)
七月在线实验室
17+阅读 · 2018年7月23日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
VIP会员
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
基于图神经网络的聚类研究与应用
THU数据派
10+阅读 · 2020年5月29日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
推荐系统算法合集,满满都是干货(建议收藏)
七月在线实验室
17+阅读 · 2018年7月23日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员