This paper presents noise-robust clustering techniques in unsupervised machine learning. The uncertainty about the noise, consistency, and other ambiguities can become severe obstacles in data analytics. As a result, data quality, cleansing, management, and governance remain critical disciplines when working with Big Data. With this complexity, it is no longer sufficient to treat data deterministically as in a classical setting, and it becomes meaningful to account for noise distribution and its impact on data sample values. Classical clustering methods group data into "similarity classes" depending on their relative distances or similarities in the underlying space. This paper addressed this problem via the extension of classical $K$-means and $K$-medoids clustering over data distributions (rather than the raw data). This involves measuring distances among distributions using two types of measures: the optimal mass transport (also called Wasserstein distance, denoted $W_2$) and a novel distance measure proposed in this paper, the expected value of random variable distance (denoted ED). The presented distribution-based $K$-means and $K$-medoids algorithms cluster the data distributions first and then assign each raw data to the cluster of data's distribution.


翻译:本文介绍了在不受监督的机器学习过程中的噪音- 有机热聚变技术。 噪音、 一致性和其他模糊性方面的不确定性可能成为数据分析中的严重障碍。 因此, 数据质量、 清理、 管理和治理仍然是与大数据合作的关键学科。 如此复杂, 不再足以像古典环境那样对数据进行决定性的处理, 也不足以考虑噪音分布及其对数据样本值的影响 。 经典集束方法将数据分组数据分为“ 相近类 ”, 取决于其相对距离或基础空间的相似性 。 本文通过经典 $ 平均值和 $ 美元 类集成数据分布( 而不是原始数据 ) 来解决这个问题 。 这涉及使用两种措施衡量分布之间的距离: 最佳大众运输( 也称为 瓦塞斯坦 距离, 注意 $_ 2 ), 以及本文中提议的新的距离测量标准, 随机可变距离的预期值( 注意 ED ) 。 本文通过基于 发行的 $ K 比例 和 $ $ 美元 基 基 类组数 数据 分配数据 向原始数据分组 分配 。

0
下载
关闭预览

相关内容

专知会员服务
90+阅读 · 2021年6月29日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
专知会员服务
124+阅读 · 2020年9月8日
【Manning新书】现代Java实战,592页pdf
专知会员服务
101+阅读 · 2020年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
已删除
AI科技评论
4+阅读 · 2018年8月12日
Arxiv
0+阅读 · 2021年12月16日
Arxiv
0+阅读 · 2021年12月16日
Arxiv
13+阅读 · 2021年10月22日
Arxiv
31+阅读 · 2020年9月21日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
0+阅读 · 54分钟前
Agentic RL:框架、实践与长程智能体训练
专知会员服务
0+阅读 · 56分钟前
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
专知会员服务
90+阅读 · 2021年6月29日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
专知会员服务
124+阅读 · 2020年9月8日
【Manning新书】现代Java实战,592页pdf
专知会员服务
101+阅读 · 2020年5月22日
相关资讯
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
已删除
AI科技评论
4+阅读 · 2018年8月12日
Top
微信扫码咨询专知VIP会员