In a data matrix, we may distinguish between cases, each represented by a row vector for a statistical unit, and cells, which correspond to single entries of the data matrix. Recent developments in Robust Statistics have introduced the cellwise contamination paradigm, which assumes contamination on cells rather than on entire cases. This approach becomes particularly relevant as the number of variables increases. Indeed, discarding or downweighting entire cases because of a few anomalous cells in them, as done by traditional (casewise) robust methods, can result in substantial information loss, since the non-contaminated (or reliable) cells can still be highly informative. This philosophy can also be considered in fuzzy clustering, by assuming that reliable cells within a case may still provide useful information for determining fuzzy memberships. A robust fuzzy clustering proposal is thus introduced in this work, combining the advantages of dealing with outlying cells and simultaneously controlling the degree of fuzziness of unit assignments. The cluster-specific relationships among variables, detected by the fuzzy clustering approach, are also key to better identifying outlying cells and correct them. The strengths of the proposed methodology are illustrated through a simulation study and two real-world applications. The effects of the model's tuning parameters are explored, and some guidance for users on how to set them suitably is provided.


翻译:在数据矩阵中,我们可区分出由统计单元行向量表示的个案,以及对应数据矩阵中单个条目的单元。鲁棒统计领域的最新发展引入了单元污染范式,该范式假设污染作用于单元而非整个个案。随着变量数量的增加,这种方法变得尤为重要。实际上,传统(个案式)鲁棒方法因个案中存在少数异常单元而丢弃或降低整个个案的权重,这可能导致严重的信息损失,因为未受污染(或可靠)的单元仍可提供高度信息量。这种理念同样可应用于模糊聚类,即假设个案内的可靠单元仍能为确定模糊隶属度提供有用信息。因此,本文提出了一种鲁棒模糊聚类方案,结合了处理离群单元与控制单元分配模糊度的双重优势。通过模糊聚类方法检测到的变量间聚类特定关系,也是识别离群单元并予以修正的关键。通过模拟研究和两个实际应用案例,展示了所提方法的优势。探索了模型调优参数的影响,并为用户提供了如何恰当设置这些参数的指导。

0
下载
关闭预览

相关内容

【NeurIPS2023】从视觉-语言基础模型中提取分布外鲁棒性
专知会员服务
21+阅读 · 2023年11月4日
【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度
专知会员服务
26+阅读 · 2021年4月13日
专知会员服务
144+阅读 · 2021年3月17日
【NeurIPS 2020】大规模分布式鲁棒优化方法
专知会员服务
26+阅读 · 2020年10月13日
鲁棒模式识别研究进展
专知会员服务
41+阅读 · 2020年8月9日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
读者来稿 | 有效遮挡检测的鲁棒人脸识别
计算机视觉战队
19+阅读 · 2019年3月28日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
变分自编码器VAE:一步到位的聚类方案
PaperWeekly
25+阅读 · 2018年9月18日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月27日
Arxiv
0+阅读 · 4月13日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
4+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
【NeurIPS2023】从视觉-语言基础模型中提取分布外鲁棒性
专知会员服务
21+阅读 · 2023年11月4日
【牛津大学博士论文】抗规避攻击鲁棒学习的样本复杂度
专知会员服务
26+阅读 · 2021年4月13日
专知会员服务
144+阅读 · 2021年3月17日
【NeurIPS 2020】大规模分布式鲁棒优化方法
专知会员服务
26+阅读 · 2020年10月13日
鲁棒模式识别研究进展
专知会员服务
41+阅读 · 2020年8月9日
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
读者来稿 | 有效遮挡检测的鲁棒人脸识别
计算机视觉战队
19+阅读 · 2019年3月28日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
变分自编码器VAE:一步到位的聚类方案
PaperWeekly
25+阅读 · 2018年9月18日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员