Adjusted similarity measures, such as Cohen's kappa for inter-rater reliability and the adjusted Rand index used to compare clustering algorithms, are a vital tool for comparing discrete labellings. These measures are intended to have the property of 0 expectation under a null distribution and maximum value 1 under maximal similarity to aid in interpretation. Measures are frequently adjusted with respect to the permutation distribution for historic and analytic reasons. There is currently renewed interest in considering other null models more appropriate for context, such as clustering ensembles permitting a random number of identified clusters. The purpose of this work is two -- fold: (1) to generalize the study of the adjustment operator to general null models and to a more general procedure which includes statistical standardization as a special case and (2) to identify sufficient conditions for the adjustment operator to produce the intended properties, where sufficient conditions are related to whether and how observed data are incorporated into null distributions. We demonstrate how violations of the sufficient conditions may lead to substantial breakdown, such as by producing a non-positive measure under traditional adjustment rather than one with mean 0, or by producing a measure which is deterministically 0 under statistical standardization.


翻译:调整相似性度量,如用于评估者间信度的Cohen's kappa和用于比较聚类算法的调整兰德指数,是比对离散标注结果的重要工具。这些度量旨在具备零期望特性(在零分布下)和最大值1特性(在最大相似性下),以辅助结果解释。出于历史和分析原因,度量常基于置换分布进行调整。当前学界重新关注采用更符合情境的其他零模型,例如允许随机聚类数量的聚类集成方法。本研究目的有二:(1)将调整算子的研究推广至一般零模型及更广义的处理流程(其中统计标准化作为特例);(2)确定调整算子产生预期性质的充分条件,这些条件与观测数据是否及如何纳入零分布密切相关。我们论证了违反充分条件可能导致严重失效,例如传统调整可能产生非正度量而非零均值度量,或统计标准化下可能产生确定性为零的度量。

0
下载
关闭预览

相关内容

【华盛顿大学博士论文】因果模型的似然分析,190页pdf
专知会员服务
35+阅读 · 2022年11月14日
【博士论文】大数据相似查询关键技术研究
专知会员服务
24+阅读 · 2021年12月2日
专知会员服务
29+阅读 · 2021年6月7日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
91+阅读 · 2020年7月4日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
75+阅读 · 2020年4月24日
pytorch中六种常用的向量相似度评估方法
极市平台
22+阅读 · 2021年12月9日
半监督深度学习小结:类协同训练和一致性正则化
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员