Adjusted Similarity Measures and a Violation of Expectations - 专知论文

会员服务 ·

0

度量 · 相似性 · 相似性度量 · 聚类算法 · 比对 ·

Adjusted Similarity Measures and a Violation of Expectations

翻译：调整相似性度量与期望违背

William L. Lippitt,Edward J. Bedrick,Nichole E. Carlson

from arxiv, 12 pages, 1 figure

Adjusted similarity measures, such as Cohen's kappa for inter-rater reliability and the adjusted Rand index used to compare clustering algorithms, are a vital tool for comparing discrete labellings. These measures are intended to have the property of 0 expectation under a null distribution and maximum value 1 under maximal similarity to aid in interpretation. Measures are frequently adjusted with respect to the permutation distribution for historic and analytic reasons. There is currently renewed interest in considering other null models more appropriate for context, such as clustering ensembles permitting a random number of identified clusters. The purpose of this work is two -- fold: (1) to generalize the study of the adjustment operator to general null models and to a more general procedure which includes statistical standardization as a special case and (2) to identify sufficient conditions for the adjustment operator to produce the intended properties, where sufficient conditions are related to whether and how observed data are incorporated into null distributions. We demonstrate how violations of the sufficient conditions may lead to substantial breakdown, such as by producing a non-positive measure under traditional adjustment rather than one with mean 0, or by producing a measure which is deterministically 0 under statistical standardization.

翻译：调整相似性度量，如用于评估者间信度的Cohen's kappa和用于比较聚类算法的调整兰德指数，是比对离散标注结果的重要工具。这些度量旨在具备零期望特性（在零分布下）和最大值1特性（在最大相似性下），以辅助结果解释。出于历史和分析原因，度量常基于置换分布进行调整。当前学界重新关注采用更符合情境的其他零模型，例如允许随机聚类数量的聚类集成方法。本研究目的有二：（1）将调整算子的研究推广至一般零模型及更广义的处理流程（其中统计标准化作为特例）；（2）确定调整算子产生预期性质的充分条件，这些条件与观测数据是否及如何纳入零分布密切相关。我们论证了违反充分条件可能导致严重失效，例如传统调整可能产生非正度量而非零均值度量，或统计标准化下可能产生确定性为零的度量。

0

相关内容

【华盛顿大学博士论文】因果模型的似然分析，190页pdf

【华盛顿大学博士论文】因果模型的似然分析，190页pdf

专知会员服务

35+阅读 · 2022年11月14日

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

专知会员服务

48+阅读 · 2021年12月22日

【博士论文】大数据相似查询关键技术研究

【博士论文】大数据相似查询关键技术研究

专知会员服务

24+阅读 · 2021年12月2日

[ICML2021]基于相似置信度学习的算法

专知会员服务

29+阅读 · 2021年6月7日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【MIT】反偏差对比学习，Debiased Contrastive Learning

【MIT】反偏差对比学习，Debiased Contrastive Learning

专知会员服务

92+阅读 · 2020年7月4日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【Google】监督对比学习，Supervised Contrastive Learning

【Google】监督对比学习，Supervised Contrastive Learning

专知会员服务

75+阅读 · 2020年4月24日

【CVPR2020-亚马逊】后向兼容表示学习，BackwardCompatible RepresentationLearning

【CVPR2020-亚马逊】后向兼容表示学习，BackwardCompatible RepresentationLearning

专知会员服务

13+阅读 · 2020年3月27日

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

专知会员服务

98+阅读 · 2019年12月31日

pytorch中六种常用的向量相似度评估方法

pytorch中六种常用的向量相似度评估方法

极市平台

22+阅读 · 2021年12月9日

半监督深度学习小结：类协同训练和一致性正则化

半监督深度学习小结：类协同训练和一致性正则化

PaperWeekly

15+阅读 · 2018年12月24日

相关性≠因果：概率图模型和do-calculus

相关性≠因果：概率图模型和do-calculus

论智

31+阅读 · 2018年10月29日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

专知

12+阅读 · 2018年5月18日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

python文本相似度计算

python文本相似度计算

北京思腾合力科技有限公司

24+阅读 · 2017年11月6日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于多关联数据融合的疾病相似度算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

量化约束满足问题相变现象研究

国家自然科学基金

0+阅读 · 2015年12月31日

整数关系探测的误差可控算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

相依重尾随机变量和的渐近性及其在更新风险模型中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

Logit Distance Bounds Representational Similarity

Arxiv

0+阅读 · 2月18日

Logit Distance Bounds Representational Similarity

Arxiv

0+阅读 · 2月17日

Feasible Dose-Response Curves for Continuous Treatments Under Positivity Violations

Arxiv

0+阅读 · 2月12日

Detecting and Mitigating Memorization in Diffusion Models through Anisotropy of the Log-Probability

Arxiv

0+阅读 · 2月10日

Collaborative and Efficient Fine-tuning: Leveraging Task Similarity

Arxiv

0+阅读 · 2月6日

Testing similarity of competing risks models by comparing transition probabilities

Arxiv

0+阅读 · 2月6日

Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models

Arxiv

0+阅读 · 2月4日

On the Interplay between Human Label Variation and Model Fairness

Arxiv

0+阅读 · 2月3日

Causal Imitation Learning Under Measurement Error and Distribution Shift

Arxiv

0+阅读 · 1月29日

Divergence-Based Similarity Function for Multi-View Contrastive Learning

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

相似性度量

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

6+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

18+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

9+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

【华盛顿大学博士论文】因果模型的似然分析，190页pdf

【华盛顿大学博士论文】因果模型的似然分析，190页pdf

专知会员服务

35+阅读 · 2022年11月14日

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

当SVM碰上对比学习？霍普金斯/MIT学者在AAAI2022提出《最大化间隔对比学习》选择更好的负样例提升对比性能

专知会员服务

48+阅读 · 2021年12月22日

【博士论文】大数据相似查询关键技术研究

【博士论文】大数据相似查询关键技术研究

专知会员服务

24+阅读 · 2021年12月2日

[ICML2021]基于相似置信度学习的算法

专知会员服务

29+阅读 · 2021年6月7日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【MIT】反偏差对比学习，Debiased Contrastive Learning

【MIT】反偏差对比学习，Debiased Contrastive Learning

专知会员服务

92+阅读 · 2020年7月4日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【Google】监督对比学习，Supervised Contrastive Learning

【Google】监督对比学习，Supervised Contrastive Learning

专知会员服务

75+阅读 · 2020年4月24日

【CVPR2020-亚马逊】后向兼容表示学习，BackwardCompatible RepresentationLearning

【CVPR2020-亚马逊】后向兼容表示学习，BackwardCompatible RepresentationLearning

专知会员服务

13+阅读 · 2020年3月27日

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

专知会员服务

98+阅读 · 2019年12月31日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

pytorch中六种常用的向量相似度评估方法

pytorch中六种常用的向量相似度评估方法

极市平台

22+阅读 · 2021年12月9日

半监督深度学习小结：类协同训练和一致性正则化

半监督深度学习小结：类协同训练和一致性正则化

PaperWeekly

15+阅读 · 2018年12月24日

相关性≠因果：概率图模型和do-calculus

相关性≠因果：概率图模型和do-calculus

论智

31+阅读 · 2018年10月29日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

【论文推荐】最新十篇度量学习相关论文—可量化表示、非线性度量学习、在线深度量学习、大间隔最近邻、判别深度度量、域自适应

专知

12+阅读 · 2018年5月18日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

【论文推荐】最新5篇度量学习（Metric Learning）相关论文—人脸验证、BIER、自适应图卷积、注意力机制、单次学习

专知

17+阅读 · 2018年2月11日

python文本相似度计算

python文本相似度计算

北京思腾合力科技有限公司

24+阅读 · 2017年11月6日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Logit Distance Bounds Representational Similarity

Arxiv

0+阅读 · 2月18日

Logit Distance Bounds Representational Similarity

Arxiv

0+阅读 · 2月17日

Feasible Dose-Response Curves for Continuous Treatments Under Positivity Violations

Arxiv

0+阅读 · 2月12日

Detecting and Mitigating Memorization in Diffusion Models through Anisotropy of the Log-Probability

Arxiv

0+阅读 · 2月10日

Collaborative and Efficient Fine-tuning: Leveraging Task Similarity

Arxiv

0+阅读 · 2月6日

Testing similarity of competing risks models by comparing transition probabilities

Arxiv

0+阅读 · 2月6日

Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models

Arxiv

0+阅读 · 2月4日

On the Interplay between Human Label Variation and Model Fairness

Arxiv

0+阅读 · 2月3日

Causal Imitation Learning Under Measurement Error and Distribution Shift

Arxiv

0+阅读 · 1月29日

Divergence-Based Similarity Function for Multi-View Contrastive Learning

Arxiv

0+阅读 · 1月14日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于多关联数据融合的疾病相似度算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

量化约束满足问题相变现象研究

国家自然科学基金

0+阅读 · 2015年12月31日

整数关系探测的误差可控算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

相依重尾随机变量和的渐近性及其在更新风险模型中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于似然函数的统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员