A fundamental problem in statistics is measuring the correlation between two rankings of a set of items. Kendall's $τ$ and Spearman's $ρ$ are well established correlation coefficients whose symmetric structure guarantees zero expected value between two rankings randomly chosen with uniform probability. In many modern applications, however, greater importance is assigned to top-ranked items, motivating weighted variants of these coefficients. Such weighting schemes generally break the symmetry of the original formulations, resulting in a non-zero expected value under independence and compromising the interpretation of zero correlation. We propose a general standardization function $g(\cdot)$ that transforms a ranking correlation coefficient $Γ$ into a standardized form $g(Γ)$ with zero expected value under randomness. The transformation preserves the domain $[-1,1]$, satisfies the boundary conditions, is continuous and increasing, and reduces to the identity for coefficients that already satisfy the zero-expected-value property. The construction of $g(x)$ depends on three distributional parameters of $Γ$: its mean, variance, and left variance; since their exact calculation becomes infeasible for large ranking lengths $n$, we develop accurate numerical estimates based on Monte Carlo sampling combined with polynomial regression to capture their dependence on $n$.


翻译:统计学中的一个基本问题是衡量对一组项目进行两种排序之间的相关性。Kendall 的 $τ$ 和 Spearman 的 $ρ$ 是成熟的相关系数,其对称结构保证了在均匀概率下随机选择的两种排序之间期望值为零。然而,在许多现代应用中,排名靠前的项目被赋予更高的重要性,这推动了这些系数的加权变体。此类加权方案通常会打破原始公式的对称性,导致在独立性条件下期望值非零,从而损害了零相关性的解释。我们提出了一种通用的标准化函数 $g(\cdot)$,它将排序相关系数 $Γ$ 转换为具有随机性下零期望值的标准化形式 $g(Γ)$。该变换保持了定义域 $[-1,1]$,满足边界条件,连续且递增,并且对于已经满足零期望值性质的系数简化为恒等变换。$g(x)$ 的构造依赖于 $Γ$ 的三个分布参数:其均值、方差和左方差;由于对于大的排序长度 $n$,它们的精确计算变得不可行,我们基于蒙特卡洛采样结合多项式回归开发了精确的数值估计,以捕捉它们对 $n$ 的依赖性。

0
下载
关闭预览

相关内容

排序是计算机内经常进行的一种操作,其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序。若整个排序过程不需要访问外存便能完成,则称此类排序问题为内部排序。反之,若参加排序的记录数量很大,整个序列的排序过程不可能在内存中完成,则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。
专知会员服务
14+阅读 · 2021年3月13日
【干货书】凸随机优化,320页pdf
专知
12+阅读 · 2022年9月16日
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
27+阅读 · 2020年3月1日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
概率论之概念解析:边缘化(Marginalisation)
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月10日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
8+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
13+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
8+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
12+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关VIP内容
专知会员服务
14+阅读 · 2021年3月13日
相关资讯
【干货书】凸随机优化,320页pdf
专知
12+阅读 · 2022年9月16日
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
27+阅读 · 2020年3月1日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
概率论之概念解析:边缘化(Marginalisation)
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员