This paper develops an intuitive concept of perfect dependence between two variables of which at least one has a nominal scale. Perfect dependence is attainable for all marginal distributions. It furthermore proposes a set of dependence measures that are 1 if and only if this perfect dependence is satisfied. The advantages of these dependence measures relative to classical dependence measures like contingency coefficients, Goodman-Kruskal's lambda and tau and the so-called uncertainty coefficient are twofold. Firstly, they are defined if one of the variables exhibits continuities. Secondly, they satisfy the property of attainability. That is, they can take all values in the interval [0,1] irrespective of the marginals involved. Both properties are not shared by classical dependence measures which need two discrete marginal distributions and can in some situations yield values close to 0 even though the dependence is strong or even perfect. Additionally, the paper provides a consistent estimator for one of the new dependence measures together with its asymptotic distribution under independence as well as in the general case. This allows to construct confidence intervals and an independence test with good finite sample properties, as a subsequent simulation study shows. Finally, two applications on the dependence between the variables country and income, and country and religion, respectively, illustrate the use of the new measure.


翻译:本文针对至少一个变量具有名义尺度的情形,提出了两个变量间完全依赖关系的直观概念。该完全依赖关系对于所有边际分布均可实现。此外,本文提出了一组依赖度量,当且仅当满足该完全依赖关系时,其取值为1。相较于列联系数、Goodman-Kruskal's lambda与tau系数以及所谓的不确定性系数等经典依赖度量,这些新度量具有双重优势:首先,它们在一个变量呈现连续性的情形下仍有定义;其次,其满足可达性,即无论涉及何种边际分布,均可取到区间[0,1]内的所有值。经典依赖度量则不具备这两条性质——它们要求两个离散的边际分布,且在某些情况下即使依赖关系很强甚至完全依赖,其取值仍可能接近0。此外,本文针对其中一个新依赖度量给出了具有一致性的估计量,并推导了其在独立情形及一般情形下的渐近分布。如后续模拟研究所表明,这可用于构建置信区间及具有良好有限样本性质的独立性检验。最后,通过国家与收入变量间依赖关系、国家与宗教变量间依赖关系这两个应用案例,展示了新度量的使用方法。

0
下载
关闭预览

相关内容

【干货书】面向工程师的随机过程,448页pdf
专知会员服务
80+阅读 · 2021年11月3日
【康奈尔大学】度量数据粒度,Measuring Dataset Granularity
专知会员服务
13+阅读 · 2019年12月27日
远程监督在关系抽取中的应用
深度学习自然语言处理
12+阅读 · 2020年10月26日
【关系抽取】从文本中进行关系抽取的几种不同的方法
深度学习自然语言处理
29+阅读 · 2020年3月30日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
概率图模型体系:HMM、MEMM、CRF
机器学习研究会
30+阅读 · 2018年2月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员