In this paper, we extend distance correlation to categorical data with general encodings, such as one-hot encoding for nominal variables and semicircle encoding for ordinal variables. Unlike existing methods, our approach leverages the spacing information between categories, which enhances the performance of distance correlation. Two estimates including the maximum likelihood estimate and a bias-corrected estimate are given, together with their limiting distributions under the null and alternative hypotheses. Furthermore, we establish the sure screening property for high-dimensional categorical data under mild conditions. We conduct a simulation study to compare the performance of different encodings, and illustrate their practical utility using the 2018 General Social Survey data.


翻译:本文提出了一种适用于广义编码分类数据的距离相关性方法,例如针对名义变量的独热编码和针对有序变量的半圆编码。与现有方法不同,我们的方法利用了类别之间的间距信息,从而提升了距离相关性的性能。我们给出了最大似然估计和偏差校正估计两种估计量,并推导了它们在原假设与备择假设下的极限分布。此外,我们在温和条件下建立了高维分类数据的确定筛选性质。通过模拟研究比较了不同编码方式的性能,并利用2018年综合社会调查数据展示了其实际应用价值。

0
下载
关闭预览

相关内容

文本分类算法及其应用场景研究
专知会员服务
19+阅读 · 2024年7月31日
专知会员服务
15+阅读 · 2021年9月29日
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
文本分析 | 常用距离/相似度 一览
数说工作室
26+阅读 · 2017年10月12日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
文本分类算法及其应用场景研究
专知会员服务
19+阅读 · 2024年7月31日
专知会员服务
15+阅读 · 2021年9月29日
相关资讯
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
数据分析师应该知道的16种回归方法:负二项回归
数萃大数据
74+阅读 · 2018年9月16日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
文本分析 | 常用距离/相似度 一览
数说工作室
26+阅读 · 2017年10月12日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员