Shannon entropy is not the only entropy that is relevant to machine-learning datasets, nor possibly even the most important one. Traditional entropies such as Shannon entropy capture information represented by elements' frequencies but not the richer information encoded by their similarities and differences. Capturing the latter requires similarity-sensitive entropy (S-entropy). S-entropy can be measured using either the recently developed Leinster-Cobbold-Reeve framework (LCR) or the newer Vendi score (VS). This raises the practical question of which one to use: LCR or VS. Here we address this question conceptually, analytically, and experimentally, using 53 large and well-known imaging and tabular datasets. We find that LCR and VS values can differ by orders of magnitude and are complementary, except in limiting cases. We show that both LCR and VS results depend on how similarities are scaled, and introduce the notion of ``half-distance'' to parameterize this dependence. We prove that VS provides an upper bound on LCR for several values of the Rényi-Hill order parameter and present evidence that this bound holds for all values. We conclude that VS is preferable only when a dataset's elements can be usefully interpreted as linear combinations of a more fundamental set of ``ur-elements'' or when the system that the dataset describes has a quantum-mechanical character. In the broader case where one simply wishes to capture the rich information encoded by elements' similarities and differences as well as their frequencies, LCR is favored; nevertheless, for certain half-distances the two methods can complement each other.


翻译:香农熵并非机器学习数据集中唯一相关的熵,甚至可能不是最重要的熵。传统熵(如香农熵)捕捉了元素频率所表示的信息,但未能涵盖其相似性与差异性所编码的更丰富信息。捕捉后者需要相似性敏感熵(S-熵)。S-熵可通过近期发展的Leinster-Cobbold-Reeve框架(LCR)或较新的Vendi分数(VS)进行度量。这引出了一个实际问题:应使用LCR还是VS?本文从概念、分析和实验三个维度探讨该问题,使用了53个大型知名图像与表格数据集。我们发现,除极限情况外,LCR与VS的数值可能相差数个数量级且具有互补性。我们证明LCR和VS的结果均取决于相似度的缩放方式,并引入“半距离”概念来参数化这种依赖关系。我们证明了在多个Rényi-Hill阶参数取值下,VS为LCR提供了上界,并有证据表明该界限对所有参数值均成立。我们得出结论:仅当数据集的元素可有效解释为更基础“元元素”集合的线性组合,或当数据集描述的系统具有量子力学特征时,VS更具优势。在更普遍的情况下,若仅希望同时捕捉元素相似性、差异性及频率所编码的丰富信息,则LCR更受青睐;尽管如此,在特定半距离条件下,两种方法可互为补充。

0
下载
关闭预览

相关内容

【ICML2022】熵因果推理:图的可辨识性
专知会员服务
28+阅读 · 2022年8月6日
专知会员服务
119+阅读 · 2021年3月23日
pytorch中六种常用的向量相似度评估方法
极市平台
22+阅读 · 2021年12月9日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
机器学习各种熵:从入门到全面掌握
AI研习社
10+阅读 · 2018年3月22日
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
算法与数学之美
10+阅读 · 2018年1月14日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关资讯
pytorch中六种常用的向量相似度评估方法
极市平台
22+阅读 · 2021年12月9日
您可以相信模型的不确定性吗?
TensorFlow
14+阅读 · 2020年1月31日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
机器学习各种熵:从入门到全面掌握
AI研习社
10+阅读 · 2018年3月22日
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
算法与数学之美
10+阅读 · 2018年1月14日
【直观详解】信息熵、交叉熵和相对熵
机器学习研究会
10+阅读 · 2017年11月7日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员