Mutual Information (MI) is a fundamental measure of statistical dependence widely used in representation learning. While direct optimization of MI via its definition as a Kullback-Leibler divergence (KLD) is often intractable, many recent methods have instead maximized alternative dependence measures, most notably, the Jensen-Shannon divergence (JSD) between joint and product of marginal distributions via discriminative losses. However, the connection between these surrogate objectives and MI remains poorly understood. In this work, we bridge this gap by deriving a new, tight, and tractable lower bound on KLD as a function of JSD in the general case. By specializing this bound to joint and marginal distributions, we demonstrate that maximizing the JSD-based information increases a guaranteed lower bound on mutual information. Furthermore, we revisit the practical implementation of JSD-based objectives and observe that minimizing the cross-entropy loss of a binary classifier trained to distinguish joint from marginal pairs recovers a known variational lower bound on the JSD. Extensive experiments demonstrate that our lower bound is tight when applied to MI estimation. We compared our lower bound to state-of-the-art neural estimators of variational lower bound across a range of established reference scenarios. Our lower bound estimator consistently provides a stable, low-variance estimate of a tight lower bound on MI. We also demonstrate its practical usefulness in the context of the Information Bottleneck framework. Taken together, our results provide new theoretical justifications and strong empirical evidence for using discriminative learning in MI-based representation learning.


翻译:互信息是表示学习中广泛使用的一种统计依赖性的基本度量。虽然通过其作为Kullback-Leibler散度的定义直接优化互信息通常是难以处理的,但许多近期方法转而最大化其他依赖性度量,最显著的是通过判别式损失最大化联合分布与边缘分布乘积之间的Jensen-Shannon散度。然而,这些替代目标与互信息之间的联系仍鲜为人知。在本工作中,我们通过推导出一个在一般情况下将KLD表示为JSD函数的新的、紧致的且可处理的下界,来弥合这一差距。通过将此下界专门应用于联合分布与边缘分布,我们证明了最大化基于JSD的信息会提高互信息的一个有保证的下界。此外,我们重新审视了基于JSD目标的实际实现,并观察到最小化用于区分联合对与边缘对的二元分类器的交叉熵损失,可恢复JSD的一个已知变分下界。大量实验表明,当应用于MI估计时,我们的下界是紧致的。我们在一系列已建立的参考场景中,将我们的下界与最先进的变分下界神经估计器进行了比较。我们的下界估计器始终能提供稳定、低方差的紧致MI下界估计。我们还证明了其在信息瓶颈框架中的实际用途。综上所述,我们的结果为在基于互信息的表示学习中使用判别式学习提供了新的理论依据和强有力的经验证据。

0
下载
关闭预览

相关内容

专知会员服务
26+阅读 · 2021年9月9日
专知会员服务
23+阅读 · 2021年6月22日
【经典书】信息论与统计: 教程,116页pdf
专知会员服务
62+阅读 · 2021年3月27日
网络表示学习概述
机器学习与推荐算法
19+阅读 · 2020年3月27日
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
网络表示学习介绍
人工智能前沿讲习班
18+阅读 · 2018年11月26日
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
算法与数学之美
10+阅读 · 2018年1月14日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美军MAVEN项目全面解析:算法战架构
专知会员服务
4+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
2+阅读 · 今天8:19
最新“指挥控制”领域出版物合集(16份)
专知会员服务
10+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
16+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
5+阅读 · 4月12日
相关资讯
网络表示学习概述
机器学习与推荐算法
19+阅读 · 2020年3月27日
一文读懂线性回归、岭回归和Lasso回归
CSDN
34+阅读 · 2019年10月13日
网络表示学习介绍
人工智能前沿讲习班
18+阅读 · 2018年11月26日
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
算法与数学之美
10+阅读 · 2018年1月14日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
图上的归纳表示学习
科技创新与创业
23+阅读 · 2017年11月9日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员