We propose a fully data-driven approach to designing mutual information (MI) estimators. Since any MI estimator is a function of the observed sample from two random variables, we parameterize this function with a neural network (MIST) and train it end-to-end to predict MI values. Training is performed on a large meta-dataset of 625,000 synthetic joint distributions with known ground-truth MI. To handle variable sample sizes and dimensions, we employ a two-dimensional attention scheme ensuring permutation invariance across input samples. To quantify uncertainty, we optimize a quantile regression loss, enabling the estimator to approximate the sampling distribution of MI rather than return a single point estimate. This research program departs from prior work by taking a fully empirical route, trading universal theoretical guarantees for flexibility and efficiency. Empirically, the learned estimators largely outperform classical baselines across sample sizes and dimensions, including on joint distributions unseen during training. The resulting quantile-based intervals are well-calibrated and more reliable than bootstrap-based confidence intervals, while inference is orders of magnitude faster than existing neural baselines. Beyond immediate empirical gains, this framework yields trainable, fully differentiable estimators that can be embedded into larger learning pipelines. Moreover, exploiting MI's invariance to invertible transformations, meta-datasets can be adapted to arbitrary data modalities via normalizing flows, enabling flexible training for diverse target meta-distributions.


翻译:我们提出了一种完全数据驱动的互信息(MI)估计器设计方法。由于任何MI估计器都是两个随机变量观测样本的函数,我们使用神经网络(MIST)对该函数进行参数化,并通过端到端训练来预测MI值。训练在包含62.5万个已知真实MI值的合成联合分布元数据集上进行。为处理可变样本量与维度,我们采用二维注意力机制确保输入样本的置换不变性。为量化不确定性,我们优化分位数回归损失函数,使估计器能够逼近MI的抽样分布而非返回单点估计。本研究方案与先前工作不同,采取完全经验化路径,以通用理论保证换取灵活性与效率。实证表明,学习得到的估计器在样本量与维度方面显著超越经典基线方法,包括在训练期间未出现的联合分布上。所得基于分位数的区间校准良好,且比基于自助法的置信区间更可靠,同时推理速度比现有神经基线快数个数量级。除直接实证优势外,该框架可产生可训练、完全可微的估计器,能够嵌入更大规模的学习流程。此外,利用MI对可逆变换的不变性,可通过标准化流将元数据集适配至任意数据模态,从而为多样化目标元分布实现灵活训练。

0
下载
关闭预览

相关内容

专知会员服务
26+阅读 · 2021年9月9日
专知会员服务
44+阅读 · 2021年7月1日
小米在预训练模型的探索与优化
专知会员服务
20+阅读 · 2020年12月31日
深度学习基础之LSTM
全球人工智能
29+阅读 · 2017年12月18日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
技术、多域威慑与海上战争(报告)
专知会员服务
1+阅读 · 今天15:04
“在云端防御”:提升北约数据韧性(报告)
专知会员服务
1+阅读 · 今天14:54
人工智能及其在海军行动中的整合(综述)
专知会员服务
0+阅读 · 今天14:07
美军MAVEN项目全面解析:算法战架构
专知会员服务
16+阅读 · 今天8:36
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
10+阅读 · 今天8:19
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员