In this article the authors develop an intrinsic measure for quantifying heterogeneity in training data for supervised learning. This measure is the variance of a random variable which factors through the influences of pairs of training points. The variance is shown to capture data heterogeneity and can thus be used to assess if a sample is a mixture of distributions. The authors prove that the data itself contains key information that supports a partitioning into blocks. Several proof of concept studies are provided that quantify the connection between variance and heterogeneity for EMNIST image data and synthetic data. The authors establish that variance is maximal for equal mixes of distributions, and detail how variance-based data purification followed by conventional training over blocks can lead to significant increases in test accuracy.


翻译:本文中,作者提出了一种用于量化监督学习训练数据异质性的内在度量。该度量是一个随机变量的方差,该变量通过训练数据点对之间的影响进行因子分解。该方差被证明能够捕捉数据的异质性,因此可用于评估样本是否为多个分布的混合。作者证明数据本身包含支持分块划分的关键信息。研究提供了多个概念验证实验,量化了方差与异质性在EMNIST图像数据和合成数据中的关联。作者证实方差在分布均匀混合时达到最大值,并详细阐述了基于方差的数据纯化结合分块常规训练如何显著提升测试精度。

0
下载
关闭预览

相关内容

【干货书】预测原理与实战,Forecasting: Principles & Practice
专知会员服务
96+阅读 · 2022年4月11日
异质信息网络分析与应用综述,软件学报-北京邮电大学
综述 | 异质信息网络分析与应用综述
专知
27+阅读 · 2020年8月8日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
数据分析师应该知道的16种回归技术:分位数回归
数萃大数据
29+阅读 · 2018年8月8日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【干货书】预测原理与实战,Forecasting: Principles & Practice
专知会员服务
96+阅读 · 2022年4月11日
异质信息网络分析与应用综述,软件学报-北京邮电大学
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员