We consider supervised learning with $n$ labels and show that layerwise SGD on residual networks can efficiently learn a class of hierarchical models. This model class assumes the existence of an (unknown) label hierarchy $L_1 \subseteq L_2 \subseteq \dots \subseteq L_r = [n]$, where labels in $L_1$ are simple functions of the input, while for $i > 1$, labels in $L_i$ are simple functions of simpler labels. Our class surpasses models that were previously shown to be learnable by deep learning algorithms, in the sense that it reaches the depth limit of efficient learnability. That is, there are models in this class that require polynomial depth to express, whereas previous models can be computed by log-depth circuits. Furthermore, we suggest that learnability of such hierarchical models might eventually form a basis for understanding deep learning. Beyond their natural fit for domains where deep learning excels, we argue that the mere existence of human ``teachers" supports the hypothesis that hierarchical structures are inherently available. By providing granular labels, teachers effectively reveal ``hints'' or ``snippets'' of the internal algorithms used by the brain. We formalize this intuition, showing that in a simplified model where a teacher is partially aware of their internal logic, a hierarchical structure emerges that facilitates efficient learnability.


翻译:我们考虑具有 $n$ 个标签的监督学习问题,并证明在残差网络上进行逐层随机梯度下降(SGD)能够高效学习一类分层模型。该模型类假设存在一个(未知的)标签层次结构 $L_1 \subseteq L_2 \subseteq \dots \subseteq L_r = [n]$,其中 $L_1$ 中的标签是输入的简单函数,而对于 $i > 1$,$L_i$ 中的标签是更简单标签的简单函数。我们的模型类超越了先前被证明可由深度学习算法学习的模型,其意义在于它达到了高效可学习性的深度极限。也就是说,该模型类中存在需要多项式深度才能表达的模型,而先前的模型可通过对数深度电路计算。此外,我们认为此类分层模型的可学习性最终可能为理解深度学习提供基础。除了它们天然适用于深度学习表现出色的领域之外,我们认为人类“教师”的单纯存在就支持了层次结构本身可用的假设。通过提供细粒度的标签,教师有效地揭示了大脑所用内部算法的“提示”或“片段”。我们将这一直觉形式化,表明在一个简化模型中,当教师部分了解其内部逻辑时,会出现一种促进高效可学习性的层次结构。

0
下载
关闭预览

相关内容

【牛津大学博士论文】深度学习算法的渐近分析,186页pdf
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
35+阅读 · 2020年4月15日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
78+阅读 · 2020年2月3日
<好书推荐> -《Pro Deep Learning with TensorFlow》分享
深度学习与NLP
12+阅读 · 2018年9月13日
深度学习在文本分类中的应用
AI研习社
13+阅读 · 2018年1月7日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 1月1日
VIP会员
相关VIP内容
【牛津大学博士论文】深度学习算法的渐近分析,186页pdf
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
35+阅读 · 2020年4月15日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
78+阅读 · 2020年2月3日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员