Deep neural networks are widely believed to derive their expressive power from their ability to form \textbf{hierarchical representations}, capturing progressively more abstract and compositional features across layers. In language modeling, \textbf{transformers} have emerged as the dominant architecture, with early layers capturing local syntactic patterns and later layers encoding more complex clause-level dependencies. While this intuition has shaped model design, there remains a lack of rigorous theoretical work demonstrating \textbf{how} deep transformers represent such hierarchical structures. In this work, we analyze the expressiveness of deep transformer models through the formal lens of bounded-depth, non-recursive context-free grammars. For this class of grammars, we explicitly construct transformers with positional attention whose depth grows linearly with grammar depth, while the neuron count scales with the number of derivation-tree shapes and quadratically with the number of production rules. Our theoretical results support the linear representation hypothesis by demonstrating that these architectures possess the structural capacity to encode abstract grammatical states into low-dimensional, linearly separable subspaces within the residual stream.


翻译:深度神经网络普遍被认为其表达能力源于形成\textbf{层次化表征}的能力,能够跨层捕获逐渐抽象且具有组合性的特征。在语言建模中,\textbf{Transformer}已成为主导架构,其早期层捕获局部句法模式,而深层编码更复杂的从句级依赖关系。尽管这种直觉塑造了模型设计,但关于\textbf{如何}实现深度Transformer表示此类层次结构,仍缺乏严谨的理论工作。本文通过有界深度、非递归上下文无关文法的形式化视角,分析深度Transformer模型的表达力。针对此类文法,我们显式构建了具有位置注意力的Transformer,其深度随文法深度线性增长,而神经元数量随推导树形状数量呈线性增长,且与产生式规则数量呈二次方关系。我们的理论结果支持线性表征假说,证明这些架构具备将抽象语法状态编码为残差流中低维、线性可分子空间的结构能力。

0
下载
关闭预览

相关内容

【NUS博士论文】深度表示学习的视频基础模型,236页pdf
专知会员服务
33+阅读 · 2023年12月26日
华为等发布《视觉Transformer转换器》综述论文,21页pdf
专知会员服务
86+阅读 · 2020年12月25日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
14+阅读 · 2023年9月27日
Arxiv
12+阅读 · 2022年1月26日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员