The Parallelism Tradeoff: Limitations of Log-Precision Transformers - 专知论文

会员服务 ·

0

变换 · 线性的 · 缩放 · MoDELS · 前馈 ·

2023 年 3 月 7 日

The Parallelism Tradeoff: Limitations of Log-Precision Transformers

翻译：并行性权衡：对数精度Transformer的局限性

William Merrill,Ashish Sabharwal

from arxiv, Accepted at TACL. Formerly entitled "Log-Precision Transformers are Constant-Depth Threshold Circuits". Updated with minor corrections March 6, 2023

Despite their omnipresence in modern NLP, characterizing the computational power of transformer neural nets remains an interesting open question. We prove that transformers whose arithmetic precision is logarithmic in the number of input tokens (and whose feedforward nets are computable using space linear in their input) can be simulated by constant-depth logspace-uniform threshold circuits. This provides insight on the power of transformers using known results in complexity theory. For example, if $\mathsf L \neq \mathsf P$ (i.e., not all poly-time problems can be solved using logarithmic space), then transformers cannot even accurately solve linear equalities or check membership in an arbitrary context-free grammar with empty productions. Our result intuitively emerges from the transformer architecture's high parallelizability. We thus speculatively introduce the idea of a fundamental parallelism tradeoff: any model architecture as parallelizable as the transformer will obey limitations similar to it. Since parallelism is key to training models at massive scale, this suggests a potential inherent weakness of the scaling paradigm.

翻译：尽管Transformer在现代自然语言处理中无处不在，但刻画其神经网络的算力仍然是一个有趣的未解问题。我们证明，算术精度与输入令牌数量呈对数关系（且其前馈网络可通过与输入呈线性关系的空间计算）的Transformer，可以被常数深度对数空间一致阈值电路模拟。这借助复杂性理论的已知结果揭示了Transformer的能力。例如，若$\mathsf L \neq \mathsf P$（即并非所有多项式时间问题都可用对数空间求解），则Transformer甚至无法准确求解线性等式或检查任意带有空产生式的上下文无关文法的成员资格。我们的结果直观上源于Transformer架构的高度并行性。因此，我们推测性地提出一个基本并行性权衡的观点：任何与Transformer同等可并行的模型架构都将遵循类似的限制。由于并行性是大规模训练模型的关键，这暗示了扩展范式可能存在的固有弱点。

0

相关内容

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

76+阅读 · 2022年6月28日

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

专知会员服务

60+阅读 · 2022年4月22日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

专知会员服务

59+阅读 · 2020年1月25日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

84+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

【推荐】RNN/LSTM时序预测

【推荐】RNN/LSTM时序预测

机器学习研究会

25+阅读 · 2017年9月8日

基于多孔压敏荧光粒子的空间压力场与速度场同步测量技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

非凸稀疏正则化模型与算法的研究

国家自然科学基金

3+阅读 · 2015年12月31日

非线性Schordinger方程及其相关问题的变分方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于硅通孔的三维集成电路故障诊断

国家自然科学基金

0+阅读 · 2012年12月31日

飞机GLARE层板结构空气耦合超声兰姆波成像检测方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

TRPP2-STIM1相互作用：脑缺血再灌注损伤新机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

北极冰间水道反演和敏感性试验

国家自然科学基金

0+阅读 · 2012年12月31日

刺萼龙葵(Solanum rostratum)种子季节性休眠过程中β-甘露聚糖酶的表达及其调控机制

国家自然科学基金

0+阅读 · 2011年12月31日

基于生态位和协同演化理论的制造企业信息化演进机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

吉林伊通糜棱岩化橄榄岩包体的显微构造特征及成因机制

国家自然科学基金

0+阅读 · 2009年12月31日

Are Emergent Abilities of Large Language Models a Mirage?

Arxiv

0+阅读 · 2023年4月28日

Multiplicity Problems on Algebraic Series and Context-Free Grammars

Arxiv

0+阅读 · 2023年4月28日

A Simple and Efficient Parallel Laplacian Solver

Arxiv

0+阅读 · 2023年4月27日

A Survey of Large Language Models

Arxiv

0+阅读 · 2023年4月27日

A Parameterized Theory of PAC Learning

Arxiv

0+阅读 · 2023年4月27日

Acceleration for Timing-Aware Gate-Level Logic Simulation with One-Pass GPU Parallelism

Arxiv

0+阅读 · 2023年4月26日

Full Stack Optimization of Transformer Inference: a Survey

Arxiv

19+阅读 · 2023年2月27日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Arxiv

12+阅读 · 2020年6月23日

VIP会员

文章信息

相关主题

最新内容

乌克兰战场背后的新武器

乌克兰战场背后的新武器

专知会员服务

0+阅读 · 今天4:55

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

专知会员服务

2+阅读 · 今天2:29

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

专知会员服务

3+阅读 · 今天2:06

基于博弈论的陆军人机协同（长文报告）

基于博弈论的陆军人机协同（长文报告）

专知会员服务

3+阅读 · 今天1:54

《天气对反无人机系统“探测-跟踪-识别-失效”链路的影响：俄乌战场分析》

《天气对反无人机系统“探测-跟踪-识别-失效”链路的影响：俄乌战场分析》

专知会员服务

5+阅读 · 今天1:51

美国陆军航空兵：以愿景引领转型

美国陆军航空兵：以愿景引领转型

专知会员服务

2+阅读 · 今天1:38

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

专知会员服务

2+阅读 · 6月11日

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

专知会员服务

2+阅读 · 6月11日

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

专知会员服务

5+阅读 · 6月11日

《多域战场上反制小型无人机系统》150页

《多域战场上反制小型无人机系统》150页

专知会员服务

14+阅读 · 6月11日

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

专知会员服务

5+阅读 · 6月11日

战场人工智能：增强陆地作战能力的发现与要求

战场人工智能：增强陆地作战能力的发现与要求

专知会员服务

3+阅读 · 6月11日

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

专知会员服务

12+阅读 · 6月11日

以人工智能为中心的指挥控制

以人工智能为中心的指挥控制

专知会员服务

5+阅读 · 6月11日

《通过适应复杂环境与特殊作战行动动态来变革情报周期》

《通过适应复杂环境与特殊作战行动动态来变革情报周期》

专知会员服务

4+阅读 · 6月11日

相关VIP内容

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

76+阅读 · 2022年6月28日

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

ICLR 2022杰出论文公布：7篇论文获得，清华朱军课题组摘得

专知会员服务

60+阅读 · 2022年4月22日

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

高效可扩展图神经网络的研究进展，Recent Advances in Efficient and Scalable Graph Neural Networks

专知会员服务

78+阅读 · 2022年3月15日

50+篇《神经架构搜索NAS》2020论文合集

专知会员服务

61+阅读 · 2020年3月19日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

【深度学习架构、模型和技巧集合(TensorFlow/PyTorch)】’Deep Learning Models - A collection of various deep learning architectures, models, and tips'

专知会员服务

59+阅读 · 2020年1月25日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

84+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

基于博弈论的陆军人机协同（长文报告）

乌克兰战场背后的新武器

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

相关资讯

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

全球人工智能

20+阅读 · 2017年12月17日

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

【推荐】ResNet, AlexNet, VGG, Inception：各种卷积网络架构的理解

机器学习研究会

20+阅读 · 2017年12月17日

【推荐】RNN/LSTM时序预测

【推荐】RNN/LSTM时序预测

机器学习研究会

25+阅读 · 2017年9月8日

相关论文

Are Emergent Abilities of Large Language Models a Mirage?

Arxiv

0+阅读 · 2023年4月28日

Multiplicity Problems on Algebraic Series and Context-Free Grammars

Arxiv

0+阅读 · 2023年4月28日

A Simple and Efficient Parallel Laplacian Solver

Arxiv

0+阅读 · 2023年4月27日

A Survey of Large Language Models

Arxiv

0+阅读 · 2023年4月27日

A Parameterized Theory of PAC Learning

Arxiv

0+阅读 · 2023年4月27日

Acceleration for Timing-Aware Gate-Level Logic Simulation with One-Pass GPU Parallelism

Arxiv

0+阅读 · 2023年4月26日

Full Stack Optimization of Transformer Inference: a Survey

Arxiv

19+阅读 · 2023年2月27日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers

Arxiv

12+阅读 · 2020年6月23日

相关基金

基于多孔压敏荧光粒子的空间压力场与速度场同步测量技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

非凸稀疏正则化模型与算法的研究

国家自然科学基金

3+阅读 · 2015年12月31日

非线性Schordinger方程及其相关问题的变分方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于硅通孔的三维集成电路故障诊断

国家自然科学基金

0+阅读 · 2012年12月31日

飞机GLARE层板结构空气耦合超声兰姆波成像检测方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

TRPP2-STIM1相互作用：脑缺血再灌注损伤新机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

北极冰间水道反演和敏感性试验

国家自然科学基金

0+阅读 · 2012年12月31日

刺萼龙葵(Solanum rostratum)种子季节性休眠过程中β-甘露聚糖酶的表达及其调控机制

国家自然科学基金

0+阅读 · 2011年12月31日

基于生态位和协同演化理论的制造企业信息化演进机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

吉林伊通糜棱岩化橄榄岩包体的显微构造特征及成因机制

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员