【微软Sebastien Bubeck】Transformers with LEGO，最新报告 - 专知VIP

会员服务 ·

8

Transformers ·

2022 年 11 月 9 日

【微软Sebastien Bubeck】Transformers with LEGO，最新报告

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文提出一个合成任务LEGO(学习平等和组操作)，封装了遵循推理链的问题，研究了transformer架构如何学习这一任务。我们特别关注数据效果，如预训练(对看似不相关的NLP任务)和数据集组成(例如，训练和测试时不同的链长度)，以及体系结构变量，如权重绑定层或添加卷积组件。我们研究经过训练的模型如何最终成功完成任务，特别是，我们能够(在一定程度上)理解一些注意力头以及信息如何在网络中流动。基于这些观察，我们提出了一个假设，预训练的帮助仅仅是因为它是一个聪明的初始化，而不是存储在网络中的一些深入的知识。在一些数据环境中，经过训练的transformer找到了"捷径"解决方案来遵循推理链，这妨碍了模型泛化到主要任务的简单变体的能力，而且可以通过适当的架构修改或仔细的数据准备来防止这种捷径。在发现的激励下，开始探索学习执行C程序的任务，其中对transformer的卷积修改，即在键/查询/值映射中添加卷积结构，显示了令人鼓舞的优势。

成为VIP会员查看完整内容

17

相关内容

深度学习如何促进搜索？微软Bhaskar Mitra最新《深度学习搜索引擎》报告和书籍，附126页pdf

深度学习如何促进搜索？微软Bhaskar Mitra最新《深度学习搜索引擎》报告和书籍，附126页pdf

专知会员服务

17+阅读 · 2022年11月18日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

【KDD2022教程】Transformers多模态数据分类，41页ppt

【KDD2022教程】Transformers多模态数据分类，41页ppt

专知会员服务

88+阅读 · 2022年8月18日

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

专知会员服务

20+阅读 · 2022年6月10日

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

专知会员服务

71+阅读 · 2021年8月2日

深度学习如何又好又快? Google最新《高效深度学习: 更小、更快、更好》综述论文，43页pdf

深度学习如何又好又快? Google最新《高效深度学习: 更小、更快、更好》综述论文，43页pdf

专知会员服务

92+阅读 · 2021年6月18日

复旦最新「Transformers全面综述」论文，40页pdf概述Transformers各种变体模型与应用

复旦最新「Transformers全面综述」论文，40页pdf概述Transformers各种变体模型与应用

专知会员服务

196+阅读 · 2021年6月10日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

深度学习如何促进搜索？微软Bhaskar Mitra最新《深度学习搜索引擎》报告和书籍，附126页pdf

深度学习如何促进搜索？微软Bhaskar Mitra最新《深度学习搜索引擎》报告和书籍，附126页pdf

专知

0+阅读 · 2022年11月18日

纯卷积Backbone巅峰MogaNet：超越ConvNeXt、ParC-Net和SWin

纯卷积Backbone巅峰MogaNet：超越ConvNeXt、ParC-Net和SWin

极市平台

0+阅读 · 2022年11月12日

最新《Transformers》报告，Google Lucas Beyer 报告, 附Slides与视频

最新《Transformers》报告，Google Lucas Beyer 报告, 附Slides与视频

专知

1+阅读 · 2022年9月13日

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

专知

0+阅读 · 2022年6月10日

Transformer打开了通用人工智能的一扇门？

Transformer打开了通用人工智能的一扇门？

THU数据派

2+阅读 · 2022年6月2日

CVPR 2022 | 超越RepVGG！浙大&阿里提出OREPA：在线卷积重参数化

CVPR 2022 | 超越RepVGG！浙大&阿里提出OREPA：在线卷积重参数化

CVer

1+阅读 · 2022年4月11日

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！

CVer

0+阅读 · 2022年2月14日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知

0+阅读 · 2022年1月26日

超越ImageNet预训练，Meta AI提出SplitMask，小数据集也能自监督预训练

超越ImageNet预训练，Meta AI提出SplitMask，小数据集也能自监督预训练

PaperWeekly

0+阅读 · 2022年1月17日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

Fe基块体非晶合金中异质非晶结构及纳米晶形成演变机理

国家自然科学基金

0+阅读 · 2015年12月31日

zkscan3基因新功能的解析

国家自然科学基金

0+阅读 · 2014年12月31日

C17-氮杂环修饰的黄体酮衍生物的合成、抗癌活性及其机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

纳米银的致毒机制及毒性调控研究

国家自然科学基金

0+阅读 · 2013年12月31日

非参数与半参数混合模型的统计推断及应用

国家自然科学基金

3+阅读 · 2012年12月31日

面向商务智能的思维主题发现

国家自然科学基金

0+阅读 · 2012年12月31日

规则驱动的自适应多代理系统研究

国家自然科学基金

3+阅读 · 2012年12月31日

混合策略的机器翻译方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

β2-微管蛋白基因（β2-tub）发生点突变导致亚洲镰孢菌对多菌灵抗药性菌株合成DON类毒素显著增强的分子机制

国家自然科学基金

0+阅读 · 2011年12月31日

天名精内酯酮衍生物合成及抑菌构效关系研究

国家自然科学基金

0+阅读 · 2009年12月31日

Local Learning on Transformers via Feature Reconstruction

Arxiv

0+阅读 · 2022年12月29日

WarpGate: A Semantic Join Discovery System for Cloud Data Warehouse

Arxiv

0+阅读 · 2022年12月29日

Robust Bayesian Subspace Identification for Small Data Sets

Arxiv

0+阅读 · 2022年12月29日

Langevin algorithms for very deep Neural Networks with application to image classification

Arxiv

0+阅读 · 2022年12月27日

Transformers in Time Series: A Survey

Arxiv

34+阅读 · 2022年2月15日

TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image Classication

Arxiv

17+阅读 · 2021年6月2日

Network of Tensor Time Series

Arxiv

20+阅读 · 2021年2月28日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks

Arxiv

11+阅读 · 2019年9月8日

VIP会员

相关主题

最新内容

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

专知会员服务

1+阅读 · 7月28日

博士论文 | 从算法到基础模型：强化学习的统一视角

博士论文 | 从算法到基础模型：强化学习的统一视角

专知会员服务

4+阅读 · 7月28日

面向国防作战的最佳自主与蜂群无人机技术

面向国防作战的最佳自主与蜂群无人机技术

专知会员服务

7+阅读 · 7月28日

《异构人类团队的协作决策过程混合建模研究》

《异构人类团队的协作决策过程混合建模研究》

专知会员服务

6+阅读 · 7月28日

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

《C5ISR系统中的注意力动态与自适应决策支持研究：视觉与多模态注意力引导对任务绩效影响的递归量化分析》最新36页报告

专知会员服务

7+阅读 · 7月28日

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

《设计思维中的人机协作：生成式人工智能对共情访谈影响的探究》140页

专知会员服务

8+阅读 · 7月28日

博士论文 | 面向大模型推理的内存高效算法

博士论文 | 面向大模型推理的内存高效算法

专知会员服务

5+阅读 · 7月27日

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

论文解读 | 从预训练到后训练：理解大模型推理能力如何形成

专知会员服务

8+阅读 · 7月27日

《无人系统互操作性导论——无人系统联合架构（JAUS）》

《无人系统互操作性导论——无人系统联合架构（JAUS）》

专知会员服务

14+阅读 · 7月27日

美空军新型反无人机部队初探

美空军新型反无人机部队初探

专知会员服务

9+阅读 · 7月27日

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

《对抗性电磁环境下远程巡飞弹作战的安全指挥与控制数据链》

专知会员服务

8+阅读 · 7月27日

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

《北约下一代建模与仿真（NexGen M&S）计划》2026年69页

专知会员服务

6+阅读 · 7月27日

《防空交战流程的概率建模研究》

《防空交战流程的概率建模研究》

专知会员服务

12+阅读 · 7月27日

ICML 2026 教程 | 数值优化理论还重要吗？

ICML 2026 教程 | 数值优化理论还重要吗？

专知会员服务

7+阅读 · 7月26日

ICM 2026 | 陶哲轩：人工智能时代的数学

ICM 2026 | 陶哲轩：人工智能时代的数学

专知会员服务

10+阅读 · 7月26日

相关VIP内容

深度学习如何促进搜索？微软Bhaskar Mitra最新《深度学习搜索引擎》报告和书籍，附126页pdf

深度学习如何促进搜索？微软Bhaskar Mitra最新《深度学习搜索引擎》报告和书籍，附126页pdf

专知会员服务

17+阅读 · 2022年11月18日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

【KDD2022教程】Transformers多模态数据分类，41页ppt

【KDD2022教程】Transformers多模态数据分类，41页ppt

专知会员服务

88+阅读 · 2022年8月18日

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

专知会员服务

20+阅读 · 2022年6月10日

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

专知会员服务

71+阅读 · 2021年8月2日

深度学习如何又好又快? Google最新《高效深度学习: 更小、更快、更好》综述论文，43页pdf

深度学习如何又好又快? Google最新《高效深度学习: 更小、更快、更好》综述论文，43页pdf

专知会员服务

92+阅读 · 2021年6月18日

复旦最新「Transformers全面综述」论文，40页pdf概述Transformers各种变体模型与应用

复旦最新「Transformers全面综述」论文，40页pdf概述Transformers各种变体模型与应用

专知会员服务

196+阅读 · 2021年6月10日

SiT: 自监督视觉Transformer

专知会员服务

65+阅读 · 2021年4月11日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

博士论文 | 从算法到基础模型：强化学习的统一视角

《异构人类团队的协作决策过程混合建模研究》

论文解读 | 医学图像修复中的扩散模型：挑战、分类与未来方向

面向国防作战的最佳自主与蜂群无人机技术

相关资讯

深度学习如何促进搜索？微软Bhaskar Mitra最新《深度学习搜索引擎》报告和书籍，附126页pdf

深度学习如何促进搜索？微软Bhaskar Mitra最新《深度学习搜索引擎》报告和书籍，附126页pdf

专知

0+阅读 · 2022年11月18日

纯卷积Backbone巅峰MogaNet：超越ConvNeXt、ParC-Net和SWin

纯卷积Backbone巅峰MogaNet：超越ConvNeXt、ParC-Net和SWin

极市平台

0+阅读 · 2022年11月12日

最新《Transformers》报告，Google Lucas Beyer 报告, 附Slides与视频

最新《Transformers》报告，Google Lucas Beyer 报告, 附Slides与视频

专知

1+阅读 · 2022年9月13日

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

专知

0+阅读 · 2022年6月10日

Transformer打开了通用人工智能的一扇门？

Transformer打开了通用人工智能的一扇门？

THU数据派

2+阅读 · 2022年6月2日

CVPR 2022 | 超越RepVGG！浙大&阿里提出OREPA：在线卷积重参数化

CVPR 2022 | 超越RepVGG！浙大&阿里提出OREPA：在线卷积重参数化

CVer

1+阅读 · 2022年4月11日

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！

ICLR 2022 | 视觉Transformer超越ResNet！从头开始训练！

CVer

0+阅读 · 2022年2月14日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知

0+阅读 · 2022年1月26日

超越ImageNet预训练，Meta AI提出SplitMask，小数据集也能自监督预训练

超越ImageNet预训练，Meta AI提出SplitMask，小数据集也能自监督预训练

PaperWeekly

0+阅读 · 2022年1月17日

【干货】一文读懂什么是变分自编码器

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

相关基金

Fe基块体非晶合金中异质非晶结构及纳米晶形成演变机理

国家自然科学基金

0+阅读 · 2015年12月31日

zkscan3基因新功能的解析

国家自然科学基金

0+阅读 · 2014年12月31日

C17-氮杂环修饰的黄体酮衍生物的合成、抗癌活性及其机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

纳米银的致毒机制及毒性调控研究

国家自然科学基金

0+阅读 · 2013年12月31日

非参数与半参数混合模型的统计推断及应用

国家自然科学基金

3+阅读 · 2012年12月31日

面向商务智能的思维主题发现

国家自然科学基金

0+阅读 · 2012年12月31日

规则驱动的自适应多代理系统研究

国家自然科学基金

3+阅读 · 2012年12月31日

混合策略的机器翻译方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

β2-微管蛋白基因（β2-tub）发生点突变导致亚洲镰孢菌对多菌灵抗药性菌株合成DON类毒素显著增强的分子机制

国家自然科学基金

0+阅读 · 2011年12月31日

天名精内酯酮衍生物合成及抑菌构效关系研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Local Learning on Transformers via Feature Reconstruction

Arxiv

0+阅读 · 2022年12月29日

WarpGate: A Semantic Join Discovery System for Cloud Data Warehouse

Arxiv

0+阅读 · 2022年12月29日

Robust Bayesian Subspace Identification for Small Data Sets

Arxiv

0+阅读 · 2022年12月29日

Langevin algorithms for very deep Neural Networks with application to image classification

Arxiv

0+阅读 · 2022年12月27日

Transformers in Time Series: A Survey

Arxiv

34+阅读 · 2022年2月15日

TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image Classication

Arxiv

17+阅读 · 2021年6月2日

Network of Tensor Time Series

Arxiv

20+阅读 · 2021年2月28日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks

Arxiv

11+阅读 · 2019年9月8日

微信扫码咨询专知VIP会员