【ICML2021】SparseBERT: 自注意力机制的重要性分析再思考 - 专知VIP

会员服务 ·

1

ICML 2021 · 自注意力机制 · Transformer ·

2021 年 5 月 15 日

【ICML2021】SparseBERT: 自注意力机制的重要性分析再思考

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

SparseBERT: Rethinking the Importance Analysis in Self-attention

作为Transformer中重要的结构，self-attention一直是研究的热点。之前的工作往往是通过可视化预训练好的Transformer模型来分析注意力矩阵中共同的模式，并基于此提出了一系列稀疏的注意掩码。本文在预训练时动态地研究了注意力矩阵地变化并重新思考了self-attention中位置的重要性。其中一个有趣的结论是注意力矩阵的对角线元素和其他位置相比是最不重要的。为了解释这个现象，我们从通用近似定理的角度上证明了这些位置是可以被舍弃的。为了进一步降低self-attention的计算复杂度，我们提出可微分注意掩码（DAM）算法，可以用于指导 SparseBERT的设计。

https://www.zhuanzhi.ai/paper/2764524507c1fa4028fcaa8f4aea61a3

成为VIP会员查看完整内容

37

相关内容

ICML 2021

【ICML2021】域自适应回归的子空间距离表示

专知会员服务

23+阅读 · 2021年6月28日

【ICML2021】基于早期特征重建的无监督嵌入自适应少样本分类

专知会员服务

21+阅读 · 2021年6月23日

【ICML2021】贝叶斯注意力信念网络

专知会员服务

39+阅读 · 2021年6月11日

【ICML2021】基于子图结构的GNN解释模型

专知会员服务

50+阅读 · 2021年6月2日

【ICML2021】来自观察的跨域模仿

【ICML2021】来自观察的跨域模仿

专知会员服务

18+阅读 · 2021年5月25日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

25+阅读 · 2021年5月20日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

“内卷“算子超越卷积、自注意力机制：CVPR2021强大的神经网络新算子involution

专知会员服务

28+阅读 · 2021年3月27日

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

专知会员服务

37+阅读 · 2021年2月12日

【CIKM2020】持续域自适应的机器阅读理解，Continual Domain Adaptation

【CIKM2020】持续域自适应的机器阅读理解，Continual Domain Adaptation

专知会员服务

12+阅读 · 2020年8月26日

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AINLP

10+阅读 · 2021年2月6日

ACL20 如何使用选择机制提升自注意力网路能力？

ACL20 如何使用选择机制提升自注意力网路能力？

专知

5+阅读 · 2020年8月29日

时间自适应卷积：比自注意力更快的特征提取器

时间自适应卷积：比自注意力更快的特征提取器

PaperWeekly

4+阅读 · 2020年3月9日

【论文笔记】自注意力图池化

【论文笔记】自注意力图池化

专知

82+阅读 · 2019年11月18日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

用自注意力增强卷积：这是新老两代神经网络的对话（附实现）

用自注意力增强卷积：这是新老两代神经网络的对话（附实现）

机器之心

18+阅读 · 2019年4月26日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

【CQA论文笔记】基于卷积深度相关性计算的社区问答方法，建模问题和回答的匹配关系

【CQA论文笔记】基于卷积深度相关性计算的社区问答方法，建模问题和回答的匹配关系

专知

3+阅读 · 2018年3月26日

PaperWeekly 第52期 | 更别致的词向量模型：Simpler GloVe - Part 1

PaperWeekly 第52期 | 更别致的词向量模型：Simpler GloVe - Part 1

PaperWeekly

6+阅读 · 2017年11月22日

Learned Token Pruning for Transformers

Arxiv

0+阅读 · 2021年7月2日

Global sensitivity analysis using derivative-based sparse Poincaré chaos expansions

Arxiv

0+阅读 · 2021年7月1日

SparseBERT: Rethinking the Importance Analysis in Self-attention

Arxiv

0+阅读 · 2021年7月1日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

Sparse Sequence-to-Sequence Models

Sparse Sequence-to-Sequence Models

Arxiv

5+阅读 · 2019年5月14日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

A Unified Model for Joint Chinese Word Segmentation and Dependency Parsing

Arxiv

4+阅读 · 2019年4月9日

Cloze-driven Pretraining of Self-attention Networks

Arxiv

6+阅读 · 2019年3月19日

You May Not Need Attention

Arxiv

4+阅读 · 2018年10月31日

Next Item Recommendation with Self-Attention

Next Item Recommendation with Self-Attention

Arxiv

5+阅读 · 2018年8月25日

VIP会员

相关主题

自注意力机制

最新内容

【剑桥博士论文】智能体-环境协同优化

【剑桥博士论文】智能体-环境协同优化

专知会员服务

3+阅读 · 今天14:33

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

专知会员服务

2+阅读 · 今天14:32

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

专知会员服务

9+阅读 · 今天7:05

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

专知会员服务

6+阅读 · 今天6:51

为初级军官战术训练设计生成式人工智能平台

为初级军官战术训练设计生成式人工智能平台

专知会员服务

5+阅读 · 今天6:43

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

《美空军条令出版物 3-40，反大规模杀伤性武器作战》

专知会员服务

4+阅读 · 今天6:40

《美军条令：作战伤员后送保障》

《美军条令：作战伤员后送保障》

专知会员服务

4+阅读 · 今天6:38

《美空军条令出版物 4-0，维持》

《美空军条令出版物 4-0，维持》

专知会员服务

4+阅读 · 今天6:32

《通过自然语言与强化学习奖励机制将军事条令与目标融入AI智能体》

《通过自然语言与强化学习奖励机制将军事条令与目标融入AI智能体》

专知会员服务

9+阅读 · 今天6:30

《基于DIJKSTRA最短路径算法在AFSIM框架中实现高效动态威胁规避路径规划》

《基于DIJKSTRA最短路径算法在AFSIM框架中实现高效动态威胁规避路径规划》

专知会员服务

3+阅读 · 今天6:25

《修正错误与改进设计：运用数据耕耘支持基于智能体的军事仿真模型验证与确认》

《修正错误与改进设计：运用数据耕耘支持基于智能体的军事仿真模型验证与确认》

专知会员服务

4+阅读 · 今天6:24

《基于仿真的空军任务规划优化》

《基于仿真的空军任务规划优化》

专知会员服务

4+阅读 · 今天6:21

《基于离散事件仿真的航空母舰舰载机出动架次生成分析》

《基于离散事件仿真的航空母舰舰载机出动架次生成分析》

专知会员服务

3+阅读 · 今天6:17

《基于语义分割与深度强化学习的战场环境战术路径规划》

《基于语义分割与深度强化学习的战场环境战术路径规划》

专知会员服务

5+阅读 · 今天6:14

ICML 2026 Oral｜大模型为何难被提示纠正？内部先验限制标注适应性

ICML 2026 Oral｜大模型为何难被提示纠正？内部先验限制标注适应性

专知会员服务

4+阅读 · 6月8日

相关VIP内容

【ICML2021】域自适应回归的子空间距离表示

专知会员服务

23+阅读 · 2021年6月28日

【ICML2021】基于早期特征重建的无监督嵌入自适应少样本分类

专知会员服务

21+阅读 · 2021年6月23日

【ICML2021】贝叶斯注意力信念网络

专知会员服务

39+阅读 · 2021年6月11日

【ICML2021】基于子图结构的GNN解释模型

专知会员服务

50+阅读 · 2021年6月2日

【ICML2021】来自观察的跨域模仿

【ICML2021】来自观察的跨域模仿

专知会员服务

18+阅读 · 2021年5月25日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

25+阅读 · 2021年5月20日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

“内卷“算子超越卷积、自注意力机制：CVPR2021强大的神经网络新算子involution

专知会员服务

28+阅读 · 2021年3月27日

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

【ICLR2021】从理解到改进：序列到序列建模中的编码器特征融合

专知会员服务

37+阅读 · 2021年2月12日

【CIKM2020】持续域自适应的机器阅读理解，Continual Domain Adaptation

【CIKM2020】持续域自适应的机器阅读理解，Continual Domain Adaptation

专知会员服务

12+阅读 · 2020年8月26日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

【剑桥博士论文】智能体-环境协同优化

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

相关资讯

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器！

AINLP

10+阅读 · 2021年2月6日

ACL20 如何使用选择机制提升自注意力网路能力？

ACL20 如何使用选择机制提升自注意力网路能力？

专知

5+阅读 · 2020年8月29日

时间自适应卷积：比自注意力更快的特征提取器

时间自适应卷积：比自注意力更快的特征提取器

PaperWeekly

4+阅读 · 2020年3月9日

【论文笔记】自注意力图池化

【论文笔记】自注意力图池化

专知

82+阅读 · 2019年11月18日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

用自注意力增强卷积：这是新老两代神经网络的对话（附实现）

用自注意力增强卷积：这是新老两代神经网络的对话（附实现）

机器之心

18+阅读 · 2019年4月26日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

【CQA论文笔记】基于卷积深度相关性计算的社区问答方法，建模问题和回答的匹配关系

【CQA论文笔记】基于卷积深度相关性计算的社区问答方法，建模问题和回答的匹配关系

专知

3+阅读 · 2018年3月26日

PaperWeekly 第52期 | 更别致的词向量模型：Simpler GloVe - Part 1

PaperWeekly 第52期 | 更别致的词向量模型：Simpler GloVe - Part 1

PaperWeekly

6+阅读 · 2017年11月22日

相关论文

Learned Token Pruning for Transformers

Arxiv

0+阅读 · 2021年7月2日

Global sensitivity analysis using derivative-based sparse Poincaré chaos expansions

Arxiv

0+阅读 · 2021年7月1日

SparseBERT: Rethinking the Importance Analysis in Self-attention

Arxiv

0+阅读 · 2021年7月1日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

Sparse Sequence-to-Sequence Models

Sparse Sequence-to-Sequence Models

Arxiv

5+阅读 · 2019年5月14日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

A Unified Model for Joint Chinese Word Segmentation and Dependency Parsing

Arxiv

4+阅读 · 2019年4月9日

Cloze-driven Pretraining of Self-attention Networks

Arxiv

6+阅读 · 2019年3月19日

You May Not Need Attention

Arxiv

4+阅读 · 2018年10月31日

Next Item Recommendation with Self-Attention

Next Item Recommendation with Self-Attention

Arxiv

5+阅读 · 2018年8月25日

微信扫码咨询专知VIP会员