【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT - 专知VIP

会员服务 ·

1

BERT · MobileBERT ·

2020 年 4 月 9 日

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

自然语言处理(NLP)最近取得了巨大的成功，它使用了带有数亿个参数的巨大的预先训练的模型。然而，这些模型存在模型大小过大和延迟时间长等问题，因此无法部署到资源有限的移动设备上。在本文中，我们提出了压缩和加速流行的BERT模型的MobileBERT。与最初的BERT一样，MobileBERT是与任务无关的，也就是说，它可以通过简单的微调应用于各种下游NLP任务。基本上，MobileBERT是BERT_LARGE的瘦版，同时配备了瓶颈结构和精心设计的自关注和前馈网络之间的平衡。为了训练MobileBERT，我们首先训练一个特别设计的教师模型，一个倒瓶颈合并BERT_LARGE模型。然后，我们把这个老师的知识传递给MobileBERT。实证研究表明，MobileBERT比BERT_BASE小4.3倍，快5.5倍，同时在著名的基准上取得了有竞争力的结果。在GLUE的自然语言推断任务中，MobileBERT实现了GLUEscore o 77.7(比BERT_BASE低0.6)，在Pixel 4手机上实现了62毫秒的延迟。在team v1.1/v2.0的问题回答任务中，MobileBERT获得了dev F1的90.0/79.2分(比BERT_BASE高1.5/2.1分)。

成为VIP会员查看完整内容

13

相关内容

BERT

BERT全称Bidirectional Encoder Representations from Transformers，是预训练语言表示的方法，可以在大型文本语料库（如维基百科）上训练通用的“语言理解”模型，然后将该模型用于下游NLP任务，比如机器翻译、问答。

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

专知会员服务

24+阅读 · 2020年5月29日

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

专知会员服务

21+阅读 · 2020年4月30日

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

专知会员服务

12+阅读 · 2020年4月16日

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

专知会员服务

36+阅读 · 2020年4月14日

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

专知会员服务

20+阅读 · 2020年4月14日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【Google】利用AUTOML实现加速感知神经网络设计

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

24+阅读 · 2019年11月4日

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

量子位

14+阅读 · 2020年1月2日

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

专知

17+阅读 · 2019年12月7日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

RoBERTa中文预训练模型，你离中文任务的「SOTA」只差个它

RoBERTa中文预训练模型，你离中文任务的「SOTA」只差个它

机器之心

40+阅读 · 2019年9月5日

想在PyTorch里训练BERT，请试试Facebook跨语言模型XLM

想在PyTorch里训练BERT，请试试Facebook跨语言模型XLM

量子位

3+阅读 · 2019年6月23日

开发 | 谷歌更强NLP模型XLNet开源：20项任务全面碾压BERT！

开发 | 谷歌更强NLP模型XLNet开源：20项任务全面碾压BERT！

AI科技评论

6+阅读 · 2019年6月20日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

GLUE排行榜上全面超越BERT的模型近日公布了！

GLUE排行榜上全面超越BERT的模型近日公布了！

机器之心

9+阅读 · 2019年2月13日

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

机器之心

8+阅读 · 2018年12月23日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Span-based Joint Entity and Relation Extraction with Transformer Pre-training

Arxiv

7+阅读 · 2019年9月17日

Fine-tune BERT for Extractive Summarization

Arxiv

3+阅读 · 2019年9月5日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

A Unified Model for Joint Chinese Word Segmentation and Dependency Parsing

Arxiv

4+阅读 · 2019年4月9日

A BERT Baseline for the Natural Questions

Arxiv

8+阅读 · 2019年3月21日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

VIP会员

相关主题

最新内容

【CVPR2026教程】扩散模型的解析理解

【CVPR2026教程】扩散模型的解析理解

专知会员服务

0+阅读 · 14分钟前

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

专知会员服务

0+阅读 · 23分钟前

马赛克战：俄乌战场透析

马赛克战：俄乌战场透析

专知会员服务

13+阅读 · 今天4:12

《利用人工智能增强军事决策》

《利用人工智能增强军事决策》

专知会员服务

4+阅读 · 今天4:09

《自动机器学习在军事数据耕耘法中的应用》

《自动机器学习在军事数据耕耘法中的应用》

专知会员服务

6+阅读 · 今天4:02

为何指挥所生存能力要求范式转变

为何指挥所生存能力要求范式转变

专知会员服务

5+阅读 · 今天3:54

打造“新蛛网”模式与高科技动员

打造“新蛛网”模式与高科技动员

专知会员服务

4+阅读 · 今天3:33

“蛛网”行动一周年：远程无人机战争

“蛛网”行动一周年：远程无人机战争

专知会员服务

3+阅读 · 今天3:23

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

加沙、乌克兰和伊朗冲突：人工智能如何改变冲突

专知会员服务

3+阅读 · 今天3:15

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

为何“第一次人工智能战争（美以伊冲突）”仍是人类主导的斗争

专知会员服务

3+阅读 · 今天3:09

【剑桥博士论文】智能体-环境协同优化

【剑桥博士论文】智能体-环境协同优化

专知会员服务

7+阅读 · 6月9日

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

专知会员服务

5+阅读 · 6月9日

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

《面向国防应用的无人机选型：一种对比性多模糊多准则决策框架》

专知会员服务

12+阅读 · 6月9日

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

无人机战争：从乌克兰到中东战场的沙希德（Shahed）无人机分析

专知会员服务

8+阅读 · 6月9日

为初级军官战术训练设计生成式人工智能平台

为初级军官战术训练设计生成式人工智能平台

专知会员服务

9+阅读 · 6月9日

相关VIP内容

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

专知会员服务

24+阅读 · 2020年5月29日

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

【ACL2020】DeeBERT:动态加速BERT推理，DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference

专知会员服务

21+阅读 · 2020年4月30日

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

【ACL2020-CMU】预训练模型权重攻击，Weight Poisoning Attacks on PTM

专知会员服务

12+阅读 · 2020年4月16日

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

专知会员服务

36+阅读 · 2020年4月14日

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性

专知会员服务

20+阅读 · 2020年4月14日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【Google】利用AUTOML实现加速感知神经网络设计

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

24+阅读 · 2019年11月4日

热门VIP内容

开通专知VIP会员享更多权益服务

【CVPR2026教程】从感知到模拟：多模态推理中世界模型的涌现

《利用人工智能增强军事决策》

【CVPR2026教程】扩散模型的解析理解

马赛克战：俄乌战场透析

相关资讯

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

量子位

14+阅读 · 2020年1月2日

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

专知

17+阅读 · 2019年12月7日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

RoBERTa中文预训练模型，你离中文任务的「SOTA」只差个它

RoBERTa中文预训练模型，你离中文任务的「SOTA」只差个它

机器之心

40+阅读 · 2019年9月5日

想在PyTorch里训练BERT，请试试Facebook跨语言模型XLM

想在PyTorch里训练BERT，请试试Facebook跨语言模型XLM

量子位

3+阅读 · 2019年6月23日

开发 | 谷歌更强NLP模型XLNet开源：20项任务全面碾压BERT！

开发 | 谷歌更强NLP模型XLNet开源：20项任务全面碾压BERT！

AI科技评论

6+阅读 · 2019年6月20日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

GLUE排行榜上全面超越BERT的模型近日公布了！

GLUE排行榜上全面超越BERT的模型近日公布了！

机器之心

9+阅读 · 2019年2月13日

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

机器之心

8+阅读 · 2018年12月23日

相关论文

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Span-based Joint Entity and Relation Extraction with Transformer Pre-training

Arxiv

7+阅读 · 2019年9月17日

Fine-tune BERT for Extractive Summarization

Arxiv

3+阅读 · 2019年9月5日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

A Unified Model for Joint Chinese Word Segmentation and Dependency Parsing

Arxiv

4+阅读 · 2019年4月9日

A BERT Baseline for the Natural Questions

Arxiv

8+阅读 · 2019年3月21日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

微信扫码咨询专知VIP会员