Transformer-based models are now widely used in NLP, but we still do not understand a lot about their inner workings. This paper describes what is known to date about the famous BERT model (Devlin et al. 2019), synthesizing over 40 analysis studies. We also provide an overview of the proposed modifications to the model and its training regime. We then outline the directions for further research.


翻译:以变换器为基础的模型目前已在NLP中广泛使用,但我们仍对其内部运作仍不甚了解。本文描述了迄今为止已知的著名的BERT模型(Devlin等人,2019年),综合了40多项分析研究。我们还概述了对模型及其培训制度的拟议修改。然后我们概述了进一步研究的方向。

34
下载
关闭预览

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
【文章|BERT三步使用NLP迁移学习】NLP Transfer Learning In 3 Steps
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Arxiv
5+阅读 · 2019年10月31日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
4+阅读 · 2018年10月31日
VIP会员
最新内容
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
1+阅读 · 今天15:53
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
1+阅读 · 今天15:04
马赛克防御与分布式指挥:伊朗的回击(中文版)
《基于理论的威慑效能评估》
专知会员服务
2+阅读 · 今天14:48
ICML2026 | 重新思考顺序知识编辑中的正则化
专知会员服务
7+阅读 · 5月27日
《用于兵力发展选项优先排序的成本效益模型》
专知会员服务
11+阅读 · 5月27日
AutoResearch AI综述:迈向AI驱动的科学发现自动化
专知会员服务
10+阅读 · 5月26日
《Palantir边缘人工智能》手册
专知会员服务
25+阅读 · 5月26日
Top
微信扫码咨询专知VIP会员