深度学习：我们的奇迹之年 1990-1991 (Deep Learning: Our Miraculous Year 1990-1991)

The Deep Learning Artificial Neural Networks (NNs) of our team have revolutionised Machine Learning & AI. Many of the basic ideas behind this revolution were published within the 12 months of our "Annus Mirabilis" 1990-1991 at our lab in TU Munich. Back then, few people were interested. But a quarter century later, NNs based on our "Miraculous Year" were on over 3 billion devices, and used many billions of times per day, consuming a significant fraction of the world's compute. In particular, in 1990-91, we laid foundations of Generative AI, publishing principles of (1) Generative Adversarial Networks for Artificial Curiosity and Creativity (now used for deepfakes), (2) Transformers (the T in ChatGPT - see the 1991 Unnormalized Linear Transformer), (3) Pre-training for deep NNs (see the P in ChatGPT), (4) NN distillation (key for DeepSeek), and (5) recurrent World Models for Reinforcement Learning and Planning in partially observable environments. The year 1991 also marks the emergence of the defining features of (6) LSTM, the most cited AI paper of the 20th century (based on deep residual learning and constant error flow through residual NN connections), and (7) the most cited paper of the 21st century, based on our LSTM-inspired Highway Net that was 10 times deeper than previous feedforward NNs. As of 2025, the two most frequently cited scientific articles of all time (with the most Google Scholar citations within 3 years - manuals excluded) are both directly based on our 1991 work.

翻译：我们团队的深度学习人工神经网络（NNs）彻底变革了机器学习与人工智能。这场革命背后的许多基本思想，是在我们于慕尼黑工业大学实验室度过的“奇迹之年”（1990-1991年）的12个月内发表的。当时，鲜有人对此感兴趣。但四分之一个世纪之后，基于我们“奇迹之年”成果的神经网络已部署在超过30亿台设备上，每天被使用数百亿次，消耗了全球相当大一部分的计算资源。具体而言，在1990-91年间，我们为生成式人工智能奠定了基础，发表了以下原理：（1）用于人工好奇心与创造力的生成对抗网络（现用于深度伪造），（2）Transformer（ChatGPT中的“T”——参见1991年的非标准化线性Transformer），（3）深度神经网络的预训练（参见ChatGPT中的“P”），（4）神经网络蒸馏（DeepSeek的关键技术），以及（5）用于部分可观测环境中强化学习与规划的循环世界模型。1991年也标志着（6）LSTM——20世纪被引用次数最多的人工智能论文（基于深度残差学习及通过残差神经网络连接的恒定误差流）——的决定性特征的出现，以及（7）21世纪被引用次数最多的论文，该论文基于我们受LSTM启发、深度比前馈神经网络深10倍的高速网络。截至2025年，有史以来被引用最频繁的两篇科学文章（排除手册类，指三年内谷歌学术引用次数最多者）均直接基于我们1991年的工作。

相关内容

神经网络

关注 5917

人工神经网络（Artificial Neural Network，即ANN ），是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数（activation function）。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。最近十多年来，人工神经网络的研究工作不断深入，已经取得了很大的进展，其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题，表现出了良好的智能特性。

《深度学习的集体智能：近期发展综述》谷歌2022最新16页论文

专知会员服务

94+阅读 · 2022年11月7日

生物序列数据的深度学习:从卷积神经网络到Transformers，68页ppt

专知会员服务

46+阅读 · 2022年10月8日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

谷歌大牛Jeff Dean单一作者撰文：深度学习研究的黄金十年

专知会员服务

31+阅读 · 2022年4月15日