过去十五年间,深度学习迅速演进为现代科学与工程的核心支柱之一,并被广泛视为实现通用人工智能 (General Artificial Intelligence) 最具前景的途径。尽管其在经验层面取得了卓越成功,但在该领域的大部分发展历程中,理论研究始终远滞后于实践进展。本书基于我过去多年积累的文献与笔记编写而成,旨在回应日益增长的学术需求,特别是针对那些希望从数学视角学习并理解深度学习的读者:即提供一个相对连贯、严谨且具备数学根基的深度学习阐述,重点关注深度学习模型的底层结构、基本假设以及理论保证。 从本质上讲,深度学习是一项数学事业。神经网络是函数逼近器;训练对应于求解大规模非凸优化问题;泛化从根本上说是概率与统计问题;而表达能力、稳定性与鲁棒性则受控于逼近理论、函数分析及动力系统的核心思想。本书的目标是提供必要的数学基础,以阐明深度神经网络为何有效、如何对其进行高效训练,以及如何利用深度学习解决机器学习、科学计算、自动控制等领域产生的问题。 我希望本书能令多个领域的读者获益。对于具备数学背景的读者,本书提供了一个切入深度学习的入口,在尊重严谨性与抽象性的同时,保持与现代实践的紧密联系。对于主要受过机器学习或工程训练的读者,本书则提供了更深层的理论视角,将熟悉的术语统一在精确的数学形式化框架之下。在全书中,我倾向于强调假设的清晰性、定义的周密性以及理论与算法之间的显式联系。
本书内容围绕几个基础主题展开。首先将神经网络视为参数化函数族 (Parametric Function Classes),并通过逼近理论的视角研究其表达能力。随后,讨论重点转向支撑深度神经网络训练的优化理论与数值算法。后续章节则探讨深度学习与最优控制、强化学习及生成式建模的整合,凸显主导其设计与行为的数学原理。在可能的情况下,本书均在经典结论与当代前沿进展之间建立了联系。 本书绝非面面俱到,亦非旨在成为一份详尽的综述,而应被视为通过数学导向方法对深度学习进行的入门介绍。它强调那些在该领域极速演进过程中仍可能保持生命力的思想、概念与结论。书中对核心结论提供了证明,并辅以示例与评注,以培养读者的直觉,并展示抽象理论如何指导实际的模型选择。 本书的目标受众包括数学、统计学、计算机科学、电子工程及相关专业的的研究生(以及高年级本科生)和研究人员。读者需具备扎实的微积分序列课程、线性代数及概率论基础,若熟悉高等微积分和实分析将大有裨益。
深度学习持续重塑着应用科学与理论探究。通过从数学视角进行呈现,我希望本书能帮助读者深入理解这一学科,批判性地评估新兴思想,并为将深度学习置于坚实的理论基础之上这一持续努力做出贡献。