深度序列模型在广泛的数据模态中取得了巨大的成功。尽管其预测性能卓越,但部署中的主要担忧集中在不确定性感知(uncertainty awareness)的缺失。相比之下,概率模型通过概率法则量化与未观测变量相关的不确定性。值得注意的是,贝叶斯方法利用贝叶斯法则,以原则性(principled)的方式表达在给定观测变量下对未观测变量的信念。由于精确的贝叶斯推断在大规模计算上是不可行的,实践中通常需要近似推断(approximate inference)。 贝叶斯方法(特别是应用于深度神经网络时)的两大瓶颈在于先验指定(prior specification)和近似质量。在第三章和第四章中,我们研究了深度序列模型本身的架构如何为概率模型中的先验指定或近似方法选择提供信息。 1. 首先,基于**注意力机制(attention mechanism)与稀疏高斯过程(sparse Gaussian process)**之间的相似性,我们开发了一种专为 Transformer 架构定制的近似贝叶斯推断方法。 1. 其次,我们利用 HiPPOs(高阶多项式投影算子)的长程记忆保持能力,为高斯过程构建了一个跨域诱导点(interdomain inducing point),从而在在线学习或持续学习中成功实现了对历史信息的记忆。
除了深度序列模型在预测任务中的进展外,由一系列隐变量构成的序列生成模型(如扩散模型)在深度生成模型领域也得到了普及。受扩散模型中这些隐变量具备显式自监督信号的启发,在第五章中,我们探索了利用隐状态自监督信号改进其他深度生成模型的可能性,并研究了序列生成中隐状态序列所需的概率结构。 总体而言,本论文利用深度序列模型中的**归纳偏置(inductive biases)**来设计概率推断或结构,桥接了深度序列模型与概率模型之间的鸿沟,实现了双向的增强与改进。