【博士论文】基于信息论探索的强化学习与控制：安全性、最优性及其应用研究

真实世界自主决策面临的一个核心挑战在于不确定性下的操作：任务的约束、动力学特性、甚至目标函数通常在先验状态下是未知的，必须通过交互进行学习。在这种设定下，智能体必须针对不完全知识进行推理，主动采集信息，并确保所有探索性动作都维持在安全操作界限内。这引发了几个关键问题：智能体应如何探索未知领域？哪些轨迹能产生最具信息量的观测数据？获取的知识何时足以完成任务？以及在整个学习过程中如何保证安全性？本论文开发了原则性的框架与算法，分三个部分形式化并解决了上述挑战。首先，我们研究了具有非线性动力系统的先验未知约束下的安全探索问题。我们提出了一种基于最优控制的保证安全探索框架，为探索未知约束提供了有限时间样本复杂度界限，同时确保探索过程以极高概率满足安全性。为了提高效率，我们开发了 SageMPC（基于模型预测控制的保证安全探索算法），该算法利用利普希茨连续性、目标导向探索和收缩时域重新规划（receding-horizon re-planning）来减少冗余探索并加速收敛，同时保留了通用框架的理论保证。其次，我们解决了未知动力学下的安全学习问题。其核心难点在于如何在不过于保守的前提下有效地传播模型不确定性。我们提出了一个基于采样的框架，利用高斯过程（GP）模型，通过有限数量的采样动力学函数构建可证安全的采样可达集。以此为基础，我们开发了一种基于采样的 GP-MPC 算法，保证了高概率下的递归可行性、闭环安全性与稳定性。为了进一步提升性能，我们利用该框架在安全策略空间内通过充分探索实现动力学的在线安全学习。我们引入了一种“悲观-乐观”策略，在对抗模型不确定性以保证安全性的同时，积极瞄准高信息量的状态。即使由于动力学未知而无法到达目标状态，智能体仍能从规划轨迹与执行轨迹之间的偏差中获取信息。基于此框架，我们开发了一种算法，在最大限度提高奖励的同时，仅在实现近优性能所需的范围内学习动力学。与典型的强化学习（RL）方法不同，该方法在非回合制（non-episodic）设定下在线运行，并确保整个学习过程的安全。最后，我们研究了复杂目标下的规划问题，如实验设计、覆盖控制和信息路径规划。在标准强化学习中，状态奖励通常被认为是累加的，且基于马尔可夫假设，奖励独立于此前访问过的状态。然而，许多现实问题违反了这一假设，表现出边际效用递减的特性，即奖励值会随着此前访问过相似状态而降低。为了解决此类问题，我们提出了子模强化学习（SubRL）框架，旨在优化更通用的、由捕获边际效用递减特性的子模集合函数建模的非累加（依赖历史的）奖励。我们确立了基础的硬度结果（hardness results），推导了近优性能保证，并设计了可扩展算法（包括一种自然策略梯度方法），从而实现在大规模组合决策空间中的高效规划。该框架显著扩大了强化学习在具有非累加奖励结构的广泛现实问题中的适用性。