失控仍是固定翼飞机事故的主要原因,尤其在过失速和平螺旋状态下,传统的增益调度或基于逻辑的改出法则可能失效。本研究将改出螺旋建模为一个连续状态、连续动作的马尔可夫决策过程,并在一个包含非线性气动力、舵面饱和与速率耦合的高保真六自由度F-18/HARV模型上训练一个近端策略优化智能体。一个两阶段的、基于势函数的奖励结构首先惩罚较大的角速率,然后强制飞机进入配平飞行。经过六千次模拟训练后,该策略能够泛化到未见过的失控初始状态。结果表明,学习到的策略能成功抑制角速率并稳定迎角。观察发现,该控制器在从螺旋状态改出方面的性能令人满意,与一种先进的滑模控制器进行了比较。研究结果表明,深度强化学习能够为实时失控缓解提供可解释、动态可行的操纵指令,并为飞行关键强化学习的部署提供了一条途径。
在考虑飞机在不确定情况下的可靠性与安全性时,失控仍然是一个主要问题。飞机飞行伴随着复杂且高度非线性的现象,包括欠驱动特性、多状态间的动态耦合以及非线性气动力。除此之外,飞行包线限制、飞行中建模不精确以及环境不确定性,使得实现受控飞行更加困难。飞机螺旋就是这样一种情况,飞机在完全失速的状态下高度迅速下降。飞机可能陷入接近水平的姿态,这种现象称为平螺旋。在这种情况下,飞机一侧机翼的失速程度大于另一侧,导致其像圆盘一样旋转并迅速掉高度。升降舵的操纵效能在此情景下降至最低。从非线性动力学的角度来看,螺旋状态可被解释为飞机状态空间中的一个吸引极限环,由于惯性力和气动力之间的强动态耦合,系统进入并保持在一种不可控的振荡状态。
文献中讨论过,军用飞机比常规运输机具有更高的螺旋敏感性。有多种螺旋改出技术,最常见的是PARE(动力收至慢车、副翼中立、方向舵反向、升降舵向前)技术,这是一种人工驾驶技术。自动螺旋改出技术涉及预编程的控制器,这些控制器可以实时获取飞机状态,并根据嵌入控制器的螺旋改出逻辑需求生成所需的控制输入。
刚性飞机的运动以六个自由度表征,即三个平动和三个转动。其动力学具有强非线性和强耦合性,因此为飞机开发控制器是一项具有挑战性的任务。实际系统通常还具有输入饱和限制。这些舵面限制会导致控制饱和,控制器无法提供期望的输出。这种输入饱和与不确定性和扰动相结合,经常导致失控。本文讨论了一种基于深度强化学习的飞机螺旋改出控制策略。与经典的固定逻辑控制器不同,强化学习智能体通过在仿真中的试错,学习将多维飞机状态数据转换为最优控制动作。强化学习策略在一个包含非线性气动效应、控制约束和平螺旋动力学的高保真飞行动力学环境中学习;所有这些状态和参数都可以通过观测提供给强化学习智能体。通过与环境的反复交互,智能体习得多种改出机动;这些改出机动可能与传统的自动控制器相似,甚至可能反直觉,与自动控制器生成的逻辑有显著不同。
本工作中,使用称为近端策略优化的强化学习算法解决了螺旋改出问题。第二章介绍了一个大迎角研究机的非线性六自由度仿真模型及其舵面饱和约束。第三章阐述了强化学习的关键概念,并对近端策略优化进行了介绍。第四章描述了近端策略优化在定制F-18/HARV强化学习环境中的实现、为螺旋改出问题设计的奖励函数,以及智能体的训练与测试。第五章展示了仿真结果,并对基于近端策略优化的改出策略及强化学习控制器实现的性能进行了详细讨论。第六章总结了研究,概括了主要发现,并展望了未来方向和扩展,例如为下一代飞行控制系统融入循环网络、安全约束学习及更广泛的包线保护目标。